In [1]:
import torch, gc, os, math, random
import tqdm

  import pynvml  # type: ignore[import]


In [2]:
from pynvml import *

nvmlInit()

In [3]:
from datasets import Dataset, load_dataset
from dataclasses import dataclass
from typing import List, Dict

  from .autonotebook import tqdm as notebook_tqdm


In [4]:
from unsloth import FastLanguageModel

🦥 Unsloth: Will patch your computer to enable 2x faster free finetuning.


  import pynvml  # type: ignore[import]


INFO 09-09 17:10:30 [__init__.py:241] Automatically detected platform cuda.
🦥 Unsloth Zoo will now patch everything to make training faster!


In [4]:
from transformers import TrainingArguments, AutoTokenizer
from trl import SFTConfig, SFTTrainer

In [5]:
device = "cuda" if torch.cuda.is_available() else "cpu"
device

'cuda'

In [6]:
def flush():
    gc.collect()
    if torch.cuda.is_available():
        torch.cuda.empty_cache()

def gpu_mem(note=""):
    if not torch.cuda.is_available():
        print(f"[{note}] No CUDA available.")
        return
    torch.cuda.synchronize()
    alloc = torch.cuda.memory_allocated() / (1024**3)
    resrv = torch.cuda.memory_reserved() / (1024**3)
    peak = torch.cuda.max_memory_allocated() / (1024**3)
    print(f"[{note}] allocated={alloc:.2f}GB, reserved={resrv:.2f}GB, peak={peak:.2f}GB")

def nvidia_mem():
    if not torch.cuda.is_available():
        return

    nvmlInit()
    h = nvmlDeviceGetHandleByIndex(0)
    info = nvmlDeviceGetMemoryInfo(h)
    print(f"NVML used={info.used/(1024**3):.2f}GB / total={info.total/(1024**3):.2f}GB")

In [7]:
flush()
gpu_mem("fresh"); nvidia_mem()

[fresh] allocated=0.00GB, reserved=0.00GB, peak=0.00GB
NVML used=1.28GB / total=23.99GB


## Модель Meta-Llama-3.1-8B-Instruct-bnb-4bit от Unsloth

In [14]:
!git config --global credential.helper store

In [15]:
# !git clone https://viv232:hf_xxxxx@huggingface.co/meta-llama/Llama-3.1-8B-Instruct

Клонирование в «Llama-3.1-8B-Instruct»...
remote: Enumerating objects: 109, done.[K
remote: Counting objects: 100% (106/106), done.[K
remote: Compressing objects: 100% (106/106), done.[K
remote: Total 109 (delta 53), reused 0 (delta 0), pack-reused 3 (from 1)[K
Получение объектов: 100% (109/109), 2.28 МиБ | 4.57 МиБ/с, готово.
Определение изменений: 100% (53/53), готово.


In [17]:
# model_name = "meta-llama/Llama-3.1-8B-Instruct"

In [9]:
!git clone https://huggingface.co/unsloth/Meta-Llama-3.1-8B-Instruct-bnb-4bit

Клонирование в «Meta-Llama-3.1-8B-Instruct-bnb-4bit»...
remote: Enumerating objects: 131, done.[K
remote: Counting objects: 100% (128/128), done.[K
remote: Compressing objects: 100% (128/128), done.[K
remote: Total 131 (delta 44), reused 0 (delta 0), pack-reused 3 (from 1)[K
Получение объектов: 100% (131/131), 2.30 МиБ | 3.76 МиБ/с, готово.
Определение изменений: 100% (44/44), готово.


In [9]:
model_name = "unsloth/Meta-Llama-3.1-8B-Instruct-bnb-4bit"

In [10]:
max_seq_length = 1024

flush()
gpu_mem("before load QLoRA")

[before load QLoRA] allocated=0.00GB, reserved=0.00GB, peak=0.00GB


In [11]:
model, tokenizer = FastLanguageModel.from_pretrained(
    model_name=model_name,
    max_seq_length=max_seq_length,
    dtype=None,
    load_in_4bit=True,    # QLoRA
)

==((====))==  Unsloth 2025.9.1: Fast Llama patching. Transformers: 4.56.1. vLLM: 0.10.1.1.
   \\   /|    NVIDIA GeForce RTX 3090 Ti. Num GPUs = 2. Max memory: 23.536 GB. Platform: Linux.
O^O/ \_/ \    Torch: 2.7.1+cu126. CUDA: 8.6. CUDA Toolkit: 12.6. Triton: 3.3.1
\        /    Bfloat16 = TRUE. FA [Xformers = 0.0.31. FA2 = False]
 "-____-"     Free license: http://github.com/unslothai/unsloth
Unsloth: Fast downloading is enabled - ignore downloading bars which are red colored!


In [12]:
model = FastLanguageModel.get_peft_model(
    model,
    r = 16, # Choose any number > 0 ! Suggested 8, 16, 32, 64, 128
    target_modules = ["q_proj", "k_proj", "v_proj", "o_proj",
                      "gate_proj", "up_proj", "down_proj",],
    lora_alpha = 16,
    lora_dropout = 0, # Supports any, but = 0 is optimized
    bias = "none",    # Supports any, but = "none" is optimized
    # [NEW] "unsloth" uses 30% less VRAM, fits 2x larger batch sizes!
    use_gradient_checkpointing = "unsloth", # True or "unsloth" for very long context
    random_state = 3407,
    use_rslora = False,  # We support rank stabilized LoRA
    loftq_config = None, # And LoftQ
)

Unsloth 2025.9.1 patched 32 layers with 32 QKV layers, 32 O layers and 32 MLP layers.


In [13]:
gpu_mem("after load QLoRA")
nvidia_mem()

[after load QLoRA] allocated=5.50GB, reserved=5.52GB, peak=7.02GB
NVML used=6.64GB / total=23.99GB


In [14]:
tokenizer.eos_token

'<|eot_id|>'

In [15]:
print(f"Чат-шаблон: {tokenizer.chat_template}")

Чат-шаблон: {{- bos_token }}
{%- if custom_tools is defined %}
    {%- set tools = custom_tools %}
{%- endif %}
{%- if not tools_in_user_message is defined %}
    {%- set tools_in_user_message = true %}
{%- endif %}
{%- if not date_string is defined %}
    {%- set date_string = "26 Jul 2024" %}
{%- endif %}
{%- if not tools is defined %}
    {%- set tools = none %}
{%- endif %}

{#- This block extracts the system message, so we can slot it into the right place. #}
{%- if messages[0]['role'] == 'system' %}
    {%- set system_message = messages[0]['content']|trim %}
    {%- set messages = messages[1:] %}
{%- else %}
    {%- set system_message = "" %}
{%- endif %}

{#- System message + builtin tools #}
{{- "<|start_header_id|>system<|end_header_id|>\n\n" }}
{%- if builtin_tools is defined or tools is not none %}
    {{- "Environment: ipython\n" }}
{%- endif %}
{%- if builtin_tools is defined %}
    {{- "Tools: " + builtin_tools | reject('equalto', 'code_interpreter') | join(", ") + "\n\n"

### Оценка до LoRA

In [16]:
FastLanguageModel.for_inference(model)

PeftModelForCausalLM(
  (base_model): LoraModel(
    (model): LlamaForCausalLM(
      (model): LlamaModel(
        (embed_tokens): Embedding(128256, 4096, padding_idx=128004)
        (layers): ModuleList(
          (0-31): 32 x LlamaDecoderLayer(
            (self_attn): LlamaAttention(
              (q_proj): lora.Linear4bit(
                (base_layer): Linear4bit(in_features=4096, out_features=4096, bias=False)
                (lora_dropout): ModuleDict(
                  (default): Identity()
                )
                (lora_A): ModuleDict(
                  (default): Linear(in_features=4096, out_features=16, bias=False)
                )
                (lora_B): ModuleDict(
                  (default): Linear(in_features=16, out_features=4096, bias=False)
                )
                (lora_embedding_A): ParameterDict()
                (lora_embedding_B): ParameterDict()
                (lora_magnitude_vector): ModuleDict()
              )
              (k_proj): lor

In [14]:
prompts_for_test = [
    'Как вкусно приготовить индейку на гриле?',
    'Как распознать приближающийся инсульт?',
    'Сформулируй основные каноны архитектуры древних цивилизаций',
    'Облагать ли страховыми взносами суммы прощенного долга по займу от организации где работает застрахованный?',
    'Расскажи мне про Курчатова'
]

In [15]:
def generate_answer(prompt):
    dialog = tokenizer.apply_chat_template([{"role": "user", "content": prompt}], 
                                           tokenize=False, 
                                           add_generation_prompt=True)
    inputs = tokenizer(dialog, return_tensors = "pt").to("cuda")
    outputs = model.generate(**inputs, max_new_tokens=300, use_cache=True)
    return tokenizer.batch_decode(outputs)[0].split("assistant")[-1]

In [19]:
for text in prompts_for_test:
    print(generate_answer(text))
    print('-' * 50)

<|end_header_id|>

Чтобы приготовить вкусную индейку на гриле, следуйте этим рекомендациям:

**Приготовление индейки на гриле:**

Ингредиенты:

*   1 индейка (весом 1,5-2 кг)
*   2 столовые ложки оливкового масла
*   1 чайная ложка соли
*   1 чайная ложка черного перца
*   1 чайная ложка паприки
*   1 чайная ложка чеснока, измельченного
*   1 луковица, измельченная
*   2 веточки розмарина (по желанию)
*   1 лимон, нарезанный (по желанию)

**Подготовка индейки:**

1.  Налейте индейку в форму для гриля или на противень.
2.  В миске смешайте оливковое масло, соль, черный перец, паприку, чеснок и лук.
3.  Нанесите смесь на индейку, равномерно распределив ее по всей поверхности.
4.  Добавьте розмарин и лимон по желанию.

**Гриляние индейки:**

1.  Разогрейте гриль до средней температуры.
2.  П
--------------------------------------------------
<|end_header_id|>

Приближающийся инсульт может быть сложно распознать, особенно в его ранних стадиях. Однако существуют некоторые признаки и симптом

lm_eval --model hf \
    --model_args pretrained=unsloth/Meta-Llama-3.1-8B-Instruct-bnb-4bit,dtype="float" \
    --tasks truthfulqa_ru_mc1 \
    --device cuda:0 \
    --batch_size auto:4

In [52]:
!bash ./lm-evaluation-harness/run_lmesh.sh

huggingface/tokenizers: The current process just got forked, after parallelism has already been used. Disabling parallelism to avoid deadlocks...
	- Avoid using `tokenizers` before the fork if possible
	- Explicitly set the environment variable TOKENIZERS_PARALLELISM=(true | false)


  import pynvml  # type: ignore[import]
INFO 09-09 14:33:34 [__init__.py:241] Automatically detected platform cuda.
2025-09-09:14:33:36 INFO     [__main__:446] Selected Tasks: ['truthfulqa_ru_mc1']
        not applied. Recommend setting `apply_chat_template` (optionally `fewshot_as_multiturn`).
2025-09-09:14:33:36 INFO     [evaluator:202] Setting random seed to 0 | Setting numpy seed to 1234 | Setting torch manual seed to 1234 | Setting fewshot manual seed to 1234
2025-09-09:14:33:36 INFO     [evaluator:240] Initializing hf model, with arguments: {'pretrained': 'unsloth/Meta-Llama-3.1-8B-Instruct-bnb-4bit', 'dtype': 'float'}
2025-09-09:14:33:36 INFO     [models.huggingface:147] Using device 'cuda:0'
2025-09-09:14:33:37 INFO     [models.huggingface:414] Model parallel was set to False, max memory was not set, and device map was set to {'': 'cuda:0'}
`torch_dtype` is deprecated! Use `dtype` instead!
2025-09-09:14:33:42 INFO     [api.task:434] Building contexts for truthfulqa_ru_mc1 on ra

### Подготовка данных

In [19]:
vikhr_dataset = load_dataset("Vikhrmodels/GrandMaster-PRO-MAX", split="train")

Generating train split: 100%|██████████| 151822/151822 [00:00<00:00, 171669.37 examples/s]
Generating test split: 100%|██████████| 3291/3291 [00:00<00:00, 157742.95 examples/s]


In [20]:
vikhr_dataset

Dataset({
    features: ['source', 'conversation', 'prompt_tokens', 'answer_tokens', 'cluster', 'prompt_lang', 'answer_lang'],
    num_rows: 151822
})

In [21]:
def filter_russian(example):
    return example['prompt_lang'] == 'ru' and example['answer_lang'] == 'ru'

In [23]:
vikhr_dataset = vikhr_dataset.filter(filter_russian)

Filter: 100%|██████████| 151822/151822 [00:01<00:00, 101434.43 examples/s]


In [24]:
len(vikhr_dataset)

86295

In [25]:
vikhr_dataset[1]["conversation"]

[{'content': 'слушай, у меня тут возникла задачка по архитектуре компьютера, и я не могу в ней разобраться. мне нужно разработать алгоритм, который оптимизирует доступ к кэш-памяти в многоядерном процессоре для параллельных вычислений. ты не мог бы помочь с этим? вот как я представляю задачу:\n\n1. имеется многоядерный процессор с общим кэшем второго уровня.\n2. необходимо минимизировать промахи кэша при параллельном выполнении нескольких интенсивных задач по обработке данных.\n3. алгоритм должен распределять данные таким образом, чтобы максимально использовать преимущества локальности данных и минимизировать конфликтные промахи.\n\nможет есть идеи, как это можно организовать на уровне алгоритма? буду рад любым предложениям и советам!',
  'role': 'user'},
 {'content': 'Ваша задача действительно интересная и актуальная в контексте современных многоядерных процессоров. Для оптимизации доступа к кэш-памяти важно учитывать такие аспекты, как пространственная и временная локальность данных,

In [26]:
tokenizer.apply_chat_template(vikhr_dataset[1]["conversation"], tokenize=False)

'<|begin_of_text|><|start_header_id|>system<|end_header_id|>\n\nCutting Knowledge Date: December 2023\nToday Date: 26 Jul 2024\n\n<|eot_id|><|start_header_id|>user<|end_header_id|>\n\nслушай, у меня тут возникла задачка по архитектуре компьютера, и я не могу в ней разобраться. мне нужно разработать алгоритм, который оптимизирует доступ к кэш-памяти в многоядерном процессоре для параллельных вычислений. ты не мог бы помочь с этим? вот как я представляю задачу:\n\n1. имеется многоядерный процессор с общим кэшем второго уровня.\n2. необходимо минимизировать промахи кэша при параллельном выполнении нескольких интенсивных задач по обработке данных.\n3. алгоритм должен распределять данные таким образом, чтобы максимально использовать преимущества локальности данных и минимизировать конфликтные промахи.\n\nможет есть идеи, как это можно организовать на уровне алгоритма? буду рад любым предложениям и советам!<|eot_id|><|start_header_id|>assistant<|end_header_id|>\n\nВаша задача действительно и

In [27]:
def formatting_func(example):
    return {"text": tokenizer.apply_chat_template(example["conversation"], tokenize=False)}

In [28]:
check_data_prep = vikhr_dataset.select(range(5))

In [29]:
len(check_data_prep)

5

In [30]:
check_data = check_data_prep.map(formatting_func)

Map: 100%|██████████| 5/5 [00:00<00:00, 1229.86 examples/s]


In [31]:
check_data

Dataset({
    features: ['source', 'conversation', 'prompt_tokens', 'answer_tokens', 'cluster', 'prompt_lang', 'answer_lang', 'text'],
    num_rows: 5
})

In [32]:
check_data[0]

{'source': 'generated/saiga/tagengo/lmsys_pref',
 'conversation': [{'content': 'мне очень интересны стратегические игры, и я недавно узнал про игру ним. не мог бы ты объяснить мне стратегию оптимальной игры в ним? и еще, если есть, поделись интересным вариантом игры в крестики-нолики или другие стратегические головоломки, в которые мы могли бы сыграть вместе. как насчет того, чтобы рассмотреть 15 puzzle? мне бы хотелось узнать, есть ли для неё какая-то выигрышная стратегия или подход, который гарантирует победу.',
   'role': 'user'},
  {'content': 'Расскажу тебе о стратегиях игры в Ним и затрону тему 15 Puzzle.\n\n### Стратегия оптимальной игры в Ним\n\nИгра Ним — это математическая игра, для которой существует чёткая выигрышная стратегия. Основа стратегии лежит в понятии ним-суммы — это побитовое исключающее ИЛИ (XOR) размеров кучек.\n\nОптимальная стратегия заключается в следующем:\n\n1. Вычисли ним-сумму всех кучек.\n2. Если ним-сумма равна нулю, то ваше положение проигрышное при оп

In [33]:
check_data[0]["text"]

'<|begin_of_text|><|start_header_id|>system<|end_header_id|>\n\nCutting Knowledge Date: December 2023\nToday Date: 26 Jul 2024\n\n<|eot_id|><|start_header_id|>user<|end_header_id|>\n\nмне очень интересны стратегические игры, и я недавно узнал про игру ним. не мог бы ты объяснить мне стратегию оптимальной игры в ним? и еще, если есть, поделись интересным вариантом игры в крестики-нолики или другие стратегические головоломки, в которые мы могли бы сыграть вместе. как насчет того, чтобы рассмотреть 15 puzzle? мне бы хотелось узнать, есть ли для неё какая-то выигрышная стратегия или подход, который гарантирует победу.<|eot_id|><|start_header_id|>assistant<|end_header_id|>\n\nРасскажу тебе о стратегиях игры в Ним и затрону тему 15 Puzzle.\n\n### Стратегия оптимальной игры в Ним\n\nИгра Ним — это математическая игра, для которой существует чёткая выигрышная стратегия. Основа стратегии лежит в понятии ним-суммы — это побитовое исключающее ИЛИ (XOR) размеров кучек.\n\nОптимальная стратегия зак

In [34]:
train_data = vikhr_dataset.map(formatting_func)

Map: 100%|██████████| 86295/86295 [00:10<00:00, 8503.30 examples/s] 


### train

In [35]:
from unsloth import is_bfloat16_supported

trainer = SFTTrainer(
    model=model,
    tokenizer=tokenizer,
    train_dataset=train_data,
    dataset_text_field="text",
    max_seq_length = max_seq_length,
    dataset_num_proc = 2,
    packing = False, # Can make training 5x faster for short sequences.
    args = SFTConfig(
        fp16 = not is_bfloat16_supported(),
        bf16 = is_bfloat16_supported(),
        per_device_train_batch_size=4,
        gradient_accumulation_steps=4,
        warmup_steps=30,
        num_train_epochs=1,
        max_steps=100,
        learning_rate=2e-3,
        logging_steps=1,
        optim="adamw_8bit",
        weight_decay = 0.01,
        lr_scheduler_type = "linear",
        seed = 3407,
        output_dir = "outputs",
        report_to = "none", # Use this for WandB etc
    ),
)

Unsloth: Tokenizing ["text"] (num_proc=24): 100%|██████████| 86295/86295 [00:07<00:00, 11717.37 examples/s]


In [36]:
gpu_mem("QLoRA before train")

[QLoRA before train] allocated=5.50GB, reserved=5.52GB, peak=7.02GB


In [37]:
!python -c "import torch; print(torch.__version__); print(torch.cuda.is_available())"

  import pynvml  # type: ignore[import]
2.7.1+cu126
True


In [38]:
import os
os.environ["PYTORCH_ENABLE_MPS_FALLBACK"] = "0"
os.environ["CUDA_VISIBLE_DEVICES"] = "0"

In [39]:
print(f"CUDA available: {torch.cuda.is_available()}")
print(f"CUDA device count: {torch.cuda.device_count()}")
print(f"Current device: {torch.cuda.current_device()}")
print(f"Device name: {torch.cuda.get_device_name(0)}")

CUDA available: True
CUDA device count: 2
Current device: 0
Device name: NVIDIA GeForce RTX 3090 Ti


In [40]:
trainer_stats = trainer.train()

==((====))==  Unsloth - 2x faster free finetuning | Num GPUs used = 1
   \\   /|    Num examples = 86,295 | Num Epochs = 1 | Total steps = 100
O^O/ \_/ \    Batch size per device = 8 | Gradient accumulation steps = 4
\        /    Data Parallel GPUs = 1 | Total batch size (8 x 4 x 1) = 32
 "-____-"     Trainable parameters = 41,943,040 of 8,072,204,288 (0.52% trained)


Unsloth: Will smartly offload gradients to save VRAM!


Step,Training Loss
1,1.319
2,1.505
3,1.4398
4,1.3942
5,1.2066
6,1.2157
7,1.0303
8,1.0842
9,1.0802
10,1.1213


In [41]:
gpu_mem("QLoRA after train"); nvidia_mem()

[QLoRA after train] allocated=5.77GB, reserved=10.22GB, peak=11.74GB
NVML used=11.35GB / total=23.99GB


In [42]:
model.save_pretrained("lora_model")
tokenizer.save_pretrained("lora_model")

('lora_model/tokenizer_config.json',
 'lora_model/special_tokens_map.json',
 'lora_model/chat_template.jinja',
 'lora_model/tokenizer.json')

### Оценка

In [11]:
model, tokenizer = FastLanguageModel.from_pretrained(
    model_name="lora_model",
    max_seq_length=max_seq_length,
    dtype=None,
    load_in_4bit=True,    # QLoRA
)

==((====))==  Unsloth 2025.9.1: Fast Llama patching. Transformers: 4.56.1. vLLM: 0.10.1.1.
   \\   /|    NVIDIA GeForce RTX 3090 Ti. Num GPUs = 2. Max memory: 23.536 GB. Platform: Linux.
O^O/ \_/ \    Torch: 2.7.1+cu126. CUDA: 8.6. CUDA Toolkit: 12.6. Triton: 3.3.1
\        /    Bfloat16 = TRUE. FA [Xformers = 0.0.31. FA2 = False]
 "-____-"     Free license: http://github.com/unslothai/unsloth
Unsloth: Fast downloading is enabled - ignore downloading bars which are red colored!


Unsloth 2025.9.1 patched 32 layers with 32 QKV layers, 32 O layers and 32 MLP layers.


In [13]:
model.save_pretrained_merged("llama-3.1-8B-instruct_lora_ru", tokenizer, save_method="merged_16bit")

Found HuggingFace hub cache directory: /home/viv232/.cache/huggingface/hub


Fetching 1 files: 100%|██████████| 1/1 [00:00<00:00,  1.43it/s]


Checking cache directory for required files...
Cache check failed: model-00001-of-00004.safetensors not found in local cache.
Not all required files found in cache. Will proceed with downloading.


Unsloth: Merging weights into 16bit: 100%|██████████| 4/4 [36:15<00:00, 543.96s/it]


In [16]:
for text in prompts_for_test:
    print(generate_answer(text))
    print('-' * 50)

<|end_header_id|>

Конечно, давайте разберемся, как можно приготовить вкусную индейку на гриле.

### Шаги приготовления индейки на гриле:

#### Шаг 1: Подготовка индейки
Прежде всего, убедитесь, что у вас есть свежая индейка. Если индейка заморожена, её нужно разморозить.

#### Шаг 2: Маринад
Маринад помогает индейке стать более сочной и ароматной. В блендере смешайте:
- 1/2 стакана оливкового масла
- 2 столовые ложки лимонного сока
- 1 столовая ложка соли
- 1 столовая ложка сахара
- 2 зубчика чеснока, измельченного
- 1 чайную ложку молотого черного перца
- 1 чайную ложку молотого орегано
- 1 чайную ложку молотого розмарина

#### Шаг 3: Нарезка индейки
Нарежьте индейку на порции. Если у вас есть грудка, режьте её поперёк волокон на порции. Если у вас есть ножка, режьте её на порции по 1-2 стебельцам. Если у
--------------------------------------------------
<|end_header_id|>

Исходя из вашего вопроса, можно предположить, что вы ищете информацию о признаках приближающегося инсульта. Инс

In [18]:
gpu_mem("QLoRA before train")

[QLoRA before train] allocated=5.69GB, reserved=5.84GB, peak=7.08GB


In [20]:
nvidia_mem()

NVML used=7.19GB / total=23.99GB


In [23]:
# del model
# del tokenizer
# del trainer

In [26]:
gc.collect()

44949

In [27]:
gpu_mem("QLoRA before train")

[QLoRA before train] allocated=0.12GB, reserved=5.84GB, peak=7.08GB


In [28]:
nvidia_mem()

NVML used=7.28GB / total=23.99GB


In [29]:
if torch.cuda.is_available():
    torch.cuda.empty_cache()
    torch.cuda.synchronize()

In [30]:
gpu_mem("QLoRA before train")

[QLoRA before train] allocated=0.12GB, reserved=0.16GB, peak=7.08GB


In [31]:
nvidia_mem()

NVML used=1.58GB / total=23.99GB


In [33]:
nvidia_mem()

NVML used=1.57GB / total=23.99GB


In [32]:
!bash ./lm-evaluation-harness/run_lmesh_lora.sh

huggingface/tokenizers: The current process just got forked, after parallelism has already been used. Disabling parallelism to avoid deadlocks...
	- Avoid using `tokenizers` before the fork if possible
	- Explicitly set the environment variable TOKENIZERS_PARALLELISM=(true | false)


  import pynvml  # type: ignore[import]
INFO 09-09 18:16:51 [__init__.py:241] Automatically detected platform cuda.
2025-09-09:18:16:53 INFO     [__main__:446] Selected Tasks: ['truthfulqa_ru_mc1']
        Recommend setting `apply_chat_template` (optionally `fewshot_as_multiturn`).
2025-09-09:18:16:53 INFO     [evaluator:202] Setting random seed to 0 | Setting numpy seed to 1234 | Setting torch manual seed to 1234 | Setting fewshot manual seed to 1234
2025-09-09:18:16:53 INFO     [evaluator:240] Initializing hf model, with arguments: {'pretrained': 'llama-3.1-8B-instruct_lora_ru', 'dtype': 'float'}
2025-09-09:18:16:53 INFO     [models.huggingface:147] Using device 'cuda:0'
2025-09-09:18:16:53 INFO     [models.huggingface:414] Model parallel was set to False, max memory was not set, and device map was set to {'': 'cuda:0'}
`torch_dtype` is deprecated! Use `dtype` instead!
Loading checkpoint shards:  50%|█████████         | 2/4 [00:01<00:01,  1.72it/s]
Traceback (most recent call last):


In [34]:
model, tokenizer = FastLanguageModel.from_pretrained(
    model_name="lora_model",
    max_seq_length=max_seq_length,
    dtype=None,
    load_in_4bit=True,    # QLoRA
)

==((====))==  Unsloth 2025.9.1: Fast Llama patching. Transformers: 4.56.1. vLLM: 0.10.1.1.
   \\   /|    NVIDIA GeForce RTX 3090 Ti. Num GPUs = 2. Max memory: 23.536 GB. Platform: Linux.
O^O/ \_/ \    Torch: 2.7.1+cu126. CUDA: 8.6. CUDA Toolkit: 12.6. Triton: 3.3.1
\        /    Bfloat16 = TRUE. FA [Xformers = 0.0.31. FA2 = False]
 "-____-"     Free license: http://github.com/unslothai/unsloth
Unsloth: Fast downloading is enabled - ignore downloading bars which are red colored!


In [36]:
model.save_pretrained_merged("llama-3.1-8B-instruct_lora_ru-4bit", tokenizer, save_method="merged_4bit_forced")

Unsloth: Merging LoRA weights into 4bit model...




Unsloth: Merging finished.
Unsloth: Found skipped modules: ['lm_head']. Updating config.
Unsloth: Saving merged 4bit model to llama-3.1-8B-instruct_lora_ru-4bit...
Unsloth: Merged 4bit model saved.
Unsloth: Merged 4bit model process completed.


In [37]:
!bash ./lm-evaluation-harness/run_lmesh_lora.sh

huggingface/tokenizers: The current process just got forked, after parallelism has already been used. Disabling parallelism to avoid deadlocks...
	- Avoid using `tokenizers` before the fork if possible
	- Explicitly set the environment variable TOKENIZERS_PARALLELISM=(true | false)


  import pynvml  # type: ignore[import]
INFO 09-09 18:28:38 [__init__.py:241] Automatically detected platform cuda.
2025-09-09:18:28:40 INFO     [__main__:446] Selected Tasks: ['truthfulqa_ru_mc1']
        applied. Recommend setting `apply_chat_template` (optionally `fewshot_as_multiturn`).
2025-09-09:18:28:40 INFO     [evaluator:202] Setting random seed to 0 | Setting numpy seed to 1234 | Setting torch manual seed to 1234 | Setting fewshot manual seed to 1234
2025-09-09:18:28:40 INFO     [evaluator:240] Initializing hf model, with arguments: {'pretrained': 'llama-3.1-8B-instruct_lora_ru-4bit', 'dtype': 'float'}
2025-09-09:18:28:40 INFO     [models.huggingface:147] Using device 'cuda:0'
2025-09-09:18:28:40 INFO     [models.huggingface:414] Model parallel was set to False, max memory was not set, and device map was set to {'': 'cuda:0'}
`torch_dtype` is deprecated! Use `dtype` instead!
Loading checkpoint shards: 100%|██████████████████| 2/2 [00:00<00:00,  3.12it/s]
README.md: 3.45kB [00

## Модель YandexGPT-5-Lite-8B-instruct LoRA PEFT

In [8]:
from transformers import AutoModelForCausalLM, AutoTokenizer, TrainingArguments, Trainer, DataCollatorForLanguageModeling
from peft import LoraConfig, get_peft_model, prepare_model_for_kbit_training
from datasets import load_dataset
import torch
from transformers import BitsAndBytesConfig

In [9]:
import os
os.environ['UNSLOTH_DISABLE'] = '1'

In [10]:
model_name = "yandex/YandexGPT-5-Lite-8B-instruct"

In [11]:
# Конфигурация 4-битной квантизации для QLoRA
bnb_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_use_double_quant=True,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_compute_dtype=torch.float16
)

In [12]:
# Загрузка токенизатора
tokenizer = AutoTokenizer.from_pretrained(
    model_name,
    trust_remote_code=True,
    use_fast=False
)

In [13]:
tokenizer.eos_token

'</s>'

In [14]:
tokenizer.pad_token

In [15]:
if tokenizer.pad_token is None:
    tokenizer.pad_token = tokenizer.eos_token

In [16]:
# Загрузка модели
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    quantization_config=bnb_config,
    device_map="auto",
    dtype=torch.float16,  # Явно указываем тип данных
    trust_remote_code=True,
    use_cache=False,  # Должно быть False при gradient checkpointing
    low_cpu_mem_usage=False
)

Loading checkpoint shards: 100%|██████████| 4/4 [00:50<00:00, 12.74s/it]


In [17]:
# Подготовка модели для k-bit обучения
model = prepare_model_for_kbit_training(model)

In [18]:
gpu_mem("QLoRA before train")

[QLoRA before train] allocated=2.81GB, reserved=4.11GB, peak=3.79GB


In [19]:
nvidia_mem()

NVML used=5.38GB / total=23.99GB


In [20]:
from peft import LoraConfig, get_peft_model

In [21]:
for name, module in model.named_modules():
    if "proj" in name:
        print(name)

model.layers.0.self_attn.q_proj
model.layers.0.self_attn.k_proj
model.layers.0.self_attn.v_proj
model.layers.0.self_attn.o_proj
model.layers.0.mlp.gate_proj
model.layers.0.mlp.up_proj
model.layers.0.mlp.down_proj
model.layers.1.self_attn.q_proj
model.layers.1.self_attn.k_proj
model.layers.1.self_attn.v_proj
model.layers.1.self_attn.o_proj
model.layers.1.mlp.gate_proj
model.layers.1.mlp.up_proj
model.layers.1.mlp.down_proj
model.layers.2.self_attn.q_proj
model.layers.2.self_attn.k_proj
model.layers.2.self_attn.v_proj
model.layers.2.self_attn.o_proj
model.layers.2.mlp.gate_proj
model.layers.2.mlp.up_proj
model.layers.2.mlp.down_proj
model.layers.3.self_attn.q_proj
model.layers.3.self_attn.k_proj
model.layers.3.self_attn.v_proj
model.layers.3.self_attn.o_proj
model.layers.3.mlp.gate_proj
model.layers.3.mlp.up_proj
model.layers.3.mlp.down_proj
model.layers.4.self_attn.q_proj
model.layers.4.self_attn.k_proj
model.layers.4.self_attn.v_proj
model.layers.4.self_attn.o_proj
model.layers.4.mlp.g

In [22]:
# Настройка LoRA
lora_config = LoraConfig(
    r=16,  # Ранг
    lora_alpha=16,  # Коэффициент масштабирования
    target_modules=["q_proj", "k_proj", "v_proj", "o_proj", "gate_proj", "up_proj", "down_proj"],
    lora_dropout=0.05,
    bias="none",
    task_type="CAUSAL_LM",
)

In [23]:
# Применение LoRA к модели
model = get_peft_model(model, lora_config)
model.print_trainable_parameters()

trainable params: 41,943,040 || all params: 8,078,495,744 || trainable%: 0.5192


### Подготовка данных

In [24]:
from datasets import Dataset

In [25]:
vikhr_dataset = load_dataset("Vikhrmodels/GrandMaster-PRO-MAX", split="train")

In [26]:
if len(vikhr_dataset) > 10000:
    vikhr_dataset = vikhr_dataset.select(range(10000))

In [27]:
len(vikhr_dataset)

10000

In [28]:
def filter_russian(example):
    return example['prompt_lang'] == 'ru' and example['answer_lang'] == 'ru'

In [29]:
vikhr_dataset = vikhr_dataset.filter(filter_russian)

In [30]:
dataset = Dataset.from_list(vikhr_dataset)

In [31]:
def formatting_func(example):

    conversation = example["conversation"]
    
    # Токенизируем с применением чат-шаблона
    # Сначала получаем текст из чат-шаблона
    text = tokenizer.apply_chat_template(
        conversation,
        tokenize=False,  # Не токенизируем, получаем текст
        truncation=True,
        max_length=1024,
        padding=False,  # Не добавляем паддинг здесь
    )
    
    # Теперь токенизируем текст обычным способом
    tokenized = tokenizer(
        text,
        truncation=True,
        max_length=1024,
        padding="max_length",
        return_tensors=None
    )
    
    # print(f'input_ids: {tokenized["input_ids"][:10]}...')  # Первые 10 токенов
    # print(f'attention_mask: {tokenized["attention_mask"][:10]}...')
    
    return {
        "input_ids": tokenized["input_ids"],
        "attention_mask": tokenized["attention_mask"],
        "labels": tokenized["input_ids"].copy()  # Копируем для labels
    }
    
    # # Токенизируем с применением чат-шаблона
    # tokenized = tokenizer.apply_chat_template(
    #     example["conversation"],
    #     # tokenize=True,
    #     truncation=True,
    #     max_length=1024,
    #     padding="max_length",  # Добавляем паддинг до максимальной длины
    #     return_tensors=None
    # )

    # # Создаем attention_mask
    # # attention_masks = []
    # # mask = [token_id != tokenizer.pad_token_id for token_id in input_ids]
    # # attention_masks.append(mask)

    # print(tokenized)
    # print(f'input_ids: {tokenized["input_ids"]}')
    # print(f'attention_mask: {tokenized["attention_mask"]}')
    
    # return {
    #     "input_ids": tokenized["input_ids"],
    #     "attention_mask": tokenized["attention_mask"],
    #     "labels": tokenized["input_ids"].copy()  # Копируем для labels
    # }

In [32]:
check_data_prep = dataset.select(range(5))

In [33]:
check_data = check_data_prep.map(formatting_func,
                                 batched=False,
                                 # batch_size=1000,
                                 remove_columns=check_data_prep.column_names  # Удаляем оригинальные колонки
                                )

Map: 100%|██████████| 5/5 [00:00<00:00, 323.23 examples/s]


In [34]:
check_data

Dataset({
    features: ['input_ids', 'attention_mask', 'labels'],
    num_rows: 5
})

In [35]:
tokenized_dataset = dataset.map(
    formatting_func,
    batched=False,
    remove_columns=dataset.column_names
)

Map: 100%|██████████| 9906/9906 [00:04<00:00, 2268.72 examples/s]


In [36]:
print("Input IDs:", tokenized_dataset[0]["input_ids"][:10])
print("Attention mask:", tokenized_dataset[0]["attention_mask"][:10])
print("Length:", len(tokenized_dataset[0]["input_ids"]))

Input IDs: [1, 1, 16861, 125851, 1759, 1403, 52612, 26900, 2019, 5386]
Attention mask: [1, 1, 1, 1, 1, 1, 1, 1, 1, 1]
Length: 1024


In [37]:
prompts_for_test = [
    'Как вкусно приготовить индейку на гриле?',
    'Как распознать приближающийся инсульт?',
    'Сформулируй основные каноны архитектуры древних цивилизаций',
    'Облагать ли страховыми взносами суммы прощенного долга по займу от организации где работает застрахованный?',
    'Расскажи мне про Курчатова'
]

In [38]:
def generate_answer(prompt):
    dialog = tokenizer.apply_chat_template(
        [{"role": "user", "content": prompt}], 
        tokenize=False, 
        add_generation_prompt=True
    )
    inputs = tokenizer(dialog, return_tensors="pt").to(model.device)
    
    with torch.no_grad():
        outputs = model.generate(
            **inputs, 
            max_new_tokens=300,
            do_sample=True,
            temperature=0.7,
            top_p=0.9,
            pad_token_id=tokenizer.pad_token_id
        )
    
    response = tokenizer.decode(outputs[0], skip_special_tokens=True)
    # Извлекаем только ответ ассистента
    if "assistant" in response:
        return response.split("assistant")[-1].strip()
    return response

In [39]:
for text in prompts_for_test:
    print(generate_answer(text))
    print('-' * 50)

Пользователь: Как вкусно приготовить индейку на гриле?

 Ассистент: [SEP] Чтобы вкусно приготовить индейку на гриле, можно воспользоваться следующим рецептом:

**Ингредиенты:**
* индейка (любые части, например, крылья, грудка или ножки) — 1 кг;
* оливковое масло — 2 ст. л.;
* чеснок — 3–4 зубчика;
* свежий розмарин — 1 веточка;
* свежий тимьян — 1 веточка;
* свежий орегано (или другие травы по вкусу) — 1 веточка;
* соль — по вкусу;
* чёрный перец (молотый) — по вкусу;
* лимонный сок — 2 ст. л. (по желанию).

**Приготовление:**
1. Разогрейте гриль до средней температуры.
2. Смешайте оливковое масло, измельчённый чеснок, травы, соль и перец в миске.
3. Натрите этой смесью кусочки индейки со всех сторон.
4. Оставьте мариноваться на 30–60 минут (или на ночь, если есть время).
5. Выложите индейку на гриль и жарьте, переворачивая, до золотистой корочки и готовности.
6. Время приготовления зависит от размера и толщины кусочков индейки. Обычно это занимает от 8 до 15 минут с каждой стороны.
7.

### train

In [40]:
print("Input IDs type:", type(tokenized_dataset[0]["input_ids"][0]))
print("Attention mask type:", type(tokenized_dataset[0]["attention_mask"][0]))

Input IDs type: <class 'int'>
Attention mask type: <class 'int'>


In [41]:
# # Кастомный data collator для правильной обработки типов данных
# class CustomDataCollator(DataCollatorForLanguageModeling):
#     def __call__(self, features):
#         batch = super().__call__(features)
        
#         # Преобразуем attention_mask в bool
#         if 'attention_mask' in batch:
#             batch['attention_mask'] = batch['attention_mask'].bool()
        
#         return batch

In [42]:
dataset_split = tokenized_dataset.train_test_split(test_size=0.1)
train_dataset = dataset_split["train"]
eval_dataset = dataset_split["test"]

In [43]:
training_args = TrainingArguments(
    output_dir="./yandexgpt-lora-finetuned",
    per_device_train_batch_size=1, #2,
    per_device_eval_batch_size=1, #2,
    gradient_accumulation_steps=8, #4,
    learning_rate=2e-4,
    num_train_epochs=1, #3,
    logging_dir="./logs",
    logging_steps=10,
    eval_strategy="epoch",  # Оценка после каждой эпохи
    save_strategy="epoch",
    save_total_limit=2,
    load_best_model_at_end=True,
    metric_for_best_model="eval_loss",
    greater_is_better=False,
    fp16=True,
    report_to="none",
    optim="paged_adamw_8bit",       # Важно для QLoRA
    gradient_checkpointing=True,
    dataloader_pin_memory=False,
)

In [44]:
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=train_dataset,
    eval_dataset=eval_dataset,
    data_collator=DataCollatorForLanguageModeling(tokenizer, mlm=False), # CustomDataCollator(tokenizer, mlm=False), 
)

In [45]:
# Принудительно используем eager attention вместо SDPA
model.config._attn_implementation = "eager"

In [46]:
gpu_mem("QLoRA after train"); nvidia_mem()

[QLoRA after train] allocated=2.86GB, reserved=4.18GB, peak=3.79GB
NVML used=5.29GB / total=23.99GB


In [47]:
gc.collect()
torch.cuda.empty_cache()

In [48]:
gpu_mem("QLoRA after train"); nvidia_mem()

[QLoRA after train] allocated=2.86GB, reserved=4.15GB, peak=3.79GB
NVML used=5.27GB / total=23.99GB


In [49]:
trainer.train()

Epoch,Training Loss,Validation Loss
1,1.5106,1.98106


TrainOutput(global_step=1115, training_loss=1.7642043417344713, metrics={'train_runtime': 13406.1206, 'train_samples_per_second': 0.665, 'train_steps_per_second': 0.083, 'total_flos': 4.135426241593344e+17, 'train_loss': 1.7642043417344713, 'epoch': 1.0})

In [50]:
gpu_mem("QLoRA after train"); nvidia_mem()

[QLoRA after train] allocated=2.87GB, reserved=4.32GB, peak=3.79GB
NVML used=5.54GB / total=23.99GB


In [51]:
trainer.save_model()
tokenizer.save_pretrained("./yandexgpt-lora-finetuned")

('./yandexgpt-lora-finetuned/tokenizer_config.json',
 './yandexgpt-lora-finetuned/special_tokens_map.json',
 './yandexgpt-lora-finetuned/chat_template.jinja',
 './yandexgpt-lora-finetuned/tokenizer.model',
 './yandexgpt-lora-finetuned/added_tokens.json')

### Оценка

In [56]:
from peft import PeftModel, PeftConfig

In [52]:
# Конфигурация для 4-битной загрузки (такая же как при обучении)
bnb_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_use_double_quant=True,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_compute_dtype=torch.float16
)

In [53]:
# Загрузка базовой модели с квантизацией
model_name = "yandex/YandexGPT-5-Lite-8B-instruct"
base_model = AutoModelForCausalLM.from_pretrained(
    model_name,
    quantization_config=bnb_config,
    device_map="auto",
    trust_remote_code=True,
    torch_dtype=torch.float16
)

`torch_dtype` is deprecated! Use `dtype` instead!
Loading checkpoint shards: 100%|██████████| 4/4 [00:01<00:00,  2.41it/s]


In [54]:
# Загрузка токенизатора
tokenizer = AutoTokenizer.from_pretrained(
    model_name,
    trust_remote_code=True,
    use_fast=False
)

In [55]:
# Добавляем паддинг токен если нужно
if tokenizer.pad_token is None:
    tokenizer.pad_token = tokenizer.eos_token

In [58]:
# Загрузка LoRA адаптера
lora_adapter_path = "./yandexgpt-lora-finetuned"  # путь к вашему адаптеру
model = PeftModel.from_pretrained(base_model, lora_adapter_path)

In [59]:
model.eval()

PeftModelForCausalLM(
  (base_model): LoraModel(
    (model): LlamaForCausalLM(
      (model): LlamaModel(
        (embed_tokens): Embedding(129024, 4096)
        (layers): ModuleList(
          (0-31): 32 x LlamaDecoderLayer(
            (self_attn): LlamaAttention(
              (q_proj): lora.Linear4bit(
                (base_layer): Linear4bit(in_features=4096, out_features=4096, bias=False)
                (lora_dropout): ModuleDict(
                  (default): Dropout(p=0.05, inplace=False)
                )
                (lora_A): ModuleDict(
                  (default): Linear(in_features=4096, out_features=16, bias=False)
                )
                (lora_B): ModuleDict(
                  (default): Linear(in_features=16, out_features=4096, bias=False)
                )
                (lora_embedding_A): ParameterDict()
                (lora_embedding_B): ParameterDict()
                (lora_magnitude_vector): ModuleDict()
              )
              (k_proj): lor

In [60]:
for text in prompts_for_test:
    print(generate_answer(text))
    print('-' * 50)

Пользователь: Как вкусно приготовить индейку на гриле?

 Ассистент: [SEP] Ассистент: [SEP] Ассистент: [SEP] Ассистент: Ты не мог бы поделиться рецептом вкусного маринада для индейки? Я хочу приготовить её на гриле, но не знаю, какие специи и приправы использовать.
--------------------------------------------------
Пользователь: Как распознать приближающийся инсульт?

 Ассистент: [SEP] Ассистент: [SEP] Ассистент: [SEP] Ассистент: Ассистент: Ассистент: Ассистент: Ассистент: Ассистент: Ассистент: Ассистент: Ассистент: Ассистент: Ассистент: Ассистент: Ассистент: Ассистент: Ассистент: Ассистент: Ассистент: Ассистент: Ассистент: Ассистент: Ассистент: Ассистент: Ассистент: Ассистент: Ассистент: Ассистент: Ассистент: Ассистент: Ассистент: Ассистент: Ассистент: Ассистент: Ассистент: Ассистент: Ассистент: Ассистент: Ассистент: Ассистент: Ассистент: Ассистент: Ассистент: Ассистент: Ассистент: Ассистент: Ассистент: Ассистент: Ассистент: Ассистент: Ассистент: Ассистент: Ассистент: Ассистент: Ассист

In [61]:
gpu_mem("QLoRA after train"); nvidia_mem()

[QLoRA after train] allocated=6.38GB, reserved=8.95GB, peak=7.31GB
NVML used=10.26GB / total=23.99GB


Буду благодарен если подскажете где я накосячил с шаблоном

:(

## Работа над ошибками - второй заход

In [62]:
def formatting_func(example):
    conversation = example["conversation"]
    
    # Применяем чат-шаблон с токенизацией
    tokenized = tokenizer.apply_chat_template(
        conversation,
        tokenize=True,  # Токенизируем сразу!
        truncation=True,
        max_length=1024,
        padding="max_length",
        return_tensors=None
    )
    
    # Для causal LM метки такие же как input_ids
    return {
        "input_ids": tokenized,
        "attention_mask": [1] * len(tokenized),  # Все токены значимые
        "labels": tokenized.copy()  # Копируем для labels
    }

In [None]:
check_data_prep = dataset.select(range(5))

In [63]:
check_data = check_data_prep.map(formatting_func,
                                 batched=False,
                                 # batch_size=1000,
                                 remove_columns=check_data_prep.column_names  # Удаляем оригинальные колонки
                                )

Map: 100%|██████████| 5/5 [00:00<00:00, 821.54 examples/s]


In [64]:
print("Input IDs:", tokenized_dataset[0]["input_ids"][:10])
print("Attention mask:", tokenized_dataset[0]["attention_mask"][:10])
print("Length:", len(tokenized_dataset[0]["input_ids"]))

Input IDs: [1, 1, 16861, 125851, 1759, 1403, 52612, 26900, 2019, 5386]
Attention mask: [1, 1, 1, 1, 1, 1, 1, 1, 1, 1]
Length: 1024


In [72]:
def formatting_func(example):
    conversation = example["conversation"]
    
    # Применяем чат-шаблон БЕЗ обрезки
    tokenized = tokenizer.apply_chat_template(
        conversation,
        tokenize=True,
        truncation=False,  # Отключаем обрезку!
        max_length=None,   # Без ограничения длины
        padding=False,     # Не добавляем паддинг здесь
        return_tensors=None
    )
    
    # Теперь добавляем паддинг отдельно
    if len(tokenized) < 1024:
        # Добавляем паддинг
        padded = tokenized + [tokenizer.pad_token_id] * (1024 - len(tokenized))
        attention_mask = [1] * len(tokenized) + [0] * (1024 - len(tokenized))
    else:
        # Обрезаем до максимальной длины
        padded = tokenized[:1024]
        attention_mask = [1] * 1024
    
    return {
        "input_ids": padded,
        "attention_mask": attention_mask,
        "labels": padded.copy()
    }

In [32]:
def formatting_func_final(example):
    conversation = example["conversation"]
    
    # Создаем полный диалог
    full_dialog = "<s>"
    for message in conversation:
        if message["role"] == "user":
            full_dialog += f" Пользователь: {message['content']}"
        elif message["role"] == "assistant":
            full_dialog += f" Ассистент: {message['content']}[SEP]"
    
    # Токенизируем
    tokenized = tokenizer(
        full_dialog,
        truncation=True,
        max_length=2048,  # Достаточно для полных ответов
        padding="max_length",
        return_tensors=None
    )
    
    return {
        "input_ids": tokenized["input_ids"],
        "attention_mask": tokenized["attention_mask"],
        "labels": tokenized["input_ids"].copy()  # Для simple causal LM
    }

In [81]:
def verify_training_data():
    print("Проверка подготовки данных для обучения:")
    print("=" * 60)
    
    for i in range(min(3, len(dataset))):
        sample = dataset[i]
        tokenized = formatting_func_final(sample)
        decoded = tokenizer.decode(tokenized["input_ids"])
        
        print(f"\nПример {i+1}:")
        print(f"Длина: {len([x for x in tokenized['input_ids'] if x != tokenizer.pad_token_id])} токенов")
        
        # Проверяем ключевые элементы
        has_user = "Пользователь:" in decoded
        has_assistant = "Ассистент:" in decoded
        has_sep = "[SEP]" in decoded
        has_content = any(word in decoded for word in ["страте", "игр", "ответ"])
        
        print(f"✓ Пользователь: {has_user}")
        print(f"✓ Ассистент: {has_assistant}")
        print(f"✓ [SEP]: {has_sep}")
        print(f"✓ Контент: {has_content}")
        print(decoded)
        
        if all([has_user, has_assistant, has_sep, has_content]):
            print("✓ Данные корректны для обучения")
        else:
            print("✗ Проблема с данными")

In [82]:
verify_training_data()

Проверка подготовки данных для обучения:

Пример 1:
Длина: 569 токенов
✓ Пользователь: True
✓ Ассистент: True
✓ [SEP]: True
✓ Контент: True
<s><s> Пользователь: мне очень интересны стратегические игры, и я недавно узнал про игру ним. не мог бы ты объяснить мне стратегию оптимальной игры в ним? и еще, если есть, поделись интересным вариантом игры в крестики-нолики или другие стратегические головоломки, в которые мы могли бы сыграть вместе. как насчет того, чтобы рассмотреть 15 puzzle? мне бы хотелось узнать, есть ли для неё какая-то выигрышная стратегия или подход, который гарантирует победу. Ассистент: Расскажу тебе о стратегиях игры в Ним и затрону тему 15 Puzzle.

### Стратегия оптимальной игры в Ним

Игра Ним — это математическая игра, для которой существует чёткая выигрышная стратегия. Основа стратегии лежит в понятии ним-суммы — это побитовое исключающее ИЛИ (XOR) размеров кучек.

Оптимальная стратегия заключается в следующем:

1. Вычисли ним-сумму всех кучек.
2. Если ним-сумма ра

### Подготовка модели

In [31]:
gpu_mem("QLoRA before train")

[QLoRA before train] allocated=2.85GB, reserved=4.15GB, peak=3.79GB


In [33]:
check_data_prep = dataset.select(range(5))

In [34]:
check_data = check_data_prep.map(formatting_func_final,
                                 batched=False,
                                 # batch_size=1000,
                                 remove_columns=check_data_prep.column_names  # Удаляем оригинальные колонки
                                )

Map: 100%|██████████| 5/5 [00:00<00:00, 275.48 examples/s]


In [35]:
check_data

Dataset({
    features: ['input_ids', 'attention_mask', 'labels'],
    num_rows: 5
})

In [38]:
tokenized_dataset = dataset.map(
    formatting_func_final,
    batched=False,
    remove_columns=dataset.column_names
)

Map: 100%|██████████| 9906/9906 [00:13<00:00, 710.49 examples/s]


In [37]:
# check_data[0]

In [39]:
print("Input IDs:", tokenized_dataset[0]["input_ids"][:10])
print("Attention mask:", tokenized_dataset[0]["attention_mask"][:10])
print("Length:", len(tokenized_dataset[0]["input_ids"]))

Input IDs: [1, 1, 16861, 125851, 1759, 1403, 52612, 26900, 2019, 5386]
Attention mask: [1, 1, 1, 1, 1, 1, 1, 1, 1, 1]
Length: 2048


In [40]:
prompts_for_test = [
    'Как вкусно приготовить индейку на гриле?',
    'Как распознать приближающийся инсульт?',
    'Сформулируй основные каноны архитектуры древних цивилизаций',
    'Облагать ли страховыми взносами суммы прощенного долга по займу от организации где работает застрахованный?',
    'Расскажи мне про Курчатова'
]

In [41]:
def generate_answer_correct(prompt):
    # Форматируем только пользовательский промпт
    user_prompt = f"<s> Пользователь: {prompt} Ассистент:"
    
    inputs = tokenizer(
        user_prompt,
        return_tensors="pt",
        truncation=True,
        max_length=1024
    ).to(model.device)
    
    with torch.no_grad():
        outputs = model.generate(
            **inputs,
            max_new_tokens=300,
            do_sample=True,
            temperature=0.7,
            top_p=0.9,
            pad_token_id=tokenizer.pad_token_id,
            eos_token_id=tokenizer.eos_token_id
        )
    
    # Извлекаем только сгенерированную часть
    generated = outputs[0][inputs.input_ids.shape[1]:]
    response = tokenizer.decode(generated, skip_special_tokens=True)
    
    # Убираем возможный [SEP] в конце
    response = response.replace("[SEP]", "").strip()
    
    return response

In [43]:
for text in prompts_for_test:
    print(generate_answer_correct(text))
    print('-' * 50)

**Индейка на гриле: пошаговый рецепт**

**Ингредиенты:**
* Индейка (филе или другие части) — 1 кг;
* Соль — по вкусу;
* Чёрный перец (молотый) — по вкусу;
* Чеснок — 3–4 зубчика;
* Розмарин свежий — 1 веточка;
* Оливковое масло — 2–3 ст. л.;
* Лимонный сок — 2–3 ст. л.;
* Соевый соус — 1–2 ст. л. (по желанию);
* Специи для птицы (по желанию) — по вкусу.

**Приготовление:**

1. Подготовьте индейку: промойте и обсушите бумажным полотенцем. Нарежьте индейку на порционные куски или оставьте целиком, в зависимости от ваших предпочтений.

2. Чеснок очистите и пропустите через пресс.

3. В небольшой миске смешайте оливковое масло, лимонный сок, соевый соус, измельчённый чеснок, соль, перец и розмарин.

4. Полученным маринадом тщательно обмажьте индейку со всех сторон.

5. Оставьте мариноваться минимум на 30 минут (можно и на более длительный срок).

6. Разогрейте гриль. Если вы используете угольный гриль, дайте углям прогореть до серого цвета.

7. Выложите индейку на гриль. Жарьте на среднем


### train

In [44]:
print("Input IDs type:", type(tokenized_dataset[0]["input_ids"][0]))
print("Attention mask type:", type(tokenized_dataset[0]["attention_mask"][0]))

Input IDs type: <class 'int'>
Attention mask type: <class 'int'>


In [45]:
dataset_split = tokenized_dataset.train_test_split(test_size=0.1)
train_dataset = dataset_split["train"]
eval_dataset = dataset_split["test"]

In [48]:
training_args = TrainingArguments(
    output_dir="./yandexgpt-lora-finetuned",
    per_device_train_batch_size=1, #2,
    per_device_eval_batch_size=1, #2,
    gradient_accumulation_steps=8, #4,
    learning_rate=2e-4,
    num_train_epochs=1, #3,
    
    logging_dir="./logs",
    logging_steps=5,           # Логировать каждые 5 шагов
    logging_first_step=True,   # Логировать первый шаг
    logging_strategy="steps",  # Логировать по шагам
    
    eval_strategy="steps",  # Оценка по шагам вместо эпох
    eval_steps=50,               # Оценивать каждые 50 шагов

    log_level="info",           # Более подробный уровень логирования
    disable_tqdm=False,         # Включить прогресс-бар
    
    save_strategy="steps",       # Сохранять по шагам
    save_steps=100,              # Сохранять каждые 100 шагов
    save_total_limit=1,
    
    load_best_model_at_end=True,
    metric_for_best_model="eval_loss",
    greater_is_better=False,
    fp16=True,
    report_to="none",
    optim="paged_adamw_8bit",       # Важно для QLoRA
    gradient_checkpointing=True,
    dataloader_pin_memory=False,
)

In [49]:
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=train_dataset,
    eval_dataset=eval_dataset,
    data_collator=DataCollatorForLanguageModeling(tokenizer, mlm=False), # CustomDataCollator(tokenizer, mlm=False), 
)

You have loaded a model on multiple GPUs. `is_model_parallel` attribute will be force-set to `True` to avoid any unexpected behavior such as device placement mismatching.
Using auto half precision backend


In [50]:
model.config._attn_implementation = "eager"

In [51]:
gc.collect()
torch.cuda.empty_cache()

In [52]:
gpu_mem("QLoRA after train"); nvidia_mem()

[QLoRA after train] allocated=2.86GB, reserved=4.15GB, peak=3.79GB
NVML used=5.33GB / total=23.99GB


In [53]:
trainer.train()

skipped Embedding(129024, 4096): 504.0M params
skipped: 504.0M params
***** Running training *****
  Num examples = 8,915
  Num Epochs = 1
  Instantaneous batch size per device = 1
  Total train batch size (w. parallel, distributed & accumulation) = 8
  Gradient Accumulation steps = 8
  Total optimization steps = 1,115
  Number of trainable parameters = 41,943,040


Step,Training Loss,Validation Loss
50,1.1291,1.239659
100,1.1321,1.199858
150,1.1966,1.190117
200,1.1894,1.185444
250,1.1022,1.181259
300,1.1587,1.177102
350,1.1617,1.174204
400,1.004,1.171757
450,1.18,1.170132
500,1.125,1.166675



***** Running Evaluation *****
  Num examples = 991
  Batch size = 1

***** Running Evaluation *****
  Num examples = 991
  Batch size = 1
Saving model checkpoint to ./yandexgpt-lora-finetuned/checkpoint-100
loading configuration file config.json from cache at /home/viv232/.cache/huggingface/hub/models--yandex--YandexGPT-5-Lite-8B-instruct/snapshots/b556811768376b46c69caab60c4d1b69df9faaa1/config.json
Model config LlamaConfig {
  "architectures": [
    "LlamaForCausalLM"
  ],
  "attention_bias": false,
  "attention_dropout": 0.0,
  "bos_token_id": 1,
  "dtype": "float16",
  "eos_token_id": 2,
  "head_dim": 128,
  "hidden_act": "silu",
  "hidden_size": 4096,
  "initializer_range": 0.02,
  "intermediate_size": 14336,
  "max_position_embeddings": 32768,
  "mlp_bias": false,
  "model_type": "llama",
  "num_attention_heads": 32,
  "num_hidden_layers": 32,
  "num_key_value_heads": 8,
  "pretraining_tp": 1,
  "rms_norm_eps": 1e-06,
  "rope_scaling": null,
  "rope_theta": 500000.0,
  "tie_wor

TrainOutput(global_step=1115, training_loss=1.080232146930267, metrics={'train_runtime': 51017.2504, 'train_samples_per_second': 0.175, 'train_steps_per_second': 0.022, 'total_flos': 8.270852483186688e+17, 'train_loss': 1.080232146930267, 'epoch': 1.0})

In [54]:
gpu_mem("QLoRA after train"); nvidia_mem()

[QLoRA after train] allocated=2.87GB, reserved=7.30GB, peak=5.41GB
NVML used=8.58GB / total=23.99GB


In [55]:
trainer.save_model()
tokenizer.save_pretrained("./yandexgpt-lora-finetuned")

Saving model checkpoint to ./yandexgpt-lora-finetuned
loading configuration file config.json from cache at /home/viv232/.cache/huggingface/hub/models--yandex--YandexGPT-5-Lite-8B-instruct/snapshots/b556811768376b46c69caab60c4d1b69df9faaa1/config.json
Model config LlamaConfig {
  "architectures": [
    "LlamaForCausalLM"
  ],
  "attention_bias": false,
  "attention_dropout": 0.0,
  "bos_token_id": 1,
  "dtype": "float16",
  "eos_token_id": 2,
  "head_dim": 128,
  "hidden_act": "silu",
  "hidden_size": 4096,
  "initializer_range": 0.02,
  "intermediate_size": 14336,
  "max_position_embeddings": 32768,
  "mlp_bias": false,
  "model_type": "llama",
  "num_attention_heads": 32,
  "num_hidden_layers": 32,
  "num_key_value_heads": 8,
  "pretraining_tp": 1,
  "rms_norm_eps": 1e-06,
  "rope_scaling": null,
  "rope_theta": 500000.0,
  "tie_word_embeddings": false,
  "transformers_version": "4.56.1",
  "use_cache": true,
  "vocab_size": 129024
}

Saving Trainer.data_collator.tokenizer by default 

('./yandexgpt-lora-finetuned/tokenizer_config.json',
 './yandexgpt-lora-finetuned/special_tokens_map.json',
 './yandexgpt-lora-finetuned/chat_template.jinja',
 './yandexgpt-lora-finetuned/tokenizer.model',
 './yandexgpt-lora-finetuned/added_tokens.json')

### Оценка

In [57]:
gpu_mem("QLoRA after train"); nvidia_mem()

[QLoRA after train] allocated=2.87GB, reserved=7.30GB, peak=5.41GB
NVML used=8.59GB / total=23.99GB


In [58]:
# Конфигурация для 4-битной загрузки (такая же как при обучении)
bnb_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_use_double_quant=True,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_compute_dtype=torch.float16
)

In [59]:
model_name = "yandex/YandexGPT-5-Lite-8B-instruct"
base_model = AutoModelForCausalLM.from_pretrained(
    model_name,
    quantization_config=bnb_config,
    device_map="auto",
    trust_remote_code=True,
    torch_dtype=torch.float16
)

loading configuration file config.json from cache at /home/viv232/.cache/huggingface/hub/models--yandex--YandexGPT-5-Lite-8B-instruct/snapshots/b556811768376b46c69caab60c4d1b69df9faaa1/config.json
`torch_dtype` is deprecated! Use `dtype` instead!
Model config LlamaConfig {
  "architectures": [
    "LlamaForCausalLM"
  ],
  "attention_bias": false,
  "attention_dropout": 0.0,
  "bos_token_id": 1,
  "dtype": "float16",
  "eos_token_id": 2,
  "head_dim": 128,
  "hidden_act": "silu",
  "hidden_size": 4096,
  "initializer_range": 0.02,
  "intermediate_size": 14336,
  "max_position_embeddings": 32768,
  "mlp_bias": false,
  "model_type": "llama",
  "num_attention_heads": 32,
  "num_hidden_layers": 32,
  "num_key_value_heads": 8,
  "pretraining_tp": 1,
  "rms_norm_eps": 1e-06,
  "rope_scaling": null,
  "rope_theta": 500000.0,
  "tie_word_embeddings": false,
  "transformers_version": "4.56.1",
  "use_cache": true,
  "vocab_size": 129024
}

loading weights file model.safetensors from cache at /

In [60]:
tokenizer_lr = AutoTokenizer.from_pretrained(
    model_name,
    trust_remote_code=True,
    use_fast=False
)

loading file tokenizer.model from cache at /home/viv232/.cache/huggingface/hub/models--yandex--YandexGPT-5-Lite-8B-instruct/snapshots/b556811768376b46c69caab60c4d1b69df9faaa1/tokenizer.model
loading file added_tokens.json from cache at None
loading file special_tokens_map.json from cache at None
loading file tokenizer_config.json from cache at /home/viv232/.cache/huggingface/hub/models--yandex--YandexGPT-5-Lite-8B-instruct/snapshots/b556811768376b46c69caab60c4d1b69df9faaa1/tokenizer_config.json
loading file tokenizer.json from cache at None
loading file chat_template.jinja from cache at None


In [61]:
if tokenizer_lr.pad_token is None:
    tokenizer_lr.pad_token = tokenizer.eos_token

In [62]:
lora_adapter_path = "./yandexgpt-lora-finetuned"  # путь к вашему адаптеру
model_lr = PeftModel.from_pretrained(base_model, lora_adapter_path)
model_lr.eval()

PeftModelForCausalLM(
  (base_model): LoraModel(
    (model): LlamaForCausalLM(
      (model): LlamaModel(
        (embed_tokens): Embedding(129024, 4096)
        (layers): ModuleList(
          (0-31): 32 x LlamaDecoderLayer(
            (self_attn): LlamaAttention(
              (q_proj): lora.Linear4bit(
                (base_layer): Linear4bit(in_features=4096, out_features=4096, bias=False)
                (lora_dropout): ModuleDict(
                  (default): Dropout(p=0.05, inplace=False)
                )
                (lora_A): ModuleDict(
                  (default): Linear(in_features=4096, out_features=16, bias=False)
                )
                (lora_B): ModuleDict(
                  (default): Linear(in_features=16, out_features=4096, bias=False)
                )
                (lora_embedding_A): ParameterDict()
                (lora_embedding_B): ParameterDict()
                (lora_magnitude_vector): ModuleDict()
              )
              (k_proj): lor

In [63]:
def generate_answer_correct_lr(prompt):
    # Форматируем только пользовательский промпт
    user_prompt = f"<s> Пользователь: {prompt} Ассистент:"
    
    inputs = tokenizer_lr(
        user_prompt,
        return_tensors="pt",
        truncation=True,
        max_length=1024
    ).to(model_lr.device)
    
    with torch.no_grad():
        outputs = model_lr.generate(
            **inputs,
            max_new_tokens=300,
            do_sample=True,
            temperature=0.7,
            top_p=0.9,
            pad_token_id=tokenizer_lr.pad_token_id,
            eos_token_id=tokenizer_lr.eos_token_id
        )
    
    # Извлекаем только сгенерированную часть
    generated = outputs[0][inputs.input_ids.shape[1]:]
    response = tokenizer_lr.decode(generated, skip_special_tokens=True)
    
    # Убираем возможный [SEP] в конце
    response = response.replace("[SEP]", "").strip()
    
    return response

In [64]:
gpu_mem("QLoRA after train"); nvidia_mem()

[QLoRA after train] allocated=8.36GB, reserved=12.34GB, peak=8.51GB
NVML used=13.66GB / total=23.99GB


In [65]:
for text in prompts_for_test:
    print(generate_answer_correct_lr(text))
    print('-' * 50)

Для приготовления вкусной индейки на гриле вам понадобится следовать нескольким шагам. Вот простой рецепт приготовления индейки на гриле:

### Ингредиенты:
- Индейка (желательно филе) – 1 кг
- Соль – по вкусу
- Черный перец – по вкусу
- Приправа для птицы – по вкусу
- Оливковое масло – для смазывания

### Инструкция:

#### Подготовка индейки:
1. **Разморозьте индейку** (если она заморожена), если это необходимо.
2. **Нарежьте индейку** на порционные кусочки.
3. **Смешайте специи с маслом**: в глубокой миске смешайте соль, перец, приправу для птицы и немного оливкового масла.
4. **Маринуйте индейку**: положите кусочки индейки в миску со смесью специй и хорошо перемешайте, чтобы каждый кусочек был покрыт маринадом. Оставьте мариноваться на 30 минут.

#### Гриль:
1. **Разогрейте гриль**: предварительно разогрейте гриль до средней температуры.
2. **Смажьте решетку гриля**: смажьте решетку гриля оливковым маслом, чтобы индейка не прилипала.
3. **Жарьте индейку**: аккуратно выложите маринова

# Дообучение энкодера e5-large

In [67]:
import os, gc, random, math
import numpy as np

import torch
from torch.utils.data import DataLoader
from sentence_transformers import SentenceTransformer, losses, models
from sentence_transformers.training_args import SentenceTransformerTrainingArguments
from sentence_transformers.trainer import SentenceTransformerTrainer

from peft import LoraConfig, get_peft_model, TaskType
from bitsandbytes.optim import AdamW8bit
from datasets import Dataset, load_dataset

In [68]:
device = "cuda" if torch.cuda.is_available() else "cpu"
device

'cuda'

In [69]:
def flush():
    gc.collect()
    if torch.cuda.is_available():
        torch.cuda.empty_cache()

### Подготовка данных

In [70]:
def extract_pairs(ds, max_samples=None, seed=42):
    pairs = []
    for ex in ds:
        q = ex.get("question")
        pos = ex.get("context")
        pairs.append((q, pos))

    if seed is not None:
        random.seed(seed)
        random.shuffle(pairs)

    if max_samples is not None:
        pairs = pairs[:max_samples]
    return pairs


ds_train = load_dataset("kuznetsoffandrey/sberquad", split="train[:2000]")
ds_val = load_dataset("kuznetsoffandrey/sberquad", split="validation[:500]")

train_pairs = extract_pairs(ds_train)
val_pairs   = extract_pairs(ds_val)

print(f"Train pairs: {len(train_pairs)} | Val pairs: {len(val_pairs)}")
print("Sample train pair:", train_pairs[0])

Generating train split: 100%|██████████| 45328/45328 [00:00<00:00, 614055.00 examples/s]
Generating validation split: 100%|██████████| 5036/5036 [00:00<00:00, 397121.87 examples/s]
Generating test split: 100%|██████████| 23936/23936 [00:00<00:00, 1033879.41 examples/s]


Train pairs: 2000 | Val pairs: 500
Sample train pair: ('где в основном российские метрополитены расположены', 'Кроме того, Максимом Горьким в Городе Жёлтого Дьявола было введено в русский язык слово-калька подземка . Оно прижилось, но преимущественно в качестве обозначения зарубежных метрополитенов (лондонская подземка, нью-йоркская подземка и т. д.), хотя в последнее время встречается в российской прессе и применительно к российским метрополитенам, проложенным в основном под землёй. Соответственно, преимущественно эстакадные метрополитены называют надземками , несмотря на то, что таких метрополитенов в России пока ещё нет.')


### train

In [71]:
flush()

base_name = "intfloat/multilingual-e5-large"
st_model = SentenceTransformer(base_name, device=device)

# Извлекаем базовый AutoModel
backbone = st_model[0].auto_model

# Включаем gradient checkpointing
if hasattr(backbone, "gradient_checkpointing_enable"):
    backbone.gradient_checkpointing_enable()

lora_cfg = LoraConfig(
    r=16,
    lora_alpha=16,
    lora_dropout=0.05,
    bias="none",
    target_modules=["query", "key", "value", "dense"],
    task_type=TaskType.FEATURE_EXTRACTION,
)
peft_backbone = get_peft_model(backbone, lora_cfg)
peft_backbone.print_trainable_parameters()

st_model[0].auto_model = peft_backbone

loss_fn = losses.MultipleNegativesRankingLoss(st_model)

loading configuration file config.json from cache at /home/viv232/.cache/huggingface/hub/models--intfloat--multilingual-e5-large/snapshots/0dc5580a448e4284468b8909bae50fa925907bc5/config.json
Model config XLMRobertaConfig {
  "architectures": [
    "XLMRobertaModel"
  ],
  "attention_probs_dropout_prob": 0.1,
  "bos_token_id": 0,
  "classifier_dropout": null,
  "dtype": "float32",
  "eos_token_id": 2,
  "hidden_act": "gelu",
  "hidden_dropout_prob": 0.1,
  "hidden_size": 1024,
  "initializer_range": 0.02,
  "intermediate_size": 4096,
  "layer_norm_eps": 1e-05,
  "max_position_embeddings": 514,
  "model_type": "xlm-roberta",
  "num_attention_heads": 16,
  "num_hidden_layers": 24,
  "output_past": true,
  "pad_token_id": 1,
  "position_embedding_type": "absolute",
  "transformers_version": "4.56.1",
  "type_vocab_size": 1,
  "use_cache": true,
  "vocab_size": 250002
}

loading weights file model.safetensors from cache at /home/viv232/.cache/huggingface/hub/models--intfloat--multilingual-

trainable params: 7,110,656 || all params: 567,001,088 || trainable%: 1.2541


In [72]:
def embed(texts, model, batch_size=128, normalize=True):
    vectors = model.encode(
        texts,
        batch_size=batch_size,
        convert_to_numpy=True,
        normalize_embeddings=normalize,
        device=device,
        show_progress_bar=False,
    )
    return vectors

queries = [q for q,_ in val_pairs]
docs    = [d for _,d in val_pairs]

q_vecs = embed(queries, st_model)
d_vecs = embed(docs, st_model)

sims = np.matmul(q_vecs, d_vecs.T)
k = min(5, sims.shape[1])
topk_idx = np.argpartition(-sims, kth=k-1, axis=1)[:, :k]

true_idx = np.arange(len(val_pairs))
hits = (topk_idx == true_idx[:, None]).any(axis=1)
hit5 = hits.mean()
print(f"Hit@5: {hit5:.3f}")

Hit@5: 0.984


In [73]:
train_data = [
    {
        "anchor": q,
        "positive": d
    }
    for q, d in train_pairs
]
train_ds = Dataset.from_list(train_data)

val_data = [
    {
        "anchor": q,
        "positive": d
    }
    for q, d in val_pairs
]
val_ds = Dataset.from_list(val_data)

In [74]:
epochs = 5
batch_size = 32
gradient_accumulation_steps = 4
max_steps_cap = 120
warmup_ratio = 0.05

steps_per_epoch = min(math.ceil(len(train_ds) / batch_size), max_steps_cap)
total_steps = steps_per_epoch * epochs

loss_fn = losses.MultipleNegativesRankingLoss(st_model)

training_args = SentenceTransformerTrainingArguments(
    output_dir="st-encoder-qlora-out",
    per_device_train_batch_size=batch_size,
    gradient_accumulation_steps=gradient_accumulation_steps,
    learning_rate=2e-4,
    warmup_ratio=warmup_ratio,
    num_train_epochs=epochs,
    max_steps=total_steps,
    lr_scheduler_type="cosine",
    weight_decay=0.01,
    logging_steps=10,
    save_strategy="no",
    eval_strategy="steps",
    eval_steps=50,
    report_to="none",
    optim="paged_adamw_8bit",
    fp16=torch.cuda.is_available(),
    gradient_checkpointing=True,
    dataloader_drop_last=True,
    dataloader_num_workers=0,
    seed=42,
)

trainer = SentenceTransformerTrainer(
    model=st_model,
    args=training_args,
    train_dataset=train_ds,
    eval_dataset=val_ds,
    loss=loss_fn,
)

PyTorch: setting up devices
average_tokens_across_devices is True but world size is 1. Setting it to False automatically.
Currently using DataParallel (DP) for multi-gpu training, while DistributedDataParallel (DDP) is recommended for faster training. See https://sbert.net/docs/sentence_transformer/training/distributed.html for more information.
PyTorch: setting up devices
average_tokens_across_devices is True but world size is 1. Setting it to False automatically.
The default value for the training argument `--report_to` will change in v5 (from all installed integrations to none). In v5, you will need to use `--report_to all` to get the same behavior as now. You should start updating your code and make this info disappear :-).
max_steps is given, it will override any value given in num_train_epochs
Using auto half precision backend
                                                                     

In [75]:
gpu_mem("QLoRA after train"); nvidia_mem()

[QLoRA after train] allocated=10.47GB, reserved=14.91GB, peak=13.94GB
NVML used=16.27GB / total=23.99GB


In [76]:
trainer.train()

skipped Embedding(250002, 1024, padding_idx=1): 244.142578125M params
skipped Embedding(514, 1024, padding_idx=1): 244.64453125M params
skipped Embedding(1, 1024): 244.6455078125M params
skipped: 244.6455078125M params
***** Running training *****
  Num examples = 2,000
  Num Epochs = 40
  Instantaneous batch size per device = 32
  Training with DataParallel so batch size has been adjusted to: 64
  Total train batch size (w. parallel, distributed & accumulation) = 256
  Gradient Accumulation steps = 4
  Total optimization steps = 315
  Number of trainable parameters = 7,110,656


Step,Training Loss,Validation Loss
50,0.1989,0.055596
100,0.152,0.057347
150,0.1302,0.057545
200,0.1272,0.059949
250,0.1372,0.059919
300,0.1177,0.059835



***** Running Evaluation *****
  Num examples = 500
  Batch size = 16

***** Running Evaluation *****
  Num examples = 500
  Batch size = 16

***** Running Evaluation *****
  Num examples = 500
  Batch size = 16

***** Running Evaluation *****
  Num examples = 500
  Batch size = 16

***** Running Evaluation *****
  Num examples = 500
  Batch size = 16

***** Running Evaluation *****
  Num examples = 500
  Batch size = 16


Training completed. Do not forget to share your model on huggingface.co/models =)




TrainOutput(global_step=315, training_loss=0.24426108958229187, metrics={'train_runtime': 26072.3939, 'train_samples_per_second': 3.093, 'train_steps_per_second': 0.012, 'total_flos': 0.0, 'train_loss': 0.24426108958229187, 'epoch': 39.38709677419355})

In [77]:
gpu_mem("QLoRA after train"); nvidia_mem()

[QLoRA after train] allocated=10.48GB, reserved=19.19GB, peak=18.06GB
NVML used=20.56GB / total=23.99GB


In [78]:
st_model.save("st-encoder-qlora-out/final_model")

loading configuration file config.json from cache at /home/viv232/.cache/huggingface/hub/models--intfloat--multilingual-e5-large/snapshots/0dc5580a448e4284468b8909bae50fa925907bc5/config.json
Model config XLMRobertaConfig {
  "architectures": [
    "XLMRobertaModel"
  ],
  "attention_probs_dropout_prob": 0.1,
  "bos_token_id": 0,
  "classifier_dropout": null,
  "dtype": "float32",
  "eos_token_id": 2,
  "hidden_act": "gelu",
  "hidden_dropout_prob": 0.1,
  "hidden_size": 1024,
  "initializer_range": 0.02,
  "intermediate_size": 4096,
  "layer_norm_eps": 1e-05,
  "max_position_embeddings": 514,
  "model_type": "xlm-roberta",
  "num_attention_heads": 16,
  "num_hidden_layers": 24,
  "output_past": true,
  "pad_token_id": 1,
  "position_embedding_type": "absolute",
  "transformers_version": "4.56.1",
  "type_vocab_size": 1,
  "use_cache": true,
  "vocab_size": 250002
}

tokenizer config file saved in st-encoder-qlora-out/final_model/tokenizer_config.json
Special tokens file saved in st-en

In [79]:
q_vecs_after = embed(queries, st_model)
d_vecs_after = embed(docs, st_model)

sims_after = np.matmul(q_vecs_after, d_vecs_after.T)

k = min(5, sims_after.shape[1])
topk_idx = np.argpartition(-sims_after, kth=k-1, axis=1)[:, :k]

true_idx = np.arange(len(val_pairs))
hits = (topk_idx == true_idx[:, None]).any(axis=1)
hit5 = hits.mean()

print(f"Hit@5: {hit5:.3f}")

Hit@5: 0.972
