Обучение проводилось в Yandex Data Sphere в конфигурации g2.1 с ускорителем A100

In [None]:
# %pip install transformers==4.39.1
# %pip install peft==0.10.0
# %pip install sentencepiece==0.2.0
# %pip install accelerate==0.28.0
# %pip install -i https://pypi.org/simple/ bitsandbytes

# %pip install --force-reinstall transformers==4.38.2

# Нужно достаточно места на виртуалке
# - 15Гб это система и кеш базовой модели, 
# - 13.5Гб на каждую сохраненную модель
# - 0.5Гб на чекпоинты на каждую модель 
# Всего 40Гб хватало тык в притык на 2 модели

Обучение сделано на основе этого примера <br>
[Подробный разбор дообучения (fine-tuning) LLaMa (на примере задачи генерации заголовков к новостям)](https://youtu.be/zHv5pA-lxAA)<br>



In [1]:
import pickle
import numpy as np
import torch
import transformers
from transformers import LlamaTokenizer, LlamaForCausalLM, BitsAndBytesConfig, AutoModelForCausalLM, AutoTokenizer, GenerationConfig
from peft import LoraConfig, get_peft_model, PeftModel
import pandas as pd



In [None]:
OUTPUT_DIR = "model_checkpoints"
FINETUNED_DIR = "model_finetuned"

# Инициализация основной модели

In [2]:
DEVICE = "cuda" if torch.cuda.is_available() else "cpu"

BASE_MODEL = "NousResearch/Llama-2-7b-hf"

# Инициализируем токенизатор для модели LLaMa
tokenizer = LlamaTokenizer.from_pretrained(BASE_MODEL)

# задаем токен для padding, то есть добавления в те последовательности из батча, которые короче,
# чем максимальная длина последовательности, чтобы все последовательности в итоге были одной длины
tokenizer.pad_token_id = 0

# нули для padding будем добавлять слева
tokenizer.padding_side = "left"

In [3]:
# Инициализируем основную модель

"""
model = LlamaForCausalLM.from_pretrained(
    BASE_MODEL,
    #load_in_8bit=True,
    torch_dtype=torch.float16,
    device_map="auto",
)
"""

'\nmodel = LlamaForCausalLM.from_pretrained(\n    BASE_MODEL,\n    #load_in_8bit=True,\n    torch_dtype=torch.float16,\n    device_map="auto",\n)\n'

In [4]:
# Инициализируем основную модель
# Если мы хотим обучать модель в int4 для уменьшения требуемой видеопамяти

model = LlamaForCausalLM.from_pretrained(
    BASE_MODEL,
    torch_dtype=torch.float16,
    #load_in_4bit=True,
    #load_in_8bit=False,
    device_map="auto",
    quantization_config=BitsAndBytesConfig(
        load_in_4bit=True,
        bnb_4bit_compute_dtype=torch.float16,
        bnb_4bit_use_double_quant=True,
        bnb_4bit_quant_type='nf4', # квантизация модели в тип normal float 4
    )
)

Downloading shards: 100%|██████████| 2/2 [00:00<00:00, 583.76it/s]
Loading checkpoint shards: 100%|██████████| 2/2 [00:02<00:00,  1.02s/it]


In [5]:
model.config.pad_token_id = tokenizer.pad_token_id = 0  # unk
model.config.bos_token_id = 1
model.config.eos_token_id = 2

In [6]:
model = model.eval()

#!!! комментирую только при квантизации
# model = torch.compile(model)

# Загрузка и предобработка данных

In [7]:
Xy_train =  pd.read_csv('Xy_train.csv', index_col='Unnamed: 0')
Xy_test =  pd.read_csv('Xy_test.csv', index_col='Unnamed: 0')

In [14]:
# у нас датасет с уже подготовленными промптами

def generate_prompt(sample):
    # Также для разделения частей промпта можно использовать специальные токены начала и конца сегмента <s> и </s>
    prompt = sample['prompt']
    full_prompt = sample['prompt'] + ' ' + sample['reference']

    return prompt, full_prompt

In [15]:
def tokenize(prompt, full_prompt, add_eos_token=True):
    result = tokenizer(
        full_prompt,
        padding=False,
        return_tensors=None,
    )
    if (
            result["input_ids"][-1] != tokenizer.eos_token_id
            #and len(result["input_ids"]) < CUTOFF_LEN
            and add_eos_token
    ):
        # если в конце пос-ти нет специального токена, мы его добавляем
        result["input_ids"].append(tokenizer.eos_token_id)
        result["attention_mask"].append(1)

    prompt_len = len(tokenizer(prompt, padding=False, return_tensors=None)["input_ids"])
    labels = result["input_ids"].copy()
    labels = [-100 for _ in range(prompt_len)] + labels[prompt_len:]
    result["labels"] = labels

    return result

In [16]:
def generate_and_tokenize_prompt(sample):
    prompt, full_prompt = generate_prompt(sample)
    tokenized_full_prompt = tokenize(prompt, full_prompt)
    return tokenized_full_prompt

In [17]:
train_data = list(Xy_train.apply(generate_and_tokenize_prompt, axis=1))
test_data = list(Xy_test.apply(generate_and_tokenize_prompt, axis=1))


In [22]:
# data_collator нужен для формирования батча (padding, сборка элементов батча в один тензор,
# конвертация массивов numpy или списков в тензоры torch.LongTensor)
data_collator = transformers.DataCollatorForSeq2Seq(
    tokenizer, pad_to_multiple_of=8, return_tensors="pt", padding=True, label_pad_token_id=-100
)



# Добавляем в LLaMa адаптеры

In [23]:
# Размерность матриц адаптеров
# К примеру, если исходная матрица весов 4096 x 4096, то матрицы, которые мы добавляем,
# имеют размерность 4096 х LORA_R и LORA_R х 4096.
LORA_R = 8

# После умножения на матрицу весов адаптеров компоненты вектора делим на LORA_R и умножаем на LORA_ALPHA
LORA_ALPHA = 16
LORA_DROPOUT = 0.05

# В какие слои трансформера будем добавлять адаптеры, в данном случае - в матрицы в слоях self-attention
# для вычисления query и key.
LORA_TARGET_MODULES = [
    "q_proj",
    "v_proj",
]

# Делаем объект конфигурации по параметрам адаптеров
config = LoraConfig(
    r=LORA_R,
    lora_alpha=LORA_ALPHA,
    target_modules=LORA_TARGET_MODULES,
    lora_dropout=LORA_DROPOUT,
    bias="none",
    task_type="CAUSAL_LM",
)

In [24]:
model = get_peft_model(model, config)

# Выведем информацию об обучаемых весах модели.
# model.print_trainable_parameters()

# Задаем гиперпараметры обучения

In [25]:
BATCH_SIZE = 4
TRAIN_EPOCHS = 3
MICRO_BATCH_SIZE = 1 #2
GRADIENT_ACCUMULATION_STEPS = BATCH_SIZE // MICRO_BATCH_SIZE
LEARNING_RATE = 3e-4

training_arguments = transformers.TrainingArguments(
    per_device_train_batch_size=MICRO_BATCH_SIZE,
    gradient_accumulation_steps=GRADIENT_ACCUMULATION_STEPS,
    warmup_steps=100,
    max_steps=500,
    num_train_epochs=TRAIN_EPOCHS,
    learning_rate=LEARNING_RATE,
    fp16=True,
    logging_steps=50,
    optim="adamw_torch",
    evaluation_strategy="steps",
    save_strategy="steps",
    eval_steps=50,
    save_steps=50,
    output_dir=OUTPUT_DIR,
    save_total_limit=10,
    load_best_model_at_end=True,
    report_to="none"
)

# Запускаем обучение

In [26]:
trainer = transformers.Trainer(
    model=model,
    train_dataset=train_data,
    eval_dataset=test_data,
    args=training_arguments,
    data_collator=data_collator
)

dataloader_config = DataLoaderConfiguration(dispatch_batches=None, split_batches=False, even_batches=True, use_seedable_sampler=True)


In [27]:
model.config.use_cache = False

# компиляция модели (для оптимизации обучения)
model = torch.compile(model)

In [28]:
# torch.set_float32_matmul_precision('high')

In [29]:
# Обучение
trainer.train()

  5%|▌         | 100/2000 [01:51<35:25,  1.12s/it]

{'loss': 0.288, 'grad_norm': 1.089714527130127, 'learning_rate': 0.00029699999999999996, 'epoch': 0.71}



  0%|          | 0/35 [00:00<?, ?it/s][A
  6%|▌         | 2/35 [00:00<00:12,  2.55it/s][A
  9%|▊         | 3/35 [00:01<00:17,  1.83it/s][A
 11%|█▏        | 4/35 [00:02<00:19,  1.62it/s][A
 14%|█▍        | 5/35 [00:03<00:19,  1.51it/s][A
 17%|█▋        | 6/35 [00:03<00:19,  1.45it/s][A
 20%|██        | 7/35 [00:04<00:19,  1.41it/s][A
 23%|██▎       | 8/35 [00:05<00:19,  1.38it/s][A
 26%|██▌       | 9/35 [00:06<00:18,  1.37it/s][A
 29%|██▊       | 10/35 [00:06<00:18,  1.36it/s][A
 31%|███▏      | 11/35 [00:07<00:17,  1.35it/s][A
 34%|███▍      | 12/35 [00:08<00:17,  1.34it/s][A
 37%|███▋      | 13/35 [00:09<00:16,  1.34it/s][A
 40%|████      | 14/35 [00:09<00:16,  1.31it/s][A
 43%|████▎     | 15/35 [00:10<00:15,  1.31it/s][A
 46%|████▌     | 16/35 [00:11<00:14,  1.32it/s][A
 49%|████▊     | 17/35 [00:12<00:13,  1.33it/s][A
 51%|█████▏    | 18/35 [00:12<00:12,  1.31it/s][A
 54%|█████▍    | 19/35 [00:13<00:12,  1.31it/s][A
 57%|█████▋    | 20/35 [00:14<00:11,  1.32it/s]

{'eval_loss': 0.18123137950897217, 'eval_runtime': 26.2412, 'eval_samples_per_second': 10.594, 'eval_steps_per_second': 1.334, 'epoch': 0.71}


 10%|█         | 200/2000 [04:10<33:45,  1.13s/it]  

{'loss': 0.1421, 'grad_norm': 0.35733669996261597, 'learning_rate': 0.0002843684210526315, 'epoch': 1.42}



  0%|          | 0/35 [00:00<?, ?it/s][A
  6%|▌         | 2/35 [00:00<00:13,  2.54it/s][A
  9%|▊         | 3/35 [00:01<00:17,  1.82it/s][A
 11%|█▏        | 4/35 [00:02<00:19,  1.61it/s][A
 14%|█▍        | 5/35 [00:03<00:19,  1.51it/s][A
 17%|█▋        | 6/35 [00:03<00:20,  1.45it/s][A
 20%|██        | 7/35 [00:04<00:19,  1.41it/s][A
 23%|██▎       | 8/35 [00:05<00:19,  1.38it/s][A
 26%|██▌       | 9/35 [00:06<00:19,  1.37it/s][A
 29%|██▊       | 10/35 [00:06<00:18,  1.36it/s][A
 31%|███▏      | 11/35 [00:07<00:17,  1.35it/s][A
 34%|███▍      | 12/35 [00:08<00:17,  1.34it/s][A
 37%|███▋      | 13/35 [00:09<00:16,  1.34it/s][A
 40%|████      | 14/35 [00:09<00:16,  1.31it/s][A
 43%|████▎     | 15/35 [00:10<00:15,  1.31it/s][A
 46%|████▌     | 16/35 [00:11<00:14,  1.32it/s][A
 49%|████▊     | 17/35 [00:12<00:13,  1.32it/s][A
 51%|█████▏    | 18/35 [00:12<00:12,  1.31it/s][A
 54%|█████▍    | 19/35 [00:13<00:12,  1.31it/s][A
 57%|█████▋    | 20/35 [00:14<00:11,  1.32it/s]

{'eval_loss': 0.1755075752735138, 'eval_runtime': 26.2848, 'eval_samples_per_second': 10.576, 'eval_steps_per_second': 1.332, 'epoch': 1.42}


 15%|█▌        | 300/2000 [06:29<31:49,  1.12s/it]  

{'loss': 0.1028, 'grad_norm': 0.27649715542793274, 'learning_rate': 0.000268578947368421, 'epoch': 2.14}



  0%|          | 0/35 [00:00<?, ?it/s][A
  6%|▌         | 2/35 [00:00<00:13,  2.53it/s][A
  9%|▊         | 3/35 [00:01<00:17,  1.82it/s][A
 11%|█▏        | 4/35 [00:02<00:19,  1.61it/s][A
 14%|█▍        | 5/35 [00:03<00:19,  1.51it/s][A
 17%|█▋        | 6/35 [00:03<00:20,  1.45it/s][A
 20%|██        | 7/35 [00:04<00:19,  1.41it/s][A
 23%|██▎       | 8/35 [00:05<00:19,  1.38it/s][A
 26%|██▌       | 9/35 [00:06<00:19,  1.37it/s][A
 29%|██▊       | 10/35 [00:06<00:18,  1.36it/s][A
 31%|███▏      | 11/35 [00:07<00:17,  1.35it/s][A
 34%|███▍      | 12/35 [00:08<00:17,  1.34it/s][A
 37%|███▋      | 13/35 [00:09<00:16,  1.34it/s][A
 40%|████      | 14/35 [00:09<00:16,  1.31it/s][A
 43%|████▎     | 15/35 [00:10<00:15,  1.31it/s][A
 46%|████▌     | 16/35 [00:11<00:14,  1.32it/s][A
 49%|████▊     | 17/35 [00:12<00:13,  1.32it/s][A
 51%|█████▏    | 18/35 [00:12<00:12,  1.31it/s][A
 54%|█████▍    | 19/35 [00:13<00:12,  1.31it/s][A
 57%|█████▋    | 20/35 [00:14<00:11,  1.32it/s]

{'eval_loss': 0.16762928664684296, 'eval_runtime': 26.2733, 'eval_samples_per_second': 10.581, 'eval_steps_per_second': 1.332, 'epoch': 2.14}


 20%|██        | 400/2000 [08:48<29:49,  1.12s/it]  

{'loss': 0.0691, 'grad_norm': 0.4492594599723816, 'learning_rate': 0.0002527894736842105, 'epoch': 2.85}



  0%|          | 0/35 [00:00<?, ?it/s][A
  6%|▌         | 2/35 [00:00<00:13,  2.54it/s][A
  9%|▊         | 3/35 [00:01<00:17,  1.82it/s][A
 11%|█▏        | 4/35 [00:02<00:19,  1.61it/s][A
 14%|█▍        | 5/35 [00:03<00:19,  1.51it/s][A
 17%|█▋        | 6/35 [00:03<00:20,  1.45it/s][A
 20%|██        | 7/35 [00:04<00:19,  1.41it/s][A
 23%|██▎       | 8/35 [00:05<00:19,  1.38it/s][A
 26%|██▌       | 9/35 [00:06<00:19,  1.37it/s][A
 29%|██▊       | 10/35 [00:06<00:18,  1.36it/s][A
 31%|███▏      | 11/35 [00:07<00:17,  1.35it/s][A
 34%|███▍      | 12/35 [00:08<00:17,  1.34it/s][A
 37%|███▋      | 13/35 [00:09<00:16,  1.34it/s][A
 40%|████      | 14/35 [00:09<00:16,  1.31it/s][A
 43%|████▎     | 15/35 [00:10<00:15,  1.31it/s][A
 46%|████▌     | 16/35 [00:11<00:14,  1.32it/s][A
 49%|████▊     | 17/35 [00:12<00:13,  1.32it/s][A
 51%|█████▏    | 18/35 [00:12<00:12,  1.31it/s][A
 54%|█████▍    | 19/35 [00:13<00:12,  1.31it/s][A
 57%|█████▋    | 20/35 [00:14<00:11,  1.32it/s]

{'eval_loss': 0.169699564576149, 'eval_runtime': 26.2772, 'eval_samples_per_second': 10.58, 'eval_steps_per_second': 1.332, 'epoch': 2.85}


 25%|██▌       | 500/2000 [11:08<27:59,  1.12s/it]  

{'loss': 0.0423, 'grad_norm': 0.382100373506546, 'learning_rate': 0.000237, 'epoch': 3.56}



  0%|          | 0/35 [00:00<?, ?it/s][A
  6%|▌         | 2/35 [00:00<00:13,  2.53it/s][A
  9%|▊         | 3/35 [00:01<00:17,  1.82it/s][A
 11%|█▏        | 4/35 [00:02<00:19,  1.61it/s][A
 14%|█▍        | 5/35 [00:03<00:19,  1.51it/s][A
 17%|█▋        | 6/35 [00:03<00:20,  1.45it/s][A
 20%|██        | 7/35 [00:04<00:19,  1.41it/s][A
 23%|██▎       | 8/35 [00:05<00:19,  1.38it/s][A
 26%|██▌       | 9/35 [00:06<00:19,  1.37it/s][A
 29%|██▊       | 10/35 [00:06<00:18,  1.36it/s][A
 31%|███▏      | 11/35 [00:07<00:17,  1.35it/s][A
 34%|███▍      | 12/35 [00:08<00:17,  1.34it/s][A
 37%|███▋      | 13/35 [00:09<00:16,  1.34it/s][A
 40%|████      | 14/35 [00:09<00:16,  1.31it/s][A
 43%|████▎     | 15/35 [00:10<00:15,  1.31it/s][A
 46%|████▌     | 16/35 [00:11<00:14,  1.32it/s][A
 49%|████▊     | 17/35 [00:12<00:13,  1.32it/s][A
 51%|█████▏    | 18/35 [00:12<00:12,  1.31it/s][A
 54%|█████▍    | 19/35 [00:13<00:12,  1.31it/s][A
 57%|█████▋    | 20/35 [00:14<00:11,  1.32it/s]

{'eval_loss': 0.18072260916233063, 'eval_runtime': 26.2688, 'eval_samples_per_second': 10.583, 'eval_steps_per_second': 1.332, 'epoch': 3.56}


 30%|███       | 600/2000 [13:27<26:01,  1.12s/it]  

{'loss': 0.0294, 'grad_norm': 0.06876469403505325, 'learning_rate': 0.00022121052631578946, 'epoch': 4.27}



  0%|          | 0/35 [00:00<?, ?it/s][A
  6%|▌         | 2/35 [00:00<00:13,  2.53it/s][A
  9%|▊         | 3/35 [00:01<00:17,  1.82it/s][A
 11%|█▏        | 4/35 [00:02<00:19,  1.61it/s][A
 14%|█▍        | 5/35 [00:03<00:19,  1.51it/s][A
 17%|█▋        | 6/35 [00:03<00:20,  1.45it/s][A
 20%|██        | 7/35 [00:04<00:19,  1.41it/s][A
 23%|██▎       | 8/35 [00:05<00:19,  1.38it/s][A
 26%|██▌       | 9/35 [00:06<00:19,  1.37it/s][A
 29%|██▊       | 10/35 [00:06<00:18,  1.36it/s][A
 31%|███▏      | 11/35 [00:07<00:17,  1.35it/s][A
 34%|███▍      | 12/35 [00:08<00:17,  1.34it/s][A
 37%|███▋      | 13/35 [00:09<00:16,  1.33it/s][A
 40%|████      | 14/35 [00:09<00:16,  1.31it/s][A
 43%|████▎     | 15/35 [00:10<00:15,  1.30it/s][A
 46%|████▌     | 16/35 [00:11<00:14,  1.31it/s][A
 49%|████▊     | 17/35 [00:12<00:13,  1.32it/s][A
 51%|█████▏    | 18/35 [00:12<00:12,  1.31it/s][A
 54%|█████▍    | 19/35 [00:13<00:12,  1.31it/s][A
 57%|█████▋    | 20/35 [00:14<00:11,  1.32it/s]

{'eval_loss': 0.20214025676250458, 'eval_runtime': 26.2871, 'eval_samples_per_second': 10.576, 'eval_steps_per_second': 1.331, 'epoch': 4.27}


 35%|███▌      | 700/2000 [15:46<24:25,  1.13s/it]  

{'loss': 0.0191, 'grad_norm': 0.048972927033901215, 'learning_rate': 0.00020542105263157893, 'epoch': 4.98}



  0%|          | 0/35 [00:00<?, ?it/s][A
  6%|▌         | 2/35 [00:00<00:13,  2.53it/s][A
  9%|▊         | 3/35 [00:01<00:17,  1.82it/s][A
 11%|█▏        | 4/35 [00:02<00:19,  1.61it/s][A
 14%|█▍        | 5/35 [00:03<00:19,  1.51it/s][A
 17%|█▋        | 6/35 [00:03<00:20,  1.45it/s][A
 20%|██        | 7/35 [00:04<00:19,  1.41it/s][A
 23%|██▎       | 8/35 [00:05<00:19,  1.38it/s][A
 26%|██▌       | 9/35 [00:06<00:19,  1.37it/s][A
 29%|██▊       | 10/35 [00:06<00:18,  1.36it/s][A
 31%|███▏      | 11/35 [00:07<00:17,  1.35it/s][A
 34%|███▍      | 12/35 [00:08<00:17,  1.34it/s][A
 37%|███▋      | 13/35 [00:09<00:16,  1.34it/s][A
 40%|████      | 14/35 [00:09<00:16,  1.31it/s][A
 43%|████▎     | 15/35 [00:10<00:15,  1.31it/s][A
 46%|████▌     | 16/35 [00:11<00:14,  1.32it/s][A
 49%|████▊     | 17/35 [00:12<00:13,  1.32it/s][A
 51%|█████▏    | 18/35 [00:12<00:12,  1.31it/s][A
 54%|█████▍    | 19/35 [00:13<00:12,  1.31it/s][A
 57%|█████▋    | 20/35 [00:14<00:11,  1.32it/s]

{'eval_loss': 0.1903734803199768, 'eval_runtime': 26.2738, 'eval_samples_per_second': 10.581, 'eval_steps_per_second': 1.332, 'epoch': 4.98}


 40%|████      | 800/2000 [18:04<22:22,  1.12s/it]  

{'loss': 0.0101, 'grad_norm': 0.17362388968467712, 'learning_rate': 0.0001896315789473684, 'epoch': 5.69}



  0%|          | 0/35 [00:00<?, ?it/s][A
  6%|▌         | 2/35 [00:00<00:13,  2.53it/s][A
  9%|▊         | 3/35 [00:01<00:17,  1.82it/s][A
 11%|█▏        | 4/35 [00:02<00:19,  1.61it/s][A
 14%|█▍        | 5/35 [00:03<00:19,  1.51it/s][A
 17%|█▋        | 6/35 [00:03<00:20,  1.45it/s][A
 20%|██        | 7/35 [00:04<00:19,  1.41it/s][A
 23%|██▎       | 8/35 [00:05<00:19,  1.38it/s][A
 26%|██▌       | 9/35 [00:06<00:19,  1.37it/s][A
 29%|██▊       | 10/35 [00:06<00:18,  1.36it/s][A
 31%|███▏      | 11/35 [00:07<00:17,  1.35it/s][A
 34%|███▍      | 12/35 [00:08<00:17,  1.34it/s][A
 37%|███▋      | 13/35 [00:09<00:16,  1.34it/s][A
 40%|████      | 14/35 [00:09<00:16,  1.31it/s][A
 43%|████▎     | 15/35 [00:10<00:15,  1.31it/s][A
 46%|████▌     | 16/35 [00:11<00:14,  1.32it/s][A
 49%|████▊     | 17/35 [00:12<00:13,  1.32it/s][A
 51%|█████▏    | 18/35 [00:12<00:12,  1.31it/s][A
 54%|█████▍    | 19/35 [00:13<00:12,  1.31it/s][A
 57%|█████▋    | 20/35 [00:14<00:11,  1.32it/s]

{'eval_loss': 0.21605275571346283, 'eval_runtime': 26.2825, 'eval_samples_per_second': 10.577, 'eval_steps_per_second': 1.332, 'epoch': 5.69}


 45%|████▌     | 900/2000 [20:23<20:35,  1.12s/it]  

{'loss': 0.0101, 'grad_norm': 0.05011051520705223, 'learning_rate': 0.0001738421052631579, 'epoch': 6.41}



  0%|          | 0/35 [00:00<?, ?it/s][A
  6%|▌         | 2/35 [00:00<00:13,  2.53it/s][A
  9%|▊         | 3/35 [00:01<00:17,  1.82it/s][A
 11%|█▏        | 4/35 [00:02<00:19,  1.61it/s][A
 14%|█▍        | 5/35 [00:03<00:19,  1.51it/s][A
 17%|█▋        | 6/35 [00:03<00:20,  1.45it/s][A
 20%|██        | 7/35 [00:04<00:19,  1.41it/s][A
 23%|██▎       | 8/35 [00:05<00:19,  1.38it/s][A
 26%|██▌       | 9/35 [00:06<00:19,  1.37it/s][A
 29%|██▊       | 10/35 [00:06<00:18,  1.36it/s][A
 31%|███▏      | 11/35 [00:07<00:17,  1.35it/s][A
 34%|███▍      | 12/35 [00:08<00:17,  1.34it/s][A
 37%|███▋      | 13/35 [00:09<00:16,  1.34it/s][A
 40%|████      | 14/35 [00:09<00:16,  1.31it/s][A
 43%|████▎     | 15/35 [00:10<00:15,  1.30it/s][A
 46%|████▌     | 16/35 [00:11<00:14,  1.31it/s][A
 49%|████▊     | 17/35 [00:12<00:13,  1.32it/s][A
 51%|█████▏    | 18/35 [00:12<00:12,  1.31it/s][A
 54%|█████▍    | 19/35 [00:13<00:12,  1.31it/s][A
 57%|█████▋    | 20/35 [00:14<00:11,  1.32it/s]

{'eval_loss': 0.23621153831481934, 'eval_runtime': 26.2889, 'eval_samples_per_second': 10.575, 'eval_steps_per_second': 1.331, 'epoch': 6.41}


 50%|█████     | 1000/2000 [22:42<18:48,  1.13s/it] 

{'loss': 0.0057, 'grad_norm': 0.11518699675798416, 'learning_rate': 0.00015805263157894734, 'epoch': 7.12}



  0%|          | 0/35 [00:00<?, ?it/s][A
  6%|▌         | 2/35 [00:00<00:13,  2.53it/s][A
  9%|▊         | 3/35 [00:01<00:17,  1.82it/s][A
 11%|█▏        | 4/35 [00:02<00:19,  1.61it/s][A
 14%|█▍        | 5/35 [00:03<00:19,  1.51it/s][A
 17%|█▋        | 6/35 [00:03<00:20,  1.45it/s][A
 20%|██        | 7/35 [00:04<00:19,  1.41it/s][A
 23%|██▎       | 8/35 [00:05<00:19,  1.38it/s][A
 26%|██▌       | 9/35 [00:06<00:19,  1.37it/s][A
 29%|██▊       | 10/35 [00:06<00:18,  1.36it/s][A
 31%|███▏      | 11/35 [00:07<00:17,  1.35it/s][A
 34%|███▍      | 12/35 [00:08<00:17,  1.34it/s][A
 37%|███▋      | 13/35 [00:09<00:16,  1.34it/s][A
 40%|████      | 14/35 [00:09<00:16,  1.31it/s][A
 43%|████▎     | 15/35 [00:10<00:15,  1.30it/s][A
 46%|████▌     | 16/35 [00:11<00:14,  1.32it/s][A
 49%|████▊     | 17/35 [00:12<00:13,  1.32it/s][A
 51%|█████▏    | 18/35 [00:12<00:12,  1.31it/s][A
 54%|█████▍    | 19/35 [00:13<00:12,  1.31it/s][A
 57%|█████▋    | 20/35 [00:14<00:11,  1.32it/s]

{'eval_loss': 0.25088828802108765, 'eval_runtime': 26.2856, 'eval_samples_per_second': 10.576, 'eval_steps_per_second': 1.332, 'epoch': 7.12}


 55%|█████▌    | 1100/2000 [25:01<16:41,  1.11s/it]  

{'loss': 0.0034, 'grad_norm': 0.3095650374889374, 'learning_rate': 0.00014226315789473684, 'epoch': 7.83}



  0%|          | 0/35 [00:00<?, ?it/s][A
  6%|▌         | 2/35 [00:00<00:13,  2.54it/s][A
  9%|▊         | 3/35 [00:01<00:17,  1.82it/s][A
 11%|█▏        | 4/35 [00:02<00:19,  1.61it/s][A
 14%|█▍        | 5/35 [00:03<00:19,  1.51it/s][A
 17%|█▋        | 6/35 [00:03<00:20,  1.45it/s][A
 20%|██        | 7/35 [00:04<00:19,  1.41it/s][A
 23%|██▎       | 8/35 [00:05<00:19,  1.38it/s][A
 26%|██▌       | 9/35 [00:06<00:19,  1.37it/s][A
 29%|██▊       | 10/35 [00:06<00:18,  1.36it/s][A
 31%|███▏      | 11/35 [00:07<00:17,  1.35it/s][A
 34%|███▍      | 12/35 [00:08<00:17,  1.34it/s][A
 37%|███▋      | 13/35 [00:09<00:16,  1.34it/s][A
 40%|████      | 14/35 [00:09<00:16,  1.31it/s][A
 43%|████▎     | 15/35 [00:10<00:15,  1.31it/s][A
 46%|████▌     | 16/35 [00:11<00:14,  1.32it/s][A
 49%|████▊     | 17/35 [00:12<00:13,  1.32it/s][A
 51%|█████▏    | 18/35 [00:12<00:12,  1.31it/s][A
 54%|█████▍    | 19/35 [00:13<00:12,  1.31it/s][A
 57%|█████▋    | 20/35 [00:14<00:11,  1.32it/s]

{'eval_loss': 0.24931716918945312, 'eval_runtime': 26.2719, 'eval_samples_per_second': 10.582, 'eval_steps_per_second': 1.332, 'epoch': 7.83}


 60%|██████    | 1200/2000 [27:20<14:49,  1.11s/it]  

{'loss': 0.0023, 'grad_norm': 0.11529509723186493, 'learning_rate': 0.0001264736842105263, 'epoch': 8.54}



  0%|          | 0/35 [00:00<?, ?it/s][A
  6%|▌         | 2/35 [00:00<00:13,  2.53it/s][A
  9%|▊         | 3/35 [00:01<00:17,  1.82it/s][A
 11%|█▏        | 4/35 [00:02<00:19,  1.61it/s][A
 14%|█▍        | 5/35 [00:03<00:19,  1.51it/s][A
 17%|█▋        | 6/35 [00:03<00:20,  1.45it/s][A
 20%|██        | 7/35 [00:04<00:19,  1.41it/s][A
 23%|██▎       | 8/35 [00:05<00:19,  1.38it/s][A
 26%|██▌       | 9/35 [00:06<00:19,  1.37it/s][A
 29%|██▊       | 10/35 [00:06<00:18,  1.36it/s][A
 31%|███▏      | 11/35 [00:07<00:17,  1.35it/s][A
 34%|███▍      | 12/35 [00:08<00:17,  1.34it/s][A
 37%|███▋      | 13/35 [00:09<00:16,  1.34it/s][A
 40%|████      | 14/35 [00:09<00:16,  1.31it/s][A
 43%|████▎     | 15/35 [00:10<00:15,  1.31it/s][A
 46%|████▌     | 16/35 [00:11<00:14,  1.32it/s][A
 49%|████▊     | 17/35 [00:12<00:13,  1.32it/s][A
 51%|█████▏    | 18/35 [00:12<00:12,  1.31it/s][A
 54%|█████▍    | 19/35 [00:13<00:12,  1.31it/s][A
 57%|█████▋    | 20/35 [00:14<00:11,  1.32it/s]

{'eval_loss': 0.28115537762641907, 'eval_runtime': 26.2762, 'eval_samples_per_second': 10.58, 'eval_steps_per_second': 1.332, 'epoch': 8.54}


 65%|██████▌   | 1300/2000 [29:39<12:57,  1.11s/it]  

{'loss': 0.0034, 'grad_norm': 0.009993341751396656, 'learning_rate': 0.00011068421052631578, 'epoch': 9.25}



  0%|          | 0/35 [00:00<?, ?it/s][A
  6%|▌         | 2/35 [00:00<00:13,  2.53it/s][A
  9%|▊         | 3/35 [00:01<00:17,  1.82it/s][A
 11%|█▏        | 4/35 [00:02<00:19,  1.61it/s][A
 14%|█▍        | 5/35 [00:03<00:19,  1.51it/s][A
 17%|█▋        | 6/35 [00:03<00:20,  1.45it/s][A
 20%|██        | 7/35 [00:04<00:19,  1.41it/s][A
 23%|██▎       | 8/35 [00:05<00:19,  1.38it/s][A
 26%|██▌       | 9/35 [00:06<00:19,  1.37it/s][A
 29%|██▊       | 10/35 [00:06<00:18,  1.36it/s][A
 31%|███▏      | 11/35 [00:07<00:17,  1.35it/s][A
 34%|███▍      | 12/35 [00:08<00:17,  1.34it/s][A
 37%|███▋      | 13/35 [00:09<00:16,  1.34it/s][A
 40%|████      | 14/35 [00:09<00:16,  1.31it/s][A
 43%|████▎     | 15/35 [00:10<00:15,  1.30it/s][A
 46%|████▌     | 16/35 [00:11<00:14,  1.31it/s][A
 49%|████▊     | 17/35 [00:12<00:13,  1.32it/s][A
 51%|█████▏    | 18/35 [00:12<00:12,  1.31it/s][A
 54%|█████▍    | 19/35 [00:13<00:12,  1.31it/s][A
 57%|█████▋    | 20/35 [00:14<00:11,  1.32it/s]

{'eval_loss': 0.2578215003013611, 'eval_runtime': 26.2856, 'eval_samples_per_second': 10.576, 'eval_steps_per_second': 1.332, 'epoch': 9.25}


 70%|███████   | 1400/2000 [31:58<11:08,  1.11s/it]  

{'loss': 0.0021, 'grad_norm': 0.017551885917782784, 'learning_rate': 9.489473684210525e-05, 'epoch': 9.96}



  0%|          | 0/35 [00:00<?, ?it/s][A
  6%|▌         | 2/35 [00:00<00:13,  2.53it/s][A
  9%|▊         | 3/35 [00:01<00:17,  1.82it/s][A
 11%|█▏        | 4/35 [00:02<00:19,  1.61it/s][A
 14%|█▍        | 5/35 [00:03<00:19,  1.51it/s][A
 17%|█▋        | 6/35 [00:03<00:20,  1.45it/s][A
 20%|██        | 7/35 [00:04<00:19,  1.41it/s][A
 23%|██▎       | 8/35 [00:05<00:19,  1.38it/s][A
 26%|██▌       | 9/35 [00:06<00:19,  1.37it/s][A
 29%|██▊       | 10/35 [00:06<00:18,  1.36it/s][A
 31%|███▏      | 11/35 [00:07<00:17,  1.35it/s][A
 34%|███▍      | 12/35 [00:08<00:17,  1.34it/s][A
 37%|███▋      | 13/35 [00:09<00:16,  1.34it/s][A
 40%|████      | 14/35 [00:09<00:16,  1.31it/s][A
 43%|████▎     | 15/35 [00:10<00:15,  1.31it/s][A
 46%|████▌     | 16/35 [00:11<00:14,  1.32it/s][A
 49%|████▊     | 17/35 [00:12<00:13,  1.32it/s][A
 51%|█████▏    | 18/35 [00:12<00:12,  1.31it/s][A
 54%|█████▍    | 19/35 [00:13<00:12,  1.31it/s][A
 57%|█████▋    | 20/35 [00:14<00:11,  1.32it/s]

{'eval_loss': 0.27880236506462097, 'eval_runtime': 26.2718, 'eval_samples_per_second': 10.582, 'eval_steps_per_second': 1.332, 'epoch': 9.96}


 75%|███████▌  | 1500/2000 [34:17<09:23,  1.13s/it]  

{'loss': 0.0005, 'grad_norm': 0.03348063305020332, 'learning_rate': 7.910526315789474e-05, 'epoch': 10.68}



  0%|          | 0/35 [00:00<?, ?it/s][A
  6%|▌         | 2/35 [00:00<00:13,  2.53it/s][A
  9%|▊         | 3/35 [00:01<00:17,  1.82it/s][A
 11%|█▏        | 4/35 [00:02<00:19,  1.61it/s][A
 14%|█▍        | 5/35 [00:03<00:19,  1.51it/s][A
 17%|█▋        | 6/35 [00:03<00:20,  1.45it/s][A
 20%|██        | 7/35 [00:04<00:19,  1.41it/s][A
 23%|██▎       | 8/35 [00:05<00:19,  1.38it/s][A
 26%|██▌       | 9/35 [00:06<00:19,  1.37it/s][A
 29%|██▊       | 10/35 [00:06<00:18,  1.36it/s][A
 31%|███▏      | 11/35 [00:07<00:17,  1.35it/s][A
 34%|███▍      | 12/35 [00:08<00:17,  1.34it/s][A
 37%|███▋      | 13/35 [00:09<00:16,  1.34it/s][A
 40%|████      | 14/35 [00:09<00:16,  1.31it/s][A
 43%|████▎     | 15/35 [00:10<00:15,  1.30it/s][A
 46%|████▌     | 16/35 [00:11<00:14,  1.31it/s][A
 49%|████▊     | 17/35 [00:12<00:13,  1.32it/s][A
 51%|█████▏    | 18/35 [00:12<00:12,  1.31it/s][A
 54%|█████▍    | 19/35 [00:13<00:12,  1.31it/s][A
 57%|█████▋    | 20/35 [00:14<00:11,  1.31it/s]

{'eval_loss': 0.28806284070014954, 'eval_runtime': 26.2733, 'eval_samples_per_second': 10.581, 'eval_steps_per_second': 1.332, 'epoch': 10.68}


 80%|████████  | 1600/2000 [36:36<07:31,  1.13s/it]  

{'loss': 0.0003, 'grad_norm': 0.012765894643962383, 'learning_rate': 6.33157894736842e-05, 'epoch': 11.39}



  0%|          | 0/35 [00:00<?, ?it/s][A
  6%|▌         | 2/35 [00:00<00:13,  2.53it/s][A
  9%|▊         | 3/35 [00:01<00:17,  1.82it/s][A
 11%|█▏        | 4/35 [00:02<00:19,  1.61it/s][A
 14%|█▍        | 5/35 [00:03<00:19,  1.51it/s][A
 17%|█▋        | 6/35 [00:03<00:20,  1.45it/s][A
 20%|██        | 7/35 [00:04<00:19,  1.41it/s][A
 23%|██▎       | 8/35 [00:05<00:19,  1.38it/s][A
 26%|██▌       | 9/35 [00:06<00:19,  1.37it/s][A
 29%|██▊       | 10/35 [00:06<00:18,  1.36it/s][A
 31%|███▏      | 11/35 [00:07<00:17,  1.35it/s][A
 34%|███▍      | 12/35 [00:08<00:17,  1.34it/s][A
 37%|███▋      | 13/35 [00:09<00:16,  1.34it/s][A
 40%|████      | 14/35 [00:09<00:16,  1.31it/s][A
 43%|████▎     | 15/35 [00:10<00:15,  1.30it/s][A
 46%|████▌     | 16/35 [00:11<00:14,  1.31it/s][A
 49%|████▊     | 17/35 [00:12<00:13,  1.32it/s][A
 51%|█████▏    | 18/35 [00:12<00:12,  1.31it/s][A
 54%|█████▍    | 19/35 [00:13<00:12,  1.31it/s][A
 57%|█████▋    | 20/35 [00:14<00:11,  1.32it/s]

{'eval_loss': 0.303241103887558, 'eval_runtime': 26.2676, 'eval_samples_per_second': 10.583, 'eval_steps_per_second': 1.332, 'epoch': 11.39}


 85%|████████▌ | 1700/2000 [38:55<05:38,  1.13s/it]  

{'loss': 0.0004, 'grad_norm': 0.02400927245616913, 'learning_rate': 4.752631578947368e-05, 'epoch': 12.1}



  0%|          | 0/35 [00:00<?, ?it/s][A
  6%|▌         | 2/35 [00:00<00:13,  2.53it/s][A
  9%|▊         | 3/35 [00:01<00:17,  1.82it/s][A
 11%|█▏        | 4/35 [00:02<00:19,  1.61it/s][A
 14%|█▍        | 5/35 [00:03<00:19,  1.51it/s][A
 17%|█▋        | 6/35 [00:03<00:20,  1.45it/s][A
 20%|██        | 7/35 [00:04<00:19,  1.41it/s][A
 23%|██▎       | 8/35 [00:05<00:19,  1.38it/s][A
 26%|██▌       | 9/35 [00:06<00:19,  1.37it/s][A
 29%|██▊       | 10/35 [00:06<00:18,  1.36it/s][A
 31%|███▏      | 11/35 [00:07<00:17,  1.35it/s][A
 34%|███▍      | 12/35 [00:08<00:17,  1.34it/s][A
 37%|███▋      | 13/35 [00:09<00:16,  1.34it/s][A
 40%|████      | 14/35 [00:09<00:16,  1.31it/s][A
 43%|████▎     | 15/35 [00:10<00:15,  1.31it/s][A
 46%|████▌     | 16/35 [00:11<00:14,  1.32it/s][A
 49%|████▊     | 17/35 [00:12<00:13,  1.32it/s][A
 51%|█████▏    | 18/35 [00:12<00:12,  1.31it/s][A
 54%|█████▍    | 19/35 [00:13<00:12,  1.31it/s][A
 57%|█████▋    | 20/35 [00:14<00:11,  1.32it/s]

{'eval_loss': 0.3079892098903656, 'eval_runtime': 26.2729, 'eval_samples_per_second': 10.581, 'eval_steps_per_second': 1.332, 'epoch': 12.1}


 90%|█████████ | 1800/2000 [41:13<03:45,  1.13s/it]

{'loss': 0.0003, 'grad_norm': 0.002720736898481846, 'learning_rate': 3.1736842105263155e-05, 'epoch': 12.81}



  0%|          | 0/35 [00:00<?, ?it/s][A
  6%|▌         | 2/35 [00:00<00:13,  2.53it/s][A
  9%|▊         | 3/35 [00:01<00:17,  1.82it/s][A
 11%|█▏        | 4/35 [00:02<00:19,  1.61it/s][A
 14%|█▍        | 5/35 [00:03<00:19,  1.51it/s][A
 17%|█▋        | 6/35 [00:03<00:20,  1.45it/s][A
 20%|██        | 7/35 [00:04<00:19,  1.41it/s][A
 23%|██▎       | 8/35 [00:05<00:19,  1.38it/s][A
 26%|██▌       | 9/35 [00:06<00:19,  1.37it/s][A
 29%|██▊       | 10/35 [00:06<00:18,  1.36it/s][A
 31%|███▏      | 11/35 [00:07<00:17,  1.35it/s][A
 34%|███▍      | 12/35 [00:08<00:17,  1.34it/s][A
 37%|███▋      | 13/35 [00:09<00:16,  1.33it/s][A
 40%|████      | 14/35 [00:09<00:16,  1.31it/s][A
 43%|████▎     | 15/35 [00:10<00:15,  1.30it/s][A
 46%|████▌     | 16/35 [00:11<00:14,  1.31it/s][A
 49%|████▊     | 17/35 [00:12<00:13,  1.32it/s][A
 51%|█████▏    | 18/35 [00:12<00:12,  1.31it/s][A
 54%|█████▍    | 19/35 [00:13<00:12,  1.31it/s][A
 57%|█████▋    | 20/35 [00:14<00:11,  1.31it/s]

{'eval_loss': 0.3114924132823944, 'eval_runtime': 26.3084, 'eval_samples_per_second': 10.567, 'eval_steps_per_second': 1.33, 'epoch': 12.81}


 95%|█████████▌| 1900/2000 [43:32<01:53,  1.13s/it]

{'loss': 0.0001, 'grad_norm': 0.0051281508058309555, 'learning_rate': 1.594736842105263e-05, 'epoch': 13.52}



  0%|          | 0/35 [00:00<?, ?it/s][A
  6%|▌         | 2/35 [00:00<00:13,  2.53it/s][A
  9%|▊         | 3/35 [00:01<00:17,  1.82it/s][A
 11%|█▏        | 4/35 [00:02<00:19,  1.61it/s][A
 14%|█▍        | 5/35 [00:03<00:19,  1.51it/s][A
 17%|█▋        | 6/35 [00:03<00:20,  1.45it/s][A
 20%|██        | 7/35 [00:04<00:19,  1.41it/s][A
 23%|██▎       | 8/35 [00:05<00:19,  1.38it/s][A
 26%|██▌       | 9/35 [00:06<00:19,  1.37it/s][A
 29%|██▊       | 10/35 [00:06<00:18,  1.36it/s][A
 31%|███▏      | 11/35 [00:07<00:17,  1.35it/s][A
 34%|███▍      | 12/35 [00:08<00:17,  1.34it/s][A
 37%|███▋      | 13/35 [00:09<00:16,  1.33it/s][A
 40%|████      | 14/35 [00:09<00:16,  1.31it/s][A
 43%|████▎     | 15/35 [00:10<00:15,  1.30it/s][A
 46%|████▌     | 16/35 [00:11<00:14,  1.32it/s][A
 49%|████▊     | 17/35 [00:12<00:13,  1.32it/s][A
 51%|█████▏    | 18/35 [00:12<00:12,  1.31it/s][A
 54%|█████▍    | 19/35 [00:13<00:12,  1.31it/s][A
 57%|█████▋    | 20/35 [00:14<00:11,  1.32it/s]

{'eval_loss': 0.3120826780796051, 'eval_runtime': 26.2843, 'eval_samples_per_second': 10.577, 'eval_steps_per_second': 1.332, 'epoch': 13.52}


100%|██████████| 2000/2000 [45:51<00:00,  1.10s/it]

{'loss': 0.0003, 'grad_norm': 0.003699076361954212, 'learning_rate': 1.5789473684210525e-07, 'epoch': 14.23}



  0%|          | 0/35 [00:00<?, ?it/s][A
  6%|▌         | 2/35 [00:00<00:13,  2.53it/s][A
  9%|▊         | 3/35 [00:01<00:17,  1.82it/s][A
 11%|█▏        | 4/35 [00:02<00:19,  1.61it/s][A
 14%|█▍        | 5/35 [00:03<00:19,  1.51it/s][A
 17%|█▋        | 6/35 [00:03<00:19,  1.45it/s][A
 20%|██        | 7/35 [00:04<00:19,  1.41it/s][A
 23%|██▎       | 8/35 [00:05<00:19,  1.38it/s][A
 26%|██▌       | 9/35 [00:06<00:19,  1.37it/s][A
 29%|██▊       | 10/35 [00:06<00:18,  1.36it/s][A
 31%|███▏      | 11/35 [00:07<00:17,  1.35it/s][A
 34%|███▍      | 12/35 [00:08<00:17,  1.34it/s][A
 37%|███▋      | 13/35 [00:09<00:16,  1.34it/s][A
 40%|████      | 14/35 [00:09<00:16,  1.31it/s][A
 43%|████▎     | 15/35 [00:10<00:15,  1.31it/s][A
 46%|████▌     | 16/35 [00:11<00:14,  1.32it/s][A
 49%|████▊     | 17/35 [00:12<00:13,  1.32it/s][A
 51%|█████▏    | 18/35 [00:12<00:12,  1.31it/s][A
 54%|█████▍    | 19/35 [00:13<00:12,  1.31it/s][A
 57%|█████▋    | 20/35 [00:14<00:11,  1.32it/s]

{'eval_loss': 0.31293630599975586, 'eval_runtime': 26.2507, 'eval_samples_per_second': 10.59, 'eval_steps_per_second': 1.333, 'epoch': 14.23}


100%|██████████| 2000/2000 [46:18<00:00,  1.39s/it]

{'train_runtime': 2778.8397, 'train_samples_per_second': 2.879, 'train_steps_per_second': 0.72, 'train_loss': 0.03658888978511095, 'epoch': 14.23}





TrainOutput(global_step=2000, training_loss=0.03658888978511095, metrics={'train_runtime': 2778.8397, 'train_samples_per_second': 2.879, 'train_steps_per_second': 0.72, 'train_loss': 0.03658888978511095, 'epoch': 14.23})

## Сохраняем чекпоинты обученной модели

In [30]:
model.save_pretrained(OUTPUT_DIR)

## Сохранение объединенной модели (LLM+LORA)

In [None]:
base_model = AutoModelForCausalLM.from_pretrained(
        BASE_MODEL,
        return_dict=True,
        torch_dtype=torch.float16
    )

base_model.do_sample = False
base_model.temperature = None

In [None]:
model = PeftModel.from_pretrained(base_model, OUTPUT_DIR, torch_dtype=torch.float16,
    #load_in_4bit=True,
    #load_in_8bit=False,
    device_map="auto",
    temperature = 0,
    quantization_config=BitsAndBytesConfig(
        load_in_4bit=True,
        bnb_4bit_compute_dtype=torch.float16,
        bnb_4bit_use_double_quant=True,
        bnb_4bit_quant_type='nf4', # квантизация модели в тип normal float 4
    ))

model.do_sample = False
model.temperature = None

In [None]:
model = model.merge_and_unload()
model.do_sample = False
model.temperature = None
model.generation_config = GenerationConfig(
        temperature=None,
        do_sample = False
    )

In [None]:
tokenizer = AutoTokenizer.from_pretrained(BASE_MODEL)

In [None]:
model.save_pretrained(FINETUNED_DIR)

In [None]:
tokenizer.save_pretrained(FINETUNED_DIR)

## Конвертация в gguf 

git clone https://github.com/ggerganov/llama.cpp.git

python -m venv venv

source venv/bin/activate

pip install -r llama.cpp/requirements.txt

python llama.cpp/convert.py -h

python llama.cpp/convert.py model_finetuned --outfile Llama-2-7b-ft-f16.gguf --outtype f16
 
## Квантизация

make -C llama.cpp -j4

llama.cpp/quantize Llama-2-7b-ft-f16.gguf Llama-2-7b-ft-q4.gguf Q4_0