В данном ноутбуке реализованы все необходимые шаги для SFT пайплайна, включая подготовку датасета.

# Импорты

In [1]:
from dotenv import load_dotenv
import sys
sys.path.append("./src")
import os
import pandas as pd
import numpy as np
from transformers import AutoTokenizer, DataCollatorForSeq2Seq
from transformers import AutoModelForSeq2SeqLM, Seq2SeqTrainingArguments, Seq2SeqTrainer

from src import custom_dataset
from src.train import train

import clearml

os.environ["WANDB_DISABLED"] = "true"

  from .autonotebook import tqdm as notebook_tqdm


# Задаем требуемые константы

In [1]:
DATA_DIR = "./data"

# соотношение train и eval датасетов для SFT пайплайна
TRAIN_RATIO = 0.9

MODEL_NAME = "IlyaGusev/rut5_base_sum_gazeta"

# Функции

In [2]:
def get_train_eval(df, train_ratio: float):
    """ создает train и eval датасеты указанной пропорции"""                                                  
                                                    
    num_rows = int(len(df) * train_ratio)
    
    train_df = df[:num_rows]
    eval_df = df[num_rows:]
    
    return train_df, eval_df                        

# Готовим данные для этапа SFT

Загружаем датасет, содержащий примеры поля "о себе" в резюме, написанные людьми

In [None]:
df = pd.read_csv(os.path.join(DATA_DIR, "sft_dataset.csv"))

In [None]:
df.drop(axis=1, columns=["Unnamed: 0"], inplace=True)

Unnamed: 0,source,target
0,Пол: Мужчина. Желаемая зарплата: от 200000.0 р...,"Мне - 60-летнему мужчине, проживающему в Москв..."
1,Пол: Мужчина. Желаемая зарплата: от 25000.0 ру...,Опытный бухгалтер с 53-летним стажем и опытом ...
2,Пол: Мужчина. Желаемая зарплата: от 150000.0 р...,Я - опытный сотрудник службы безопасности с бо...
3,Пол: Мужчина. Желаемая зарплата: от 190000.0 р...,Я опытный заместитель генерального директора с...
4,Пол: Женщина. Желаемая зарплата: от 0.0 рублей...,Я педагог с большим опытом работы в этой облас...


## Генерим финальные датасеты train и eval для запуска SFT

In [None]:
train_df, eval_df = get_train_eval(df, TRAIN_RATIO)
train_df.shape

(1417, 2)

In [None]:
eval_df.shape

(158, 2)

In [None]:
train_df.to_json(f"{DATA_DIR}/train.json", orient="records", lines=True)
eval_df.to_json(f"{DATA_DIR}/eval.json", orient="records", lines=True)

# Запускаем SFT

In [3]:
task = clearml.Task.init(project_name='cv-generation', task_name='clean-only-sft-2')
training_conf_args = {
    "config_file": "t5_training_config.json",
    "checkpoint": "./models/sft_clean_only/checkpoint-140",
    "train_file": f"{DATA_DIR}/train.json",
    "val_file": f"{DATA_DIR}/eval.json",
    "output_dir": "./models/sft_clean_only_2",
    "train_sample_rate": 3,
    "val_sample_rate": 3,
    "seed": 42,
    "source_field": "source",
    "target_field": "target"
}

train(**training_conf_args)
task.close()

ClearML Task: created new task id=7bf08c37521c46ffbc6fd5267386b0fb
2024-06-16 05:32:58,818 - clearml.Task - INFO - Storing jupyter notebook directly as code
ClearML results page: https://app.clear.ml/projects/4dfada0d47c54d358198351db8a35944/experiments/7bf08c37521c46ffbc6fd5267386b0fb/output/log


loading file spiece.model from cache at C:\Users\yxtag/.cache\huggingface\hub\models--IlyaGusev--rut5_base_sum_gazeta\snapshots\f09a08cae5d74c70e55da1a6ebb49f88c26f433b\spiece.model
loading file tokenizer.json from cache at C:\Users\yxtag/.cache\huggingface\hub\models--IlyaGusev--rut5_base_sum_gazeta\snapshots\f09a08cae5d74c70e55da1a6ebb49f88c26f433b\tokenizer.json
loading file added_tokens.json from cache at None
loading file special_tokens_map.json from cache at C:\Users\yxtag/.cache\huggingface\hub\models--IlyaGusev--rut5_base_sum_gazeta\snapshots\f09a08cae5d74c70e55da1a6ebb49f88c26f433b\special_tokens_map.json
loading file tokenizer_config.json from cache at C:\Users\yxtag/.cache\huggingface\hub\models--IlyaGusev--rut5_base_sum_gazeta\snapshots\f09a08cae5d74c70e55da1a6ebb49f88c26f433b\tokenizer_config.json


Vocab size:  30000
PAD:  0 <pad>
BOS:  None None
EOS:  1 </s>
UNK:  2 <unk>
SEP:  None None


100%|██████████| 1417/1417 [00:01<00:00, 926.41it/s] 
100%|██████████| 158/158 [00:00<00:00, 1516.30it/s]
loading configuration file config.json from cache at C:\Users\yxtag/.cache\huggingface\hub\models--IlyaGusev--rut5_base_sum_gazeta\snapshots\f09a08cae5d74c70e55da1a6ebb49f88c26f433b\config.json
Model config T5Config {
  "_name_or_path": "IlyaGusev/rut5_base_sum_gazeta",
  "architectures": [
    "T5ForConditionalGeneration"
  ],
  "bos_token_id": 2,
  "classifier_dropout": 0.0,
  "d_ff": 2048,
  "d_kv": 64,
  "d_model": 768,
  "decoder_start_token_id": 2,
  "dense_act_fn": "gelu_new",
  "dropout_rate": 0.1,
  "eos_token_id": 1,
  "feed_forward_proj": "gated-gelu",
  "initializer_factor": 1.0,
  "is_encoder_decoder": true,
  "is_gated_act": true,
  "layer_norm_epsilon": 1e-06,
  "max_length": 200,
  "model_type": "t5",
  "num_beams": 5,
  "num_decoder_layers": 12,
  "num_heads": 12,
  "num_layers": 12,
  "output_past": true,
  "pad_token_id": 0,
  "relative_attention_max_distance": 1

2024-06-16 05:33:05,097 - clearml.model - INFO - Selected model id: 78adba2ead194f4a872f471f12b77b47


Generate config GenerationConfig {
  "bos_token_id": 2,
  "decoder_start_token_id": 2,
  "eos_token_id": 1,
  "max_length": 200,
  "num_beams": 5,
  "pad_token_id": 0
}

All model checkpoint weights were used when initializing T5ForConditionalGeneration.

All the weights of T5ForConditionalGeneration were initialized from the model checkpoint at IlyaGusev/rut5_base_sum_gazeta.
If your task is similar to the task the model of the checkpoint was trained on, you can already use T5ForConditionalGeneration for predictions without further training.
Generation config file not found, using a generation config created from the model config.
PyTorch: setting up devices
The default value for the training argument `--report_to` will change in v5 (from all installed integrations to none). In v5, you will need to use `--report_to all` to get the same behavior as now. You should start updating your code and make this info disappear :-).
Using the `WANDB_DISABLED` environment variable is deprecated an

BATCH_SIZE=8


Loading model from ./models/sft_clean_only/checkpoint-140.
There were missing keys in the checkpoint model loaded: ['encoder.embed_tokens.weight', 'decoder.embed_tokens.weight'].


2024-06-16 05:33:32,775 - clearml.model - INFO - Selected model id: 59219002fe024aec910612f53b9af1f9
2024-06-16 05:33:38,317 - clearml.model - INFO - Selected model id: 1fb80f6173ec41b08eb4610cd7d812e5


***** Running training *****
  Num examples = 1,417
  Num Epochs = 10
  Instantaneous batch size per device = 8
  Total train batch size (w. parallel, distributed & accumulation) = 48
  Gradient Accumulation steps = 6
  Total optimization steps = 290
  Number of trainable parameters = 244,309,248
  Continuing training from checkpoint, will skip to saved global_step
  Continuing training from epoch 4
  Continuing training from global step 140
  Will skip the first 4 epochs then the first 144 batches in the first epoch.
Automatic ClearML logging enabled.
External ClearML Task has been connected.
Unsupported key of type '<class 'int'>' found when connecting dictionary. It will be converted to str
  0%|          | 0/290 [00:00<?, ?it/s]

2024-06-16 05:33:46,740 - clearml.model - INFO - Selected model id: 0209e9511f3f42be8190bf4b18221902
ClearML Monitor: Could not detect iteration reporting, falling back to iterations as seconds-from-start


 49%|████▊     | 141/290 [02:30<02:38,  1.06s/it]

{'loss': 1.0077, 'learning_rate': 0.0003136842105263158, 'epoch': 4.84}
ClearML Monitor: Reporting detected, reverting back to iteration based reporting


 50%|████▉     | 144/290 [08:19<14:42,  6.05s/it]

{'loss': 1.0503, 'learning_rate': 0.0003073684210526316, 'epoch': 4.94}


 51%|█████     | 147/290 [13:52<42:29, 17.83s/it]

{'loss': 1.0584, 'learning_rate': 0.0003010526315789474, 'epoch': 5.04}


 52%|█████▏    | 150/290 [19:40<1:38:04, 42.03s/it]

{'loss': 1.0526, 'learning_rate': 0.00029473684210526316, 'epoch': 5.15}


 53%|█████▎    | 153/290 [25:22<2:44:56, 72.24s/it]

{'loss': 1.1137, 'learning_rate': 0.00028842105263157897, 'epoch': 5.25}


 54%|█████▍    | 156/290 [31:20<3:37:28, 97.38s/it]

{'loss': 1.0166, 'learning_rate': 0.0002821052631578947, 'epoch': 5.35}


 55%|█████▍    | 159/290 [37:09<3:57:57, 108.99s/it]

{'loss': 1.0596, 'learning_rate': 0.00027578947368421053, 'epoch': 5.45}


 55%|█████▌    | 160/290 [39:05<4:01:26, 111.43s/it]***** Running Evaluation *****
  Num examples = 158
  Batch size = 8
                                                    
 55%|█████▌    | 160/290 [41:25<4:01:26, 111.43s/it]Saving model checkpoint to ./models/sft_clean_only_2\checkpoint-160
Configuration saved in ./models/sft_clean_only_2\checkpoint-160\config.json
Configuration saved in ./models/sft_clean_only_2\checkpoint-160\generation_config.json


{'eval_loss': 1.025014877319336, 'eval_runtime': 139.4429, 'eval_samples_per_second': 1.133, 'eval_steps_per_second': 0.143, 'epoch': 5.48}


Model weights saved in ./models/sft_clean_only_2\checkpoint-160\pytorch_model.bin
 56%|█████▌    | 162/290 [46:11<5:29:22, 154.39s/it]

{'loss': 1.0501, 'learning_rate': 0.00026947368421052634, 'epoch': 5.55}


 57%|█████▋    | 165/290 [52:06<4:33:18, 131.19s/it]

{'loss': 1.066, 'learning_rate': 0.00026315789473684215, 'epoch': 5.65}


 58%|█████▊    | 168/290 [58:03<4:09:47, 122.85s/it]

{'loss': 1.0968, 'learning_rate': 0.0002568421052631579, 'epoch': 5.75}


 59%|█████▉    | 171/290 [1:03:58<3:57:40, 119.84s/it]

{'loss': 1.0845, 'learning_rate': 0.00025052631578947367, 'epoch': 5.85}


 60%|██████    | 174/290 [1:09:25<3:37:21, 112.43s/it]

{'loss': 1.0117, 'learning_rate': 0.0002442105263157895, 'epoch': 5.96}


 61%|██████    | 177/290 [1:14:30<3:18:58, 105.65s/it]

{'loss': 0.9877, 'learning_rate': 0.00023789473684210526, 'epoch': 6.06}


 62%|██████▏   | 180/290 [1:19:49<3:14:44, 106.22s/it]***** Running Evaluation *****
  Num examples = 158
  Batch size = 8


{'loss': 1.0121, 'learning_rate': 0.00023157894736842107, 'epoch': 6.16}


                                                      
 62%|██████▏   | 180/290 [1:21:53<3:14:44, 106.22s/it]Saving model checkpoint to ./models/sft_clean_only_2\checkpoint-180


{'eval_loss': 1.0096105337142944, 'eval_runtime': 124.0009, 'eval_samples_per_second': 1.274, 'eval_steps_per_second': 0.161, 'epoch': 6.16}


Configuration saved in ./models/sft_clean_only_2\checkpoint-180\config.json
Configuration saved in ./models/sft_clean_only_2\checkpoint-180\generation_config.json
Model weights saved in ./models/sft_clean_only_2\checkpoint-180\pytorch_model.bin
 63%|██████▎   | 183/290 [1:27:50<3:51:59, 130.09s/it]

{'loss': 1.0131, 'learning_rate': 0.00022526315789473685, 'epoch': 6.26}


 64%|██████▍   | 186/290 [1:33:09<3:18:27, 114.50s/it]

{'loss': 0.9934, 'learning_rate': 0.00021894736842105266, 'epoch': 6.36}


 65%|██████▌   | 189/290 [1:38:29<3:03:43, 109.14s/it]

{'loss': 1.0224, 'learning_rate': 0.00021263157894736842, 'epoch': 6.46}


 66%|██████▌   | 192/290 [1:43:48<2:55:14, 107.29s/it]

{'loss': 1.0009, 'learning_rate': 0.00020631578947368423, 'epoch': 6.56}


 67%|██████▋   | 195/290 [1:49:07<2:48:52, 106.66s/it]

{'loss': 0.9995, 'learning_rate': 0.0002, 'epoch': 6.66}


 68%|██████▊   | 198/290 [1:54:26<2:43:07, 106.38s/it]

{'loss': 0.9939, 'learning_rate': 0.0001936842105263158, 'epoch': 6.76}


 69%|██████▉   | 200/290 [1:57:57<2:39:37, 106.41s/it]***** Running Evaluation *****
  Num examples = 158
  Batch size = 8
                                                      
 69%|██████▉   | 200/290 [2:00:02<2:39:37, 106.41s/it]Saving model checkpoint to ./models/sft_clean_only_2\checkpoint-200
Configuration saved in ./models/sft_clean_only_2\checkpoint-200\config.json
Configuration saved in ./models/sft_clean_only_2\checkpoint-200\generation_config.json


{'eval_loss': 0.9943592548370361, 'eval_runtime': 124.4914, 'eval_samples_per_second': 1.269, 'eval_steps_per_second': 0.161, 'epoch': 6.83}


Model weights saved in ./models/sft_clean_only_2\checkpoint-200\pytorch_model.bin
 69%|██████▉   | 201/290 [2:02:27<3:50:06, 155.12s/it]

{'loss': 1.0226, 'learning_rate': 0.0001873684210526316, 'epoch': 6.87}


 70%|███████   | 204/290 [2:07:46<2:56:09, 122.91s/it]

{'loss': 0.9621, 'learning_rate': 0.00018105263157894739, 'epoch': 6.97}


 71%|███████▏  | 207/290 [2:12:51<2:32:01, 109.89s/it]

{'loss': 0.9969, 'learning_rate': 0.00017473684210526317, 'epoch': 7.07}


 72%|███████▏  | 210/290 [2:18:10<2:23:18, 107.49s/it]

{'loss': 0.9569, 'learning_rate': 0.00016842105263157895, 'epoch': 7.17}


 73%|███████▎  | 213/290 [2:23:29<2:17:04, 106.82s/it]

{'loss': 0.9671, 'learning_rate': 0.00016210526315789473, 'epoch': 7.27}


 74%|███████▍  | 216/290 [2:28:49<2:11:36, 106.71s/it]

{'loss': 1.0083, 'learning_rate': 0.00015578947368421052, 'epoch': 7.37}


 76%|███████▌  | 219/290 [2:34:08<2:05:55, 106.41s/it]

{'loss': 0.9595, 'learning_rate': 0.00014947368421052633, 'epoch': 7.47}


 76%|███████▌  | 220/290 [2:35:53<2:04:13, 106.48s/it]***** Running Evaluation *****
  Num examples = 158
  Batch size = 8
                                                      
 76%|███████▌  | 220/290 [2:37:58<2:04:13, 106.48s/it]Saving model checkpoint to ./models/sft_clean_only_2\checkpoint-220
Configuration saved in ./models/sft_clean_only_2\checkpoint-220\config.json
Configuration saved in ./models/sft_clean_only_2\checkpoint-220\generation_config.json


{'eval_loss': 0.9787993431091309, 'eval_runtime': 124.6501, 'eval_samples_per_second': 1.268, 'eval_steps_per_second': 0.16, 'epoch': 7.51}


Model weights saved in ./models/sft_clean_only_2\checkpoint-220\pytorch_model.bin
 77%|███████▋  | 222/290 [2:42:11<2:39:47, 140.99s/it]

{'loss': 0.9708, 'learning_rate': 0.0001431578947368421, 'epoch': 7.57}


 78%|███████▊  | 225/290 [2:47:30<2:07:53, 118.05s/it]

{'loss': 0.9679, 'learning_rate': 0.0001368421052631579, 'epoch': 7.67}


 79%|███████▊  | 228/290 [2:52:49<1:53:57, 110.28s/it]

{'loss': 0.9544, 'learning_rate': 0.0001305263157894737, 'epoch': 7.78}


 80%|███████▉  | 231/290 [2:58:08<1:45:51, 107.66s/it]

{'loss': 0.9309, 'learning_rate': 0.00012421052631578949, 'epoch': 7.88}


 81%|████████  | 234/290 [3:03:27<1:39:51, 107.00s/it]

{'loss': 0.9568, 'learning_rate': 0.00011789473684210525, 'epoch': 7.98}


 82%|████████▏ | 237/290 [3:08:31<1:32:07, 104.30s/it]

{'loss': 0.9465, 'learning_rate': 0.00011157894736842105, 'epoch': 8.08}


 83%|████████▎ | 240/290 [3:13:50<1:28:07, 105.74s/it]***** Running Evaluation *****
  Num examples = 158
  Batch size = 8


{'loss': 0.9537, 'learning_rate': 0.00010526315789473685, 'epoch': 8.18}


                                                      
 83%|████████▎ | 240/290 [3:15:54<1:28:07, 105.74s/it]Saving model checkpoint to ./models/sft_clean_only_2\checkpoint-240
Configuration saved in ./models/sft_clean_only_2\checkpoint-240\config.json
Configuration saved in ./models/sft_clean_only_2\checkpoint-240\generation_config.json


{'eval_loss': 0.9788443446159363, 'eval_runtime': 123.9313, 'eval_samples_per_second': 1.275, 'eval_steps_per_second': 0.161, 'epoch': 8.18}


Model weights saved in ./models/sft_clean_only_2\checkpoint-240\pytorch_model.bin
 84%|████████▍ | 243/290 [3:21:49<1:41:22, 129.42s/it]

{'loss': 0.9266, 'learning_rate': 9.894736842105263e-05, 'epoch': 8.28}


 85%|████████▍ | 246/290 [3:27:08<1:23:47, 114.27s/it]

{'loss': 0.9093, 'learning_rate': 9.263157894736843e-05, 'epoch': 8.38}


 86%|████████▌ | 249/290 [3:32:28<1:14:34, 109.13s/it]

{'loss': 0.9291, 'learning_rate': 8.631578947368421e-05, 'epoch': 8.48}


 87%|████████▋ | 252/290 [3:37:47<1:08:09, 107.62s/it]

{'loss': 0.9554, 'learning_rate': 8e-05, 'epoch': 8.58}


 88%|████████▊ | 255/290 [3:43:06<1:02:20, 106.88s/it]

{'loss': 0.894, 'learning_rate': 7.368421052631579e-05, 'epoch': 8.69}


 89%|████████▉ | 258/290 [3:48:25<56:48, 106.52s/it]  

{'loss': 0.9335, 'learning_rate': 6.736842105263159e-05, 'epoch': 8.79}


 90%|████████▉ | 260/290 [3:51:57<53:11, 106.40s/it]***** Running Evaluation *****
  Num examples = 158
  Batch size = 8
                                                    
 90%|████████▉ | 260/290 [3:54:02<53:11, 106.40s/it]

{'eval_loss': 0.9652692675590515, 'eval_runtime': 124.8854, 'eval_samples_per_second': 1.265, 'eval_steps_per_second': 0.16, 'epoch': 8.85}


Saving model checkpoint to ./models/sft_clean_only_2\checkpoint-260
Configuration saved in ./models/sft_clean_only_2\checkpoint-260\config.json
Configuration saved in ./models/sft_clean_only_2\checkpoint-260\generation_config.json
Model weights saved in ./models/sft_clean_only_2\checkpoint-260\pytorch_model.bin
 90%|█████████ | 261/290 [3:56:26<1:14:52, 154.92s/it]

{'loss': 0.8908, 'learning_rate': 6.105263157894737e-05, 'epoch': 8.89}


 91%|█████████ | 264/290 [4:01:46<53:21, 123.14s/it]  

{'loss': 0.9796, 'learning_rate': 5.4736842105263165e-05, 'epoch': 8.99}


 92%|█████████▏| 267/290 [4:06:52<42:16, 110.28s/it]

{'loss': 0.9964, 'learning_rate': 4.842105263157895e-05, 'epoch': 9.09}


 93%|█████████▎| 270/290 [4:12:11<35:54, 107.71s/it]

{'loss': 0.9011, 'learning_rate': 4.210526315789474e-05, 'epoch': 9.19}


 94%|█████████▍| 273/290 [4:17:30<30:16, 106.85s/it]

{'loss': 0.944, 'learning_rate': 3.578947368421053e-05, 'epoch': 9.29}


 95%|█████████▌| 276/290 [4:22:50<24:52, 106.61s/it]

{'loss': 0.9605, 'learning_rate': 2.9473684210526314e-05, 'epoch': 9.39}


 96%|█████████▌| 279/290 [4:28:09<19:28, 106.26s/it]

{'loss': 0.9449, 'learning_rate': 2.3157894736842107e-05, 'epoch': 9.49}


 97%|█████████▋| 280/290 [4:29:55<17:46, 106.62s/it]***** Running Evaluation *****
  Num examples = 158
  Batch size = 8
                                                    
 97%|█████████▋| 280/290 [4:31:59<17:46, 106.62s/it]Saving model checkpoint to ./models/sft_clean_only_2\checkpoint-280
Configuration saved in ./models/sft_clean_only_2\checkpoint-280\config.json


{'eval_loss': 0.9661991000175476, 'eval_runtime': 124.027, 'eval_samples_per_second': 1.274, 'eval_steps_per_second': 0.161, 'epoch': 9.53}


Configuration saved in ./models/sft_clean_only_2\checkpoint-280\generation_config.json
Model weights saved in ./models/sft_clean_only_2\checkpoint-280\pytorch_model.bin
Deleting older checkpoint [models\sft_clean_only_2\checkpoint-160] due to args.save_total_limit
 97%|█████████▋| 282/290 [4:36:10<18:42, 140.27s/it]

{'loss': 0.8841, 'learning_rate': 1.6842105263157896e-05, 'epoch': 9.6}


 98%|█████████▊| 285/290 [4:41:30<09:50, 118.05s/it]

{'loss': 0.8629, 'learning_rate': 1.0526315789473684e-05, 'epoch': 9.7}


 99%|█████████▉| 288/290 [4:46:49<03:41, 110.50s/it]

{'loss': 0.9334, 'learning_rate': 4.210526315789474e-06, 'epoch': 9.8}


100%|██████████| 290/290 [4:50:22<00:00, 108.58s/it]

Training completed. Do not forget to share your model on huggingface.co/models =)


Loading best model from ./models/sft_clean_only_2\checkpoint-260 (score: 0.9652692675590515).
There were missing keys in the checkpoint model loaded: ['encoder.embed_tokens.weight', 'decoder.embed_tokens.weight'].
100%|██████████| 290/290 [4:50:23<00:00, 60.08s/it] 
Configuration saved in ./models/sft_clean_only_2\config.json
Configuration saved in ./models/sft_clean_only_2\generation_config.json


{'train_runtime': 17426.1691, 'train_samples_per_second': 0.813, 'train_steps_per_second': 0.017, 'train_loss': 0.5068400835168773, 'epoch': 9.87}


Model weights saved in ./models/sft_clean_only_2\pytorch_model.bin
tokenizer config file saved in ./models/sft_clean_only_2\tokenizer_config.json
Special tokens file saved in ./models/sft_clean_only_2\special_tokens_map.json
