In [1]:
import pandas as pd
import numpy as np
import re
import torch
import json
from tqdm.notebook import tqdm
# from torch.utils.data import Dataset, DataLoader
# from transformers import T5Tokenizer, T5ForConditionalGeneration, AdamW
from sklearn.model_selection import train_test_split

In [2]:
import sys

sys.path.append('../utils')
from evaluator import Evaluator
from json_format import SepTokenJSONProcessor

json_proc = SepTokenJSONProcessor()

In [3]:
train = pd.read_csv('../data/train_9k_valid.csv', index_col=0, converters={'json': json.loads})
val_set = pd.read_csv('../data/val_set_300_sb_valid.csv', index_col=0, converters={'json': json.loads})
manual_test = pd.read_csv('../data/manual_test_100.csv', index_col=0, converters={'json': json.loads})

In [4]:
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

tokenizer = AutoTokenizer.from_pretrained("ai-forever/ruT5-base")
model = AutoModelForSeq2SeqLM.from_pretrained("ai-forever/ruT5-base")

You are using the default legacy behaviour of the <class 'transformers.models.t5.tokenization_t5.T5Tokenizer'>. This is expected, and simply means that the `legacy` (previous) behavior will be used so nothing changes for you. If you want to use the new behaviour, set `legacy=False`. This should only be set if you understand what it means, and thoroughly read the reason why this was added as explained in https://github.com/huggingface/transformers/pull/24565
Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.


In [5]:
tokenizer.add_tokens(json_proc.spec_tokens)
model.resize_token_embeddings(len(tokenizer))


assert train.loc[train.index[0], 'json'] == json_proc.unprocess_json(json_proc.process_json(train.loc[train.index[0], 'json']))

In [6]:
from datasets import Dataset

ads_dataset = Dataset.from_pandas(train[["Text", "json"]])
ads_dataset = ads_dataset.train_test_split(test_size=0.05, seed=42)
ads_dataset = ads_dataset.flatten()
ads_dataset

DatasetDict({
    train: Dataset({
        features: ['Text', 'json', '__index_level_0__'],
        num_rows: 8370
    })
    test: Dataset({
        features: ['Text', 'json', '__index_level_0__'],
        num_rows: 441
    })
})

In [7]:
def preprocess_function(examples):
    inputs = [text for text in examples["Text"]]
    # targets = ['' for bundles in examples["json"]]
    targets = [json_proc.process_json(bundles) for bundles in examples["json"]]
    model_inputs = tokenizer(inputs, text_target=targets, max_length=128, truncation=True)
    return model_inputs

ads = ads_dataset.map(
    preprocess_function,
    batched=True,
    num_proc=4,
    remove_columns=ads_dataset["train"].column_names
)
ads = ads.flatten()

# ads_test = ads_test_dataset.map(
#     preprocess_function,
#     batched=True,
#     num_proc=4,
#     remove_columns=ads_test_dataset.column_names
# )
# ads_test = ads_test.flatten()


Map (num_proc=4):   0%|          | 0/8370 [00:00<?, ? examples/s]

Map (num_proc=4):   0%|          | 0/441 [00:00<?, ? examples/s]

In [8]:
from transformers import Seq2SeqTrainingArguments, Seq2SeqTrainer

In [9]:
from transformers import DataCollatorForSeq2Seq

tokenizer.pad_token = tokenizer.eos_token
data_collator = DataCollatorForSeq2Seq(tokenizer=tokenizer)

In [10]:
class MetricComputer:
  def __init__(self, batch_size=8):
    self.generations = []
    self.batch_size=batch_size

  def __call__(self, eval_preds):
    ev = Evaluator(val_set, model=model, tokenizer=tokenizer, batch_size=self.batch_size, json_processor=json_proc)
    stats = ev.calc_bleu_batched()
    self.generations.append(ev.generate_samples_batched(count=20))
    # clear_output()
    return stats

In [11]:
n_epochs = 15

training_args = Seq2SeqTrainingArguments(
    output_dir="ruT5-large",
    # overwrite_output_dir=True,
    evaluation_strategy="steps",
    eval_steps=350,
    learning_rate=5e-5,
    per_device_train_batch_size=64,
    per_device_eval_batch_size=16,
    weight_decay=0.01,
    save_total_limit=3,
    num_train_epochs=n_epochs,
    # predict_with_generate=True,
    generation_max_length=128,
    fp16=True,
    lr_scheduler_type="cosine",
    group_by_length=False,
    warmup_steps=3,
)

mc = MetricComputer(batch_size=32)
empty_dataset = Dataset.from_dict({"Text": [], "json": []})
trainer = Seq2SeqTrainer(
    model=model,
    args=training_args,
    train_dataset=ads["train"],
    eval_dataset=ads["test"],
    # eval_dataset=empty_dataset,
    tokenizer=tokenizer,
    data_collator=data_collator,
    compute_metrics=mc,
)



In [12]:
trainer.train()

Step,Training Loss,Validation Loss,Bep-sb,Bep-multi,Ta-bleu-sb,Ta-chrf-sb,Ta-chrf-multi,Eb-ind,Mb-ind,Bleu-classic,Chrf-classic,Chrf-classic-multi,Bleu Old,Failed Ratio
350,No log,0.572774,0.65926,0.563126,35.920429,75.419533,71.239094,0.104,0.074,47.662475,71.177545,66.574158,47.662475,0.03
700,1.317000,0.529439,0.686235,0.608175,38.60989,77.102794,73.437599,0.098,0.058,50.883612,73.833628,70.399028,50.883612,0.026
1050,0.556700,0.502248,0.693057,0.618103,39.171071,77.432393,73.875899,0.102,0.05,51.833035,74.454224,71.296968,51.833035,0.026
1400,0.556700,0.498643,0.698897,0.643622,39.299355,77.788268,75.286743,0.066,0.048,51.153401,74.783868,71.269562,51.153401,0.012
1750,0.462600,0.49559,0.696274,0.644112,39.500601,77.90373,75.759962,0.06,0.048,52.151752,74.750534,71.073191,52.151752,0.008




<T> Тайлы не вы
<T> Настольная игра Настольная игра Настольная игра Настольная игра Настольная игра Настольная игра Настольная игра Настольная игра Настольная игра Настольная игра Настольная игра Настольная игра Настольная игра Настольная игра Настольная игра Настольная игра Настольная игра Настольная игра Настольная игра Настольная игра Настольная игра Настольная игра Настольная игра Настольная игра Настольная игра Настольная игра Настольная игра Настольная игра На
<T> сань-мао «сахарные новеллы»<P> 20
<T> настольная игра клуэдо/
<T> Шорты
<T> зип худи Bape размер X
<T> Спортивные штаны/джоггеры Befree<P> 800
<T> Одеяло верблюжья шерсть LUC<P> 500<C1>
<T> школьная форма с платьем с коротким
<T> Сапоги скандия, размер 30, маломерят, новые
<T> Машинки деревянные, щенячий патруль и набор пожарного<P> 1200<C1>
<T> Джинсы чёрные<P>
<T> Чемодан на колесах, ручная кладь, 55х35х20, Б/У, б/у, б/у, б/у, б/у, б/у, б/у, б/у, б/у, б/у, б/у, б/у, б/у, б/у, б/у, б/у, б/у, б/у, б/у, б/у, б/у, б/у, б/



<T> Ticket to ride: The Heart of Africa (на английском) оригинал хобби ворлд<P> 2000
<T> мурхед «восход»<P> 35
<T>
<T> Sigma 30 1.4 +600<C1> 1<C2> GEL
<T> худи с
<T> Спортивные штаны/джоггеры Bef
<T> Самос
<T> Брюки утеплен
<T> Чемодан на колесах, ручная кладь, 55х35х20, Б/У, б/у, б/у, б/у, б/у, б/у, б/у, б/у, б/у, б/у, б/у, б/у, б/у, б/у, б/у, б/у, б/у, б/у, б/у, б/у, б/у, б/у, б/у, б/у, б/у, б/у, б/у, б/у, б/у, б/у, б/у, б/у, б
<T> платье в горошек для беременных m/m/m/m/m/m/m/m/m/m/m/m/m/m/m/m/m/m/m/m/m/m/m/m/m/m/m/m/m/m/m/m/m/m/m/m/m/
<T> Audi A4 2006 года 2.0l автомат, 2.0l автомат, 2.0l автомат, 2.0l автомат, япония, 2.0l автомат, 2.0l автомат, 2.0l автомат, 2.0l автомат, 2.0l автомат, 2.0l автомат, 2.0l автомат, 2.0l автомат, 2.0l автомат, 2.0l автомат, 2.0l автомат, 2.0l автомат, 2.0l автомат, 2.0l автомат, 2.0l автомат, 2.0l автомат, 2.0l автомат, 2.0l автомат, 2.0l автомат, 2.0l автомат, 2.0l автомат, 2.0l автомат, 2.0l автомат, 2.0
<T> Платье 104 размер + болеро<P> 500
<T>
<



<T> Ticket to ride: The Heart of Africa (на английском) оригинал хобби
<T> Rick
<T> мурхед «
<T> Сарафан<P>
<T> расческа для пушист
<T> Sigma 30 1.4 +600<C1> 1<C2> GEL
<T> Аккумулятор WORX 20V 2.0Ач<P> 1<C2> RUB
<T> толстовка Off-W
<T> Спортивные штаны/джоггеры
<T> Машинки деревянные, щенячий патруль и набор пожар
<T> Туф
<T> лодочки calipso<P> 25
<T> Простыня на резинке
<T> Ticket to ride: The Heart of Africa (на английском) оригинал хобби
<T> Rick
<T> мурхед «
<T> Сарафан<P>
<T> расческа для пушист
<T> сань-мао «сахарные новеллы»<P> 20
<T> Костюм
<T> Sigma 30 1.4 +600<C1> 1<C2> GEL
<T> толстовка Off-
<T> Коньки 39-
<T> Простыня на резинке, хлопок, размер 140
<T> сань-мао «сахарные новеллы»<P> 20
<T> Костюм




<T> Костюм
<T> Sigma 30 1.4 +600<C1> 1<C2> GEL
<T> толстовка Off-
<T> Простыня на резинке,
<T> Костюм


TrainOutput(global_step=1965, training_loss=0.6970580744076018, metrics={'train_runtime': 1752.2279, 'train_samples_per_second': 71.652, 'train_steps_per_second': 1.121, 'total_flos': 1.911039264129024e+16, 'train_loss': 0.6970580744076018, 'epoch': 15.0})

In [13]:
import gc
gc.collect()
torch.cuda.empty_cache()

In [14]:
output_dir = "ruT5-base-trained-gpt-data"
model.save_pretrained(output_dir)
tokenizer.save_pretrained(output_dir)

('ruT5-base-trained-gpt-data/tokenizer_config.json',
 'ruT5-base-trained-gpt-data/special_tokens_map.json',
 'ruT5-base-trained-gpt-data/spiece.model',
 'ruT5-base-trained-gpt-data/added_tokens.json',
 'ruT5-base-trained-gpt-data/tokenizer.json')