In [None]:
!pip install --no-cache-dir -q transformers sentencepiece

[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m7.0/7.0 MB[0m [31m50.6 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.3/1.3 MB[0m [31m81.0 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m7.8/7.8 MB[0m [31m202.9 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m224.5/224.5 kB[0m [31m110.6 MB/s[0m eta [36m0:00:00[0m
[?25h

In [None]:
import torch
from transformers import T5ForConditionalGeneration, T5Tokenizer
MODEL_NAME = 'bragovo/qqq'
model = T5ForConditionalGeneration.from_pretrained(MODEL_NAME)
tokenizer = T5Tokenizer.from_pretrained(MODEL_NAME)
model.cuda() if torch.cuda.is_available() else None
model.eval();

def summarize(
    text, n_words=None, compression=None,
    max_length=1000, num_beams=3, do_sample=False, repetition_penalty=10.0, 
    **kwargs
):
    """
    Summarize the text
    The following parameters are mutually exclusive:
    - n_words (int) is an approximate number of words to generate.
    - compression (float) is an approximate length ratio of summary and original text.
    """
    if n_words:
        text = '[{}] '.format(n_words) + text
    elif compression:
        text = '[{0:.1g}] '.format(compression) + text
    x = tokenizer(text, return_tensors='pt', padding=True).to(model.device)
    with torch.inference_mode():
        out = model.generate(
            **x, 
            max_length=max_length, num_beams=num_beams, 
            do_sample=do_sample, repetition_penalty=repetition_penalty, 
            **kwargs
        )
    return tokenizer.decode(out[0], skip_special_tokens=True)

In [None]:
!pip install -q wandb

In [None]:
text = """Здравствуйте, техническая поддержка СПбГУ, слушаю вас. Здравствуйте, у меня на компьютере интернет не работает, что делать? Вы находитесь в общежитии? Да, в тринашке. На компьютере нет подключения к сети или именно к интернету? А в чем разница? Снизу справа на панели задач у значка интернета красный крестик или желтый треугольник? Треугольник. Хорошо, назовите свой номер абонента. 1707.4.20. Сейчас проверю. Ярослав Гусь? Да, все верно. У вас задолженность по оплате. Точно, сейчас оплачу, спасибо. Все, до свидания."""
text = text.lower()
text

'здравствуйте, техническая поддержка спбгу, слушаю вас. здравствуйте, у меня на компьютере интернет не работает, что делать? вы находитесь в общежитии? да, в тринашке. на компьютере нет подключения к сети или именно к интернету? а в чем разница? снизу справа на панели задач у значка интернета красный крестик или желтый треугольник? треугольник. хорошо, назовите свой номер абонента. 1707.4.20. сейчас проверю. ярослав гусь? да, все верно. у вас задолженность по оплате. точно, сейчас оплачу, спасибо. все, до свидания.'

In [None]:
!pip install datasets

Installing collected packages: xxhash, multidict, frozenlist, dill, async-timeout, yarl, responses, multiprocess, aiosignal, aiohttp, datasets
Successfully installed aiohttp-3.8.4 aiosignal-1.3.1 async-timeout-4.0.2 datasets-2.11.0 dill-0.3.6 frozenlist-1.3.3 multidict-6.0.4 multiprocess-0.70.14 responses-0.18.0 xxhash-3.2.0 yarl-1.9.2


In [None]:
from datasets import load_dataset

In [None]:
our_dataset = load_dataset('json', data_files='summary_data.json')

Downloading and preparing dataset json/default to /root/.cache/huggingface/datasets/json/default-950c5b65da2d19c8/0.0.0/fe5dd6ea2639a6df622901539cb550cf8797e5a6b2dd7af1cf934bed8e233e6e...


Downloading data files:   0%|          | 0/1 [00:00<?, ?it/s]

Extracting data files:   0%|          | 0/1 [00:00<?, ?it/s]

Generating train split: 0 examples [00:00, ? examples/s]

Dataset json downloaded and prepared to /root/.cache/huggingface/datasets/json/default-950c5b65da2d19c8/0.0.0/fe5dd6ea2639a6df622901539cb550cf8797e5a6b2dd7af1cf934bed8e233e6e. Subsequent calls will reuse this data.


  0%|          | 0/1 [00:00<?, ?it/s]

In [None]:
our_dataset

DatasetDict({
    train: Dataset({
        features: ['text', 'summa'],
        num_rows: 4
    })
})

In [None]:
prefix = "summarize: "


def preprocess_function(examples):
    inputs = [prefix + doc for doc in examples["text"]]
    model_inputs = tokenizer(inputs, max_length=1024, truncation=True)

    labels = tokenizer(text_target=examples["summa"], max_length=128, truncation=True)

    model_inputs["labels"] = labels["input_ids"]
    return model_inputs

In [None]:
tokenized_our_dataset = our_dataset.map(preprocess_function, batched=True)



In [None]:
tokenized_our_dataset

DatasetDict({
    train: Dataset({
        features: ['text', 'summa', 'input_ids', 'attention_mask', 'labels'],
        num_rows: 4
    })
})

In [None]:
from transformers import DataCollatorForSeq2Seq

data_collator = DataCollatorForSeq2Seq(tokenizer=tokenizer, model=MODEL_NAME)

In [None]:
!pip install -q evaluate

[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/81.4 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m81.4/81.4 kB[0m [31m8.2 MB/s[0m eta [36m0:00:00[0m
[?25h

In [None]:
!pip install -q rouge_score

  Preparing metadata (setup.py) ... [?25l[?25hdone
  Building wheel for rouge_score (setup.py) ... [?25l[?25hdone


In [None]:
import evaluate

rouge = evaluate.load("rouge")

In [None]:
import numpy as np


def compute_metrics(eval_pred):
    predictions, labels = eval_pred
    decoded_preds = tokenizer.batch_decode(predictions, skip_special_tokens=True)
    labels = np.where(labels != -100, labels, tokenizer.pad_token_id)
    decoded_labels = tokenizer.batch_decode(labels, skip_special_tokens=True)

    result = rouge.compute(predictions=decoded_preds, references=decoded_labels, use_stemmer=True)

    prediction_lens = [np.count_nonzero(pred != tokenizer.pad_token_id) for pred in predictions]
    result["gen_len"] = np.mean(prediction_lens)

    return {k: round(v, 4) for k, v in result.items()}

In [None]:
from transformers import AutoModelForSeq2SeqLM, Seq2SeqTrainingArguments, Seq2SeqTrainer

In [None]:
model = T5ForConditionalGeneration.from_pretrained(MODEL_NAME)
tokenizer = T5Tokenizer.from_pretrained(MODEL_NAME)

training_args = Seq2SeqTrainingArguments(
    output_dir="my_awesome_model",
    evaluation_strategy="steps",
    eval_steps=100,
    learning_rate=2e-5,
    per_device_train_batch_size=4,
    per_device_eval_batch_size=4,
    weight_decay=0.01,
    save_total_limit=3,
    num_train_epochs=400,
    predict_with_generate=True,
    push_to_hub=False,
    logging_steps=100,
)

trainer = Seq2SeqTrainer(
    model=model,
    args=training_args,
    train_dataset=tokenized_our_dataset["train"],
    eval_dataset=tokenized_our_dataset["train"],
    tokenizer=tokenizer,
    data_collator=data_collator,
    compute_metrics=compute_metrics,
)

trainer.train()

Step,Training Loss,Validation Loss,Rouge1,Rouge2,Rougel,Rougelsum,Gen Len
100,0.8439,0.014525,0.0,0.0,0.0,0.0,17.5
200,0.0365,0.000448,0.0,0.0,0.0,0.0,17.5
300,0.0147,0.000199,0.0,0.0,0.0,0.0,17.5
400,0.0092,0.000173,0.0,0.0,0.0,0.0,17.5


TrainOutput(global_step=400, training_loss=0.2260865457355976, metrics={'train_runtime': 121.1431, 'train_samples_per_second': 13.208, 'train_steps_per_second': 3.302, 'total_flos': 412090417152000.0, 'train_loss': 0.2260865457355976, 'epoch': 400.0})

In [None]:
%%time
text = """Добрый день, техническая поддержка СПбГУ, слушаю вас.
Добрый день. Я забыла, к сожалению, свой пароль от почты, что мне нужно сделать?
Скажите пожалуйста свои фамилию, имя, отчество?
Филатова Мария Евгеньевна.
Хорошо, какой у вас факультет?
Матмех.
Какой у вас номер группы?
20 б 07 мм.
Ага, хорошо, с завтрашнего дня можете зайти в деканат, показать студенческий билет, и вам выдадут новый пароль.
А дистанционно никак не получится это сделать?
Простите, но мы не можем без удостоверения личности выдать вам новый пароль.
Ладно, хорошо, спасибо, до свидания.
До свидания."""
print(summarize(text))

Филатова Мария Евгеньевна забыла свой пароль от почты.
CPU times: user 941 ms, sys: 0 ns, total: 941 ms
Wall time: 1 s


In [None]:
%%time
text = """Добрый день, техническая поддержка СПбГУ, слушаю вас.
Здравствуйте, у меня не открывается Блэкборд, можете проверить?
Подождите секунду. Сейчас проверим. Да, есть проблема с работой серверов. Работа будет восстановлена после проведения технических работ.
Буду ждать, до свидания.
До свидания."""
print(summarize(text))

Не открывается Блэкборд.
CPU times: user 270 ms, sys: 0 ns, total: 270 ms
Wall time: 276 ms


In [None]:
!git clone https://github.com/spbu-smart-assistant/support-chatbot.git

NotImplementedError: ignored