In [None]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [None]:
import pandas as pd

In [None]:
df = pd.read_json('/content/drive/MyDrive/ML_Data/term_labeled_texts_train.json')
df.head()

Unnamed: 0,tokenized_text,token_labels,new_terms
0,"[ABBYY, Retrieval, &, Morphology, Engine, В, с...","[B, I, I, I, E, O, O, O, O, B, E, O, O, O, O, ...","[ABBYY Retrieval & Morphology Engine, программ..."
1,"[Речевые, формулы, в, диалоге, Предложенная, к...","[B, E, O, S, O, O, O, O, O, O, O, B, E, O, O, ...","[Речевые формулы, диалоге, лингвистические тип..."
2,"[Географические, названия, и, полнотекстовые, ...","[B, E, O, B, E, O, B, I, E, O, O, O, O, O, O, ...","[Географические названия, полнотекстовые докум..."
3,"[Методы, автоматического, построения, специали...","[O, B, I, I, E, O, O, O, O, B, I, E, O, O, B, ...",[автоматического построения специализированног...
4,"[К, проблеме, понимания, несегментированного, ...","[O, O, O, B, E, O, O, O, B, E, O, O, O, O, O, ...","[несегментированного текста, метеорологических..."


In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 750 entries, 0 to 749
Data columns (total 3 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   tokenized_text  750 non-null    object
 1   token_labels    750 non-null    object
 2   new_terms       750 non-null    object
dtypes: object(3)
memory usage: 23.4+ KB


In [None]:
texts = df['tokenized_text'].to_list()

In [None]:
tags = df['token_labels'].to_list()

In [None]:
print(texts[1])

['Речевые', 'формулы', 'в', 'диалоге', 'Предложенная', 'классификация', ',', 'как', 'и', 'многие', 'другие', 'лингвистические', 'типологии', ',', 'допускает', 'пересечения', '.', 'Например', ',', 'идиома', 'врать', 'готово', 'в', 'последовательности', 'реплик', '[', '-', 'Честное', 'слово', ']', '-', 'Врать', 'готово', ',', 'с', 'одной', 'стороны', ',', 'является', 'комментарием', ',', 'а', 'с', 'другой', '–', 'обладает', 'некоторыми', 'характеристиками', 'формул', 'ответа', ':', 'иллокутивно', 'вынуждается', 'предшествующей', 'репликой', 'и', 'повторяет', 'ее', 'некоторые', 'фонетические', 'особенности', '.', 'Кроме', 'того', ',', 'поскольку', 'оценивается', 'искренность', 'предшествующей', 'клятвы', ',', 'данную', 'идиому', 'можно', 'рассматривать', 'и', 'как', 'формулу', 'эпистемической', 'модальности', '.']


In [None]:
print(tags[1])

['B', 'E', 'O', 'S', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'B', 'E', 'O', 'O', 'O', 'O', 'O', 'O', 'S', 'O', 'O', 'O', 'O', 'S', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'S', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'B', 'E', 'O', 'S', 'O', 'O', 'S', 'O', 'O', 'O', 'O', 'B', 'E', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'S', 'O', 'O', 'O', 'O', 'B', 'I', 'E', 'O']


In [None]:
train_texts = texts[:570]
train_tags = tags[:570]
val_texts = texts[570:]
val_tags = tags[570:]

In [None]:
unique_tags = ['O', 'S', 'B', 'I', 'E']
tag2id = {tag: id for id, tag in enumerate(unique_tags)}
id2tag = {id: tag for tag, id in tag2id.items()}

In [None]:
tag2id

{'O': 0, 'S': 1, 'B': 2, 'I': 3, 'E': 4}

In [None]:
id2tag

{0: 'O', 1: 'S', 2: 'B', 3: 'I', 4: 'E'}

In [None]:
! pip install datasets transformers[torch] seqeval accelerate -U



In [None]:
model_checkpoint = "Mathnub/ruDistilBert-base-sberquad"
batch_size = 4

In [None]:
from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained(model_checkpoint)

In [None]:
encoded_tags_train = [[tag2id[tag] for tag in doc] for doc in train_tags]

In [None]:
encoded_tags_val = [[tag2id[tag] for tag in doc] for doc in val_tags]

In [None]:
label_all_tokens = True

def tokenize_and_align_labels(texts, tags):

    tokenized_inputs = tokenizer(texts,
                                 #max_length=1150, не работает для Bert
                                 truncation=True, # обрезка слишком длинных последовательностей
                                 padding=True,
                                 is_split_into_words=True # предупреждаем, что вход поступит в виде списков токенов
                                 )

    labels = []
    for i, label in enumerate(tags):

        # достаем 1 текст
        word_ids = tokenized_inputs.word_ids(batch_index=i)
        previous_word_idx = None
        label_ids = []

        # идем по всем словам
        for word_idx in word_ids:

            # Некоторые специальные токены имеют id None. Мы даем им лейбл -100, чтобы модель их игнорировала
            if word_idx is None:
                label_ids.append(-100)

            # Логично, что если слово разделилось на subword-токены, их лейблы в пределах слова должны быть одинаковыми.
            # Если мы перешли на новое слово, добавляем его лейбл в список
            elif word_idx != previous_word_idx:
                label_ids.append(label[word_idx])

            # Всем следующим частям одного и того же слова мы даем или тот же лейбл, или -100, если label_all_tokens=False
            else:
                label_ids.append(label[word_idx] if label_all_tokens else -100)

            previous_word_idx = word_idx

        labels.append(label_ids)

    return tokenized_inputs, labels

In [None]:
tokenized_train, train_labels = tokenize_and_align_labels(train_texts, encoded_tags_train)

In [None]:
print(tokenized_train[2])

Encoding(num_tokens=441, attributes=[ids, type_ids, tokens, offsets, attention_mask, special_tokens_mask, overflowing])


In [None]:
print(train_labels[2])

[-100, 2, 2, 2, 2, 4, 0, 2, 2, 2, 2, 2, 4, 0, 2, 2, 3, 4, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 2, 2, 4, 4, 4, 2, 4, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 2, 2, 4, 4, 4, 0, 2, 2, 3, 4, 4, 4, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 2, 2, 2, 2, 4, 0, 0, 0, 0, 0, 0, 0, 0, 0, 2, 2, 2, 3, 3, 4, 4, 0, 0, 0, 0, 0, 0, 0, 2, 2, 3, 3, 3, 3, 3, 3, 3, 4, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 2, 2, 2, 4, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 2, 2, 2, 2, 4, 4, 0, 0, 0, 0, 0, 2, 2, 3, 4, 4, 4, 2, 2, 2, 4, 0, 0, 0, 0, 0, 0, 1, 1, 2, 2, 3, 3, 3, 3, 3, 3, 3, 4, 0, 0, 0, 0, 0, 0, 0, 0, 2, 2, 2, 2, 4, 4, 4, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 2, 2, 2, 4, 0, 2, 2, 2, 3, 3, 3, 3, 3, 4, 4, 0, 0, 0, 0, 2, 2, 2, 2, 2, 4, 4, 2, 2, 2, 2, 2, 2, 2, 4, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 2, 4, 4, 4, 4, 0, 0, 0, 0, 0, 0, 0, 0, 2, 2, 3, 3, 3, 4, 0, 0, 0, 0, 0, 0, 0, 0, 0, 2, 4, 4, 4, 4, 0, 0, 0, 0, 2, 2, 2, 4, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 0, 0, 1, 1, 1, 0, 0, 2, 

In [None]:
len(train_labels[2])

441

In [None]:
tokenized_val, val_labels = tokenize_and_align_labels(val_texts, encoded_tags_val)

In [None]:
len(val_labels[12])

463

In [None]:
len(train_labels[67])

441

In [None]:
import torch

In [None]:
class TermLabDataset(torch.utils.data.Dataset):
    def __init__(self, encodings, labels):
        self.encodings = encodings
        self.labels = labels

    def __getitem__(self, idx):
      # этот метод вызывается моделью, когда она учится
      # он определяет, в каком виде данные подаются в модель
        item = {key: torch.tensor(val[idx]) for key, val in self.encodings.items()}
        item['labels'] = torch.tensor(self.labels[idx])
        return item

    def __len__(self):
        return len(self.labels)

In [None]:
train_dataset = TermLabDataset(tokenized_train, train_labels)
val_dataset = TermLabDataset(tokenized_val, val_labels)

In [None]:
from transformers import AutoModelForTokenClassification, TrainingArguments, Trainer

model = AutoModelForTokenClassification.from_pretrained(model_checkpoint, num_labels=5)

Some weights of DistilBertForTokenClassification were not initialized from the model checkpoint at Mathnub/ruDistilBert-base-sberquad and are newly initialized: ['classifier.bias', 'classifier.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


In [None]:
model_name = model_checkpoint.split("/")[-1]
args = TrainingArguments(
    f"//content/sample_data/{model_name}-finetuned-1-term-tag",
    overwrite_output_dir=True, # записываем каждый раз в один и тот же файл
    evaluation_strategy = "epoch", # оцениваем каждую эпоху
    learning_rate=2e-5,
    per_device_train_batch_size=batch_size, # размер тренировочного батча на каждый процессор
    per_device_eval_batch_size=batch_size,
    num_train_epochs=50,
    weight_decay=0.01, # регуляризация функции потерь
    push_to_hub=False, # не публиковать на Huggingface
)



In [None]:
from transformers import DataCollatorForTokenClassification

data_collator = DataCollatorForTokenClassification(tokenizer)

In [None]:
from datasets import load_metric

In [None]:
metric = load_metric("seqeval")

In [None]:
import numpy as np

def compute_metrics(p):
    predictions, labels = p
    predictions = np.argmax(predictions, axis=2)

    # Удаляем индексы специальных токенов
    true_predictions = [
        [id2tag[p] for (p, l) in zip(prediction, label) if l != -100]
        for prediction, label in zip(predictions, labels)
    ]
    true_labels = [
        [id2tag[l] for (p, l) in zip(prediction, label) if l != -100]
        for prediction, label in zip(predictions, labels)
    ]

    results = metric.compute(predictions=true_predictions, references=true_labels)
    return {
        "precision": results["overall_precision"],
        "recall": results["overall_recall"],
        "f1": results["overall_f1"],
        "accuracy": results["overall_accuracy"],
    }

In [None]:
trainer = Trainer(
    model,
    args,
    train_dataset=train_dataset,
    eval_dataset=val_dataset,
    data_collator=data_collator,
    tokenizer=tokenizer,
    compute_metrics=compute_metrics
)

In [None]:
trainer.train()

Epoch,Training Loss,Validation Loss,Precision,Recall,F1,Accuracy
1,No log,0.596505,0.691912,0.652309,0.671527,0.770428
2,No log,0.534207,0.701343,0.763032,0.730888,0.795772
3,No log,0.513702,0.719018,0.795887,0.755502,0.810818
4,0.566800,0.570173,0.698039,0.844716,0.764405,0.805492
5,0.566800,0.570868,0.726997,0.805329,0.764161,0.811895
6,0.566800,0.622897,0.732624,0.832363,0.779315,0.821241
7,0.221500,0.663525,0.749798,0.78127,0.765211,0.818133
8,0.221500,0.716546,0.742977,0.803906,0.772242,0.817221
9,0.221500,0.722051,0.767504,0.774156,0.770816,0.826629
10,0.221500,0.824839,0.730445,0.834045,0.778815,0.820019


TrainOutput(global_step=7150, training_loss=0.06981012100731576, metrics={'train_runtime': 1572.8301, 'train_samples_per_second': 18.12, 'train_steps_per_second': 4.546, 'total_flos': 3207426878943000.0, 'train_loss': 0.06981012100731576, 'epoch': 50.0})

In [None]:
predictions, labels, _ = trainer.predict(val_dataset)
predictions = np.argmax(predictions, axis=2)

# Уберем игнорируемые токены и декодируем предсказанные токены
ids_predictions = [
    [id2tag[p] for (p, l) in zip(prediction, label) if l != -100]
    for prediction, label in zip(predictions, labels)
]
true_labels = [
    [id2tag[l] for (p, l) in zip(prediction, label) if l != -100]
    for prediction, label in zip(predictions, labels)
]

results = metric.compute(predictions=ids_predictions, references=true_labels)
results

{'_': {'precision': 0.7525664339766528,
  'recall': 0.8297115508989782,
  'f1': 0.7892583592235995,
  'number': 15462},
 'overall_precision': 0.7525664339766528,
 'overall_recall': 0.8297115508989782,
 'overall_f1': 0.7892583592235995,
 'overall_accuracy': 0.8301730390633095}

In [None]:
from transformers import TokenClassificationPipeline

In [None]:
def postprocess_output(output):

  string = ''
  tags = []
  last_token_end = 0

  for token in output:
    # сначала обработаем тег
    if '_' in token['entity']:
      tag = id2tag[int(token['entity'].split('_')[1])]
    else:
      tag = token['entity']

    if token['word'][0] != '#':
      # если токен - или начало слова, или полное слово
      if last_token_end != token['start']:
        string += ' '

      string += token['word']
      tags.append(tag)

    else:
      # если токен - середина слова или конец
      string += token['word'].replace('#', '')

    last_token_end = token['end']

  return list(zip(string.split(), tags))

In [None]:
checkpoint = '/content/sample_data/ruDistilBert-base-sberquad-finetuned-1-term-tag/checkpoint-7000'

In [None]:
tokenizer_term = AutoTokenizer.from_pretrained("Mathnub/ruDistilBert-base-sberquad")

In [None]:
model_term = AutoModelForTokenClassification.from_pretrained(checkpoint)

In [None]:
termbert = TokenClassificationPipeline(model=model_term, tokenizer=tokenizer_term, task="term")

Hardware accelerator e.g. GPU is available in the environment, but no `device` argument is passed to the `Pipeline` object. Model will be on CPU.


In [None]:
postprocess_output(termbert('В данной статье описываются основные принципы работы синтаксического парсера русского языка LPaRus , разработанного на основе лингвистических технологий компании Megaputer Intelligence .'))

[('В', 'O'),
 ('данной', 'O'),
 ('статье', 'O'),
 ('описываются', 'O'),
 ('основные', 'O'),
 ('принципы', 'O'),
 ('работы', 'O'),
 ('синтаксического', 'B'),
 ('парсера', 'E'),
 ('русского', 'B'),
 ('языка', 'E'),
 ('LPaRus', 'O'),
 (',', 'O'),
 ('разработанного', 'O'),
 ('на', 'O'),
 ('основе', 'O'),
 ('лингвистических', 'B'),
 ('технологий', 'E'),
 ('компании', 'O'),
 ('Megaputer', 'O'),
 ('Intelligence', 'O'),
 ('.', 'O')]