In [2]:
from transformers import AutoTokenizer, AutoModel

import torch
import torch.nn as nn

import json

In [3]:
# MODEL_PATH = "sberbank-ai/sbert_large_nlu_ru"
# MODEL_PATH = "sberbank-ai/ruBert-base"
MODEL_PATH = "DeepPavlov/rubert-base-cased"

model = AutoModel.from_pretrained(MODEL_PATH)
tokenizer = AutoTokenizer.from_pretrained(MODEL_PATH)

Some weights of the model checkpoint at DeepPavlov/rubert-base-cased were not used when initializing BertModel: ['cls.seq_relationship.bias', 'cls.predictions.bias', 'cls.predictions.decoder.bias', 'cls.predictions.transform.LayerNorm.bias', 'cls.seq_relationship.weight', 'cls.predictions.transform.LayerNorm.weight', 'cls.predictions.transform.dense.weight', 'cls.predictions.transform.dense.bias', 'cls.predictions.decoder.weight']
- This IS expected if you are initializing BertModel from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertModel from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


In [4]:
tokenizer.vocab_size
# "sberbank-ai/sbert_large_nlu_ru" -> 120138
# "sberbank-ai/ruBert-base" -> 120138
# "DeepPavlov/rubert-base-cased" -> 119547

119547

In [None]:
tokenizer.vocab

In [44]:
tokenizer.tokenize('авитамин')

['ави', '##тами', '##н']

In [37]:
tokenizer("Абсцисса").input_ids

[101, 3305, 36039, 1393, 102]

In [43]:
__word = "авторепродукция"
print(tokenizer.tokenize(__word))
print(tokenizer(__word).input_ids)

['авторе', '##продук', '##ция']
[101, 99427, 13047, 977, 102]


In [42]:
tokenizer.cls_token_id

101

In [38]:
dir(tokenizer)

['SPECIAL_TOKENS_ATTRIBUTES',
 '__annotations__',
 '__call__',
 '__class__',
 '__delattr__',
 '__dict__',
 '__dir__',
 '__doc__',
 '__eq__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__gt__',
 '__hash__',
 '__init__',
 '__init_subclass__',
 '__le__',
 '__len__',
 '__lt__',
 '__module__',
 '__ne__',
 '__new__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__setattr__',
 '__sizeof__',
 '__str__',
 '__subclasshook__',
 '__weakref__',
 '_add_tokens',
 '_additional_special_tokens',
 '_auto_class',
 '_batch_encode_plus',
 '_bos_token',
 '_call_one',
 '_cls_token',
 '_convert_encoding',
 '_convert_id_to_token',
 '_convert_token_to_id_with_added_voc',
 '_create_repo',
 '_decode',
 '_decode_use_source_tokenizer',
 '_encode_plus',
 '_eos_token',
 '_eventual_warn_about_too_long_sequence',
 '_eventually_correct_t5_max_length',
 '_from_pretrained',
 '_get_files_timestamps',
 '_get_padding_truncation_strategies',
 '_in_target_context_manager',
 '_mask_token',
 '_pad',
 '_pad_token',
 '_pad

In [6]:
with open("math.json", mode='r') as f:
    math_json = json.load(f)
with open("biology.json", mode='r') as f:
    biology_json = json.load(f)

In [23]:
math_words = set(math_json.keys())
biology_words = set(biology_json.keys())

len(math_words), len(biology_words), len(math_words & biology_words)

(638, 1222, 6)

In [24]:
math_words & biology_words

{'аналогия', 'инверсия', 'индукция', 'параллелизм', 'синус', 'транспозиция'}

In [9]:
math_phem_info = {math_json[key]['xmorphy']['phem_info'] for key in math_json}
math_phem_info = set(filter(None, math_phem_info))
math_phem_info

{'а:PREF/симметр:ROOT/и:SUFF/я:END',
 'абсцисс:ROOT/а:END',
 'авто:ROOT/пол:ROOT/ярн:SUFF/ост:SUFF/ь:END',
 'авто:ROOT/пол:ROOT/ярн:SUFF/ый:END',
 'аддит:ROOT/ивн:SUFF/ост:SUFF/ь:END',
 'адъюнкт:ROOT/а:END',
 'аксиом:ROOT/а:END',
 'аксон:ROOT/о:LINK/метр:ROOT/и:SUFF/я:END',
 'алгебр:ROOT/а:END',
 'алгебр:ROOT/а:SUFF/ическ:SUFF/ое:END',
 'анализ:ROOT',
 'аналит:ROOT/ическ:SUFF/ая:END',
 'аналог:ROOT/и:SUFF/я:END',
 'анти:PREF/логарифм:ROOT',
 'анти:PREF/параллел:ROOT/о:LINK/грамм:ROOT',
 'анти:PREF/подер:ROOT/а:END',
 'анти:PREF/призм:ROOT/а:END',
 'анть:ROOT/е:END',
 'апофем:ROOT/а:END',
 'аппликат:ROOT/а:END',
 'аппроксим:ROOT/аци:SUFF/я:END',
 'аргумент:ROOT',
 'арифмет:ROOT/ик:SUFF/а:END',
 'арифмет:ROOT/ическ:SUFF/ое:END',
 'арктангенс:ROOT',
 'асимптот:ROOT/а:END',
 'ассоци:ROOT/ат:SUFF/ивн:SUFF/ост:SUFF/ь:END',
 'астр:ROOT/оид:SUFF/а:END',
 'баз:ROOT/и:END/с:ROOT',
 'базис:ROOT/н:SUFF/ые:END',
 'бернулл:ROOT/и:END',
 'бикас:ROOT/а:SUFF/тельн:SUFF/ая:END',
 'биконус:ROOT',
 'билли

In [15]:
def get_suff(phem_info):
    phem_info = phem_info.split("/")
    phem_info = filter(lambda morph: morph.split(":")[1] == "SUFF", phem_info)
    phem_info = list(map(lambda morph: morph.split(":")[0], phem_info))
    return phem_info

In [19]:
math_suff = {suff for phem_info in math_phem_info for suff in get_suff(phem_info)}
len(math_suff)

67

In [20]:
{suff for suff in math_suff if suff not in tokenizer.vocab}

{'альн',
 'ант',
 'атор',
 'аци',
 'ени',
 'енн',
 'ент',
 'ивн',
 'изм',
 'иц',
 'ич',
 'ическ',
 'ичн',
 'нн',
 'оид',
 'ость',
 'ств',
 'тельн',
 'ущ',
 'ыва',
 'ьн',
 'ющ',
 'ярн',
 'ятор',
 'яци',
 'ённ'}

---

In [1]:
vm_word = ['абсцисса', 'аддитивность', 'адъюнкта', 'аксиома', 'аксонометрия', 'алгебра', 'анализ', 'аналогия', 'антилогарифмлат.', 'антье', 'апофема', 'аппликата', 'аппроксимация', 'аргумент', 'арифметика', 'арктангенс,', 'асимметрия', 'асимптота', 'астроида', 'ассоциативность', 'биллион', 'бином', 'биссектриса', 'вектор', 'вертикальные', 'гексаэдр', 'геометрия', 'гипербола', 'гипотенуза', 'гипоциклоида', 'гониометрия', 'гомотетия', 'градус', 'график', 'дедукция', 'деференты', 'диагональ', 'диаметр', 'директриса', 'дискретность', 'дискриминант', 'дистрибутивность', 'дифференциал', 'дихотомия', 'додекаэдр', 'знаменатель', 'изоморфизм', 'икосаэдр', 'инвариантность', 'индукция', 'индекс', 'интеграл', 'интервал', 'иррациональное', 'итерация', 'калькулятор', 'каноническое', 'касательная', 'катет', 'квадрат', 'кватернионы', 'квинтиллион', 'коллинеарность', 'комбинаторика', 'компланарность', 'коммутативность', 'конгруэнтность', 'константа', 'конус', 'конфигурация', 'конхоида', 'координаты', 'косеканс', 'косинус', 'котангенс', 'коэффициент', 'куб', 'лемма', 'лемниската', 'линия', 'логарифм', 'максимум', 'мантисса', 'масштаб', 'математика', 'матрица', 'медиана', 'метр', 'метрика', 'миллион', 'миллиард', 'минимум', 'минус', 'минута', 'модуль', 'мультипликативность', 'норма', 'нуль', 'нумерация', 'овал', 'окружность', 'октаэдр', 'ордината', 'орт', 'ортогональность', 'парабола', 'параллелепипед', 'параллелограмм', 'параллельность', 'параметр', 'периметр', 'перпендикуляр', 'пирамида', 'площадь', 'планиметрия', 'плюс', 'полином', 'потенцирование', 'предел', 'призма', 'пример', 'производная', 'проекция', 'пропорция', 'процент', 'постулат', 'радиан', 'радикал', 'радиус', 'рекуррентный', 'ромб', 'рулетты', 'сегмент', 'секанс', 'секстиллион', 'сектор', 'секунда', 'сигнум', 'симметрия', 'синус', 'скаляр', 'спираль', 'стереометрия', 'сумма', 'сфера', 'тангенс', 'теорема', 'тетраэдр', 'топология', 'точка', 'трактриса', 'транспозиция', 'транспортир', 'трансцендентный', 'трапеция', 'триангулированная', 'тригонометрия', 'триллион', 'трисекция', 'трохоида', 'угол', 'уникурсальный', 'факториал', 'фигура', 'фокус', 'формула', 'функция', 'характеристика', 'хорда', 'центр', 'циклоида', 'цилиндр', 'циркуль', 'циссоида', 'цифры', 'числитель', 'число', 'шкала', 'эвольвента', 'экспонента', 'экстраполирование', 'экстремум', 'эксцентриситет', 'эллипс', 'энтропия', 'эпициклоида']

In [4]:
len(set(vm_word))

186

In [7]:
# https://reshyzadachy.blogspot.com/p/blog-page_90.html
# vm_word = list(map(lambda x: x.split()[0].lower(), vm.split('\n')))
# vm_word

In [5]:
vb_word = ['абазия', 'аббревиация', 'абиогенез', 'абориген', 'авитаминоз', 'автогамия', 'автодупликация', 'автолиз', 'автомиксис', 'автотомия', 'автотроф', 'агглютинация', 'агглютинины', 'агония', 'агранулоцит', 'агроценоз', 'адаптация', 'адинамия', 'азотобактерии', 'акклиматизация', 'аккомодация', 'аккумуляция', 'акромегалия', 'алкалоз', 'аллель', 'аллогенез', 'альбинизм', 'альгология', 'аменсализм', 'амитоз', 'анабиоз', 'анаболизм', 'анализирующее', 'аналогичные', 'анатомия', 'анаэроб', 'ангиология', 'анемия', 'анеуплоидия', 'антеридий', 'антиген', 'антикодон', 'антитело', 'антропогенез', 'антропология', 'апомиксис', 'арахнология', 'ареал', 'арогенез', 'ароморфоз', 'арренотокия', 'архегоний', 'ассимиляция', 'астазия', 'астробиология', 'асфиксия', 'атавизм', 'атония', 'аутбридинг', 'аутосома', 'ацидоз', 'аэроб', 'аэропоника', 'аэротаксис', 'аэротропизм', 'бактериология', 'бактерионосительство', 'бактериофаг', 'бактериоцид', 'барорецепторы', 'бацилла', 'бивалент', 'билатеральность', 'биогеография', 'биогеохимия', 'биогеоценоз', 'биология', 'биометрия', 'биомеханика', 'бионика', 'биоритм', 'биосфера', 'биотехния', 'биотехнология', 'биофизика', 'биохимия', 'биоценоз', 'бифуркация', 'бластула', 'ботаника', 'бриология', 'вакцина', 'вирусология', 'вирусоносительство', 'гамета', 'гаметогенез', 'гаметофит', 'гаплоид', 'гаструла', 'гаструляция', 'гелиобиология', 'гельминтология', 'гемизигота', 'гемолиз', 'гемофилия', 'гемоцианин', 'гемэритрин', 'генетика', 'геном', 'генотип', 'генофонд', 'геоботаника', 'геотаксис', 'геотропизм', 'геофилия', 'гермафродитизм', 'герпетология', 'гетерозигота', 'гетерозис', 'гетероплоидия', 'гиббереллин', 'гибрид', 'гигантизм', 'гигиена', 'гигрофилы', 'гигрофиты', 'гигрофобы', 'гидролиз', 'гидропоника', 'гидротаксис', 'гипертония', 'гиподинамия', 'гипоксия', 'гипотония', 'гистология', 'гликолиз', 'голандрический', 'гомозигота', 'гомойотерм', 'гомологичные', 'гормон', 'гранулоцит', 'дальтонизм', 'дегенерация', 'делеция', 'демэкология', 'дендрология', 'депрессия', 'дефишенси', 'дивергенция', 'дигибридное', 'диссимиляция', 'доминантный', 'донор', 'дрейф', 'дробление', 'дупликация', 'евгеника', 'заказник', 'заповедник', 'зигота', 'зоогеография', 'зоология', 'идиоадаптация', 'изоляция', 'иммунитет', 'импринтинг', 'инбридинг', 'инверсия', 'инсерция', 'интерферон', 'интоксикация', 'ихтиология', 'канцероген', 'кариотип', 'каротиноиды', 'катаболизм', 'катагенез', 'квартиранство', 'кифоз', 'клон', 'комменсализм', 'комплементарность', 'конвергенция', 'конкуренция', 'консумент', 'конъюгация', 'копуляция', 'кроссбридинг', 'кроссинговер', 'ксантофиллы', 'ксерофил', 'ксерофит', 'лабильность', 'латентный', 'лейкопласты', 'лизис', 'лихенология', 'локус', 'лордоз', 'макроэволюция', 'медиатор', 'мезодерма', 'метаболизм', 'метаморфоз', 'микология', 'микориза', 'микробиология', 'микроэволюция', 'мимикрия', 'моделирование', 'модификация', 'мониторинг', 'моногамия', 'моногибридное', 'моноспермия', 'морганида', 'морула', 'морфология', 'мутагенез', 'мутация', 'мутуализм', 'наследственность', 'нахлебничество', 'нейрула', 'нейтрализм', 'ноосфера', 'нуклеопротеид', 'облигатный', 'обмен', 'овуляция', 'онтогенез', 'оплодотворение', 'органогенез', 'орнитология', 'палеонтология', 'памятник', 'паразит', 'параллелизм', 'партеногенез', 'педосфера', 'пиноцитоз', 'плейотропия', 'пойкилотерм', 'полигамия', 'полимерия', 'полиплоидия', 'порода', 'протистология', 'процессинг', 'радиобиология', 'регенерация', 'редуцент', 'реотаксис', 'реотропизм', 'ретровирус', 'рефлекс', 'рецептор', 'реципиент', 'рудименты', 'селекция', 'симбиоз', 'синапс', 'синэкология', 'систематика', 'сколиоз', 'сорт', 'сперматогенез', 'сплайсинг', 'суккулент', 'сукцессия', 'сыворотка', 'таксис', 'тератоген', 'терморегуляция', 'термотаксис', 'термотропизм', 'ткань', 'толерантность', 'транскрипция', 'транслокация', 'трансляция', 'транспирация', 'тропизм', 'тургор', 'фагоцит', 'фагоцитоз', 'фенология', 'фенотип', 'фермент', 'физиология', 'филогенез', 'фотопериодизм', 'фототаксис', 'фототропизм', 'хемосинтез', 'хемотаксис', 'хищничество', 'хроматида', 'хроматин', 'целлюлоза', 'центромера', 'циста', 'цитология', 'шизогония', 'штамм', 'экзоцитоз', 'экология', 'эктодерма', 'эмбриология', 'эндоцитоз', 'энтодерма', 'этология']

In [6]:
len(set(vb_word))

313

In [9]:
# https://examer.ru/ege_po_biologii/teoriya/terms
# vb_word = list(map(lambda x: x.split()[0].lower(), vb.split('\n')[::2]))
# vb_word

In [10]:
corpus = vm_word + vb_word
targets = [0.] * len(vm_word) + [1.] * len(vb_word)
targets = list(map(float, targets))

---

In [333]:
from torch.utils.data import Dataset

class BertDataset(Dataset):
    def __init__(self, corpus, labels, tokenizer):
        super().__init__()
        self._corpus = []
        self._labels = labels
        self._tokenizer = tokenizer

        for word in corpus:
            self._corpus.append(tokenizer(word).input_ids)

    def __len__(self):
        return len(self._corpus)

    def __getitem__(self, idx):
        return self._corpus[idx], self._labels[idx]

In [334]:
from torch.nn.utils.rnn import pad_sequence

class Collator:
    def __init__(self, tokenizer):
        self._pad_token_id = tokenizer.pad_token_id

    def __call__(self, batch):
        inputs = [torch.tensor(x[0]) for x in batch]
        input_ids = torch.nn.utils.rnn.pad_sequence(inputs, padding_value=self._pad_token_id, batch_first=True)
        labels = torch.tensor([x[1] for x in batch])

        return input_ids, labels

In [335]:
from torch.utils.data import DataLoader

ds = BertDataset(
    corpus=corpus,
    labels=targets,
    tokenizer=tokenizer,
)

collator = Collator(tokenizer)

dl = DataLoader(
    ds,
    collate_fn=collator,
    batch_size=16,
    #shuffle=False
    shuffle=True
)

In [336]:
def init_layer(layer, initializer_range=0.02, zero_out_bias=True):
    if isinstance(layer, nn.Embedding) or isinstance(layer, nn.Linear):
        nn.init.trunc_normal_(layer.weight.data, std=initializer_range, a=-2 * initializer_range, b=2 * initializer_range)
        if isinstance(layer, nn.Linear):
            layer.bias.data.zero_()

In [386]:
class BertModel(nn.Module):
    CLS_POSITION = 0

    def __init__(self, bert_backbone, hidden_size, num_classes=1, hidden_dropout_prob=0.):
        super().__init__()
        self._bert_backbone = bert_backbone

        # freeze
        for param in self._bert_backbone.parameters():
            param.requires_grad = False

        self._hidden_size = hidden_size
        self.linear_1 = nn.Linear(1024, hidden_size)  # NB!!!
        self.linear_2 = nn.Linear(hidden_size, num_classes)
        self.model = nn.Sequential(
            self.linear_1,
            nn.ReLU(),
            nn.Dropout(p=hidden_dropout_prob),
            self.linear_2
        )

#         for layer in [self.linear_1, self.linear_2]:
#             init_layer(layer)

    def forward(self, x, attn_mask):
        bert_cls_output = self._bert_backbone(x, attn_mask).last_hidden_state[:, self.CLS_POSITION]
        return self.model(bert_cls_output)

In [417]:
from sklearn.metrics import roc_auc_score

class Trainer:
    def __init__(
            self,
            model,
            optimizer,
            pad_token_id,
            device="cpu",
    ):
        model.to(device)
        self.model = model
        self.optimizer = optimizer
        self.pad_token_id = pad_token_id
        self.device = device
        self.loss = nn.BCEWithLogitsLoss()

    def train(self, dataloader, n_epochs):
        for epoch in range(n_epochs):
            train_loss = self._train_step(dataloader)
            val_loss, val_acc, val_auc = self._eval_step(dataloader)
            print(f'epoch: {epoch}, train_loss: {train_loss:.3f}, val_loss: {val_loss:.3f}, val_acc: {val_acc:.3f}, val_auc: {val_auc:.3f}')

    def _train_step(self, dataloader):
        self.model.train()
        batch_loss = 0
        for _, (input_ids, labels) in enumerate(dataloader):
            self.optimizer.zero_grad()
            input_ids = input_ids.to(self.device)
            #print(input_ids)
            attention_mask = (input_ids != self.pad_token_id).float().to(self.device)
            outputs = self.model(input_ids, attention_mask).to("cpu").flatten()
            #outputs = torch.nn.Sigmoid()(outputs)
            #print('outputs_1: ', torch.nn.Sigmoid()(outputs))
            loss = self.loss(outputs, labels)
            #print('loss: ', loss)

            batch_loss += loss.float()

            loss.backward()
            self.optimizer.step()

        return batch_loss / len(dataloader)
    
    def _eval_step(self, dataloader):
        self.model.eval()
        labels_lst = []
        pred_lst = []
        with torch.no_grad():
            batch_loss = 0
            acc = 0
            num_objects = 0
            for i, (input_ids, labels) in enumerate(dataloader):
                input_ids = input_ids.to(self.device)
                attention_mask = (input_ids != self.pad_token_id).float().to(self.device)

                outputs = self.model(input_ids, attention_mask).to("cpu").flatten()
                loss = self.loss(outputs, labels)
                
                outputs = torch.nn.Sigmoid()(outputs)
                
                binary_outputs = (outputs > 0.5).float()

                batch_loss += loss.float()
                acc += (binary_outputs == labels).sum()
                
                labels_lst.extend(labels.tolist())
                pred_lst.extend(binary_outputs.tolist())
                
                num_objects += input_ids.shape[0]
                

            return batch_loss / len(dataloader), acc / num_objects, roc_auc_score(labels_lst, pred_lst)

In [418]:
bert_model = BertModel(model, 16)

optimizer = torch.optim.AdamW(bert_model.parameters(), lr=1e-3)

trainer = Trainer(bert_model, optimizer, tokenizer.pad_token_id)

In [419]:
trainer.train(dl, 100)

epoch: 0, train_loss: 0.478, val_loss: 0.344, val_acc: 0.850, val_auc: 0.813
epoch: 1, train_loss: 0.338, val_loss: 0.271, val_acc: 0.880, val_auc: 0.855


KeyboardInterrupt: 

---

In [11]:
tokenizer_map = {'абсцисса': 'абсцисс:ROOT/а:END', 'аддитивность': 'аддит:ROOT/ивн:SUFF/ост:SUFF/ь:END', 'адъюнкта': 'адъюнкт:ROOT/а:END', 'аксиома': 'аксиом:ROOT/а:END', 'аксонометрия': 'аксон:ROOT/о:LINK/метр:ROOT/и:SUFF/я:END', 'алгебра': 'алгебр:ROOT/а:END', 'анализ': 'анализ:ROOT', 'аналогия': 'аналог:ROOT/и:SUFF/я:END', 'антилогарифмлат': 'ант:ROOT/и:PREF/ло:ROOT/гарифмлат:ROOT', 'антье': 'анть:ROOT/е:END', 'апофема': 'апофем:ROOT/а:END', 'аппликата': 'аппликат:ROOT/а:END', 'аппроксимация': 'аппроксим:ROOT/аци:SUFF/я:END', 'аргумент': 'аргумент:ROOT', 'арифметика': 'арифмет:ROOT/ик:SUFF/а:END', 'арктангенс': 'арктангенс:ROOT', 'асимметрия': 'а:PREF/симметр:ROOT/и:SUFF/я:END', 'асимптота': 'асимптот:ROOT/а:END', 'астроида': 'астр:ROOT/оид:SUFF/а:END', 'ассоциативность': 'ассоци:ROOT/ат:SUFF/ивн:SUFF/ост:SUFF/ь:END', 'биллион': 'биллион:ROOT', 'бином': 'бин:ROOT/ом:END', 'биссектриса': 'биссектри:ROOT/с:SUFF/а:END', 'вектор': 'вектор:ROOT', 'вертикальные': 'вертикал:ROOT/ьн:SUFF/ые:END', 'гексаэдр': 'гекса:ROOT/эдр:ROOT', 'геометрия': 'гео:ROOT/метр:ROOT/и:SUFF/я:END', 'гипербола': 'гипербол:ROOT/а:END', 'гипотенуза': 'гипотенуз:ROOT/а:END', 'гипоциклоида': 'гипо:ROOT/цикл:ROOT/оид:SUFF/а:END', 'гониометрия': 'гони:ROOT/о:LINK/метр:ROOT/и:SUFF/я:END', 'гомотетия': 'гомотет:ROOT/и:SUFF/я:END', 'градус': 'градус:ROOT', 'график': 'граф:ROOT/ик:SUFF', 'дедукция': 'дедукц:ROOT/и:SUFF/я:END', 'деференты': 'дефер:ROOT/ент:SUFF/ы:END', 'диагональ': 'диагон:ROOT/а:SUFF/л:ROOT/ь:END', 'диаметр': 'диа:ROOT/метр:ROOT', 'директриса': 'директр:ROOT/ис:SUFF/а:END', 'дискретность': 'дискрет:ROOT/н:SUFF/ост:SUFF/ь:END', 'дискриминант': 'дискриминан:ROOT/т:SUFF', 'дистрибутивность': 'дистрибут:ROOT/ивн:SUFF/ост:SUFF/ь:END', 'дифференциал': 'дифференци:ROOT/ал:SUFF', 'дихотомия': 'дих:ROOT/о:LINK/том:ROOT/и:SUFF/я:END', 'додекаэдр': 'до:PREF/дека:ROOT/эдр:ROOT', 'знаменатель': 'знамен:ROOT/а:SUFF/тел:SUFF/ь:END', 'изоморфизм': 'изо:PREF/морф:ROOT/изм:SUFF', 'икосаэдр': 'икосаэдр:ROOT', 'инвариантность': 'инвари:ROOT/ант:SUFF/н:SUFF/ост:SUFF/ь:END', 'индукция': 'индукц:ROOT/и:SUFF/я:END', 'индекс': 'индекс:ROOT', 'интеграл': 'интеграл:ROOT', 'интервал': 'инт:ROOT/е:PREF/рв:ROOT/а:SUFF/л:SUFF', 'иррациональное': 'ирр:ROOT/ац:SUFF/и:ROOT/о:SUFF/н:ROOT/альн:SUFF/ое:END', 'итерация': 'итер:ROOT/аци:SUFF/я:END', 'калькулятор': 'калькул:ROOT/ятор:SUFF', 'каноническое': 'канон:ROOT/ическ:SUFF/ое:END', 'касательная': 'кас:ROOT/а:SUFF/тельн:SUFF/ая:END', 'катет': 'катет:ROOT', 'квадрат': 'квадр:ROOT/ат:SUFF', 'кватернионы': 'кватерни:ROOT/он:SUFF/ы:END', 'квинтиллион': 'квинтиллион:ROOT', 'коллинеарность': 'коллинеар:ROOT/н:SUFF/ост:SUFF/ь:END', 'комбинаторика': 'комбин:ROOT/атор:SUFF/ик:SUFF/а:END', 'компланарность': 'компланар:ROOT/н:SUFF/ост:SUFF/ь:END', 'коммутативность': 'коммут:ROOT/ат:SUFF/ивн:SUFF/ост:SUFF/ь:END', 'конгруэнтность': 'конгруэнт:ROOT/н:SUFF/ост:SUFF/ь:END', 'константа': 'констант:ROOT/а:END', 'конус': 'конус:ROOT', 'конфигурация': 'конфигур:ROOT/аци:SUFF/я:END', 'конхоида': 'конхо:ROOT/ид:SUFF/а:END', 'координаты': 'координат:ROOT/ы:END', 'косеканс': 'косеканс:ROOT', 'косинус': 'косинус:ROOT', 'котангенс': 'котангенс:ROOT', 'коэффициент': 'коэффициент:ROOT', 'куб': 'куб:ROOT', 'лемма': 'лемм:ROOT/а:END', 'лемниската': 'лемниск:ROOT/а:SUFF/т:ROOT/а:END', 'линия': 'лин:ROOT/и:SUFF/я:END', 'логарифм': 'логарифм:ROOT', 'максимум': 'максимум:ROOT', 'мантисса': 'мантисс:ROOT/а:END', 'масштаб': 'масштаб:ROOT', 'математика': 'математ:ROOT/ик:SUFF/а:END', 'матрица': 'матриц:ROOT/а:END', 'медиана': 'медиан:ROOT/а:END', 'метр': 'метр:ROOT', 'метрика': 'метр:ROOT/ик:SUFF/а:END', 'миллион': 'миллион:ROOT', 'миллиард': 'миллиард:ROOT', 'минимум': 'минимум:ROOT', 'минус': 'минус:ROOT', 'минута': 'минут:ROOT/а:END', 'модуль': 'модуль:ROOT', 'мультипликативность': 'мульти:ROOT/плик:ROOT/ат:SUFF/ивн:SUFF/ост:SUFF/ь:END', 'норма': 'норм:ROOT/а:END', 'нуль': 'нуль:ROOT', 'нумерация': 'нумер:ROOT/аци:SUFF/я:END', 'овал': 'овал:ROOT', 'окружность': 'о:PREF/круж:ROOT/н:SUFF/ост:SUFF/ь:END', 'октаэдр': 'окта:ROOT/эдр:ROOT', 'ордината': 'ординат:ROOT/а:END', 'орт': 'орт:ROOT', 'ортогональность': 'орт:ROOT/о:LINK/гон:ROOT/альн:SUFF/ост:SUFF/ь:END', 'парабола': 'парабол:ROOT/а:END', 'параллелепипед': 'параллел:ROOT/е:LINK/пипед:ROOT', 'параллелограмм': 'параллел:ROOT/о:LINK/грамм:ROOT', 'параллельность': 'параллель:ROOT/н:SUFF/ост:SUFF/ь:END', 'параметр': 'параметр:ROOT', 'периметр': 'пери:ROOT/метр:ROOT', 'перпендикуляр': 'перпендикуля:ROOT/р:SUFF', 'пирамида': 'пирамид:ROOT/а:END', 'площадь': 'площадь:ROOT', 'планиметрия': 'плани:ROOT/метр:ROOT/и:SUFF/я:END', 'плюс': 'плюс:ROOT', 'полином': 'полин:ROOT/ом:END', 'потенцирование': 'потенц:ROOT/ир:SUFF/ова:SUFF/ни:SUFF/е:END', 'предел': 'пре:PREF/дел:ROOT', 'призма': 'призм:ROOT/а:END', 'пример': 'при:PREF/мер:ROOT', 'производная': 'производ:ROOT/н:SUFF/ая:END', 'проекция': 'проекц:ROOT/и:SUFF/я:END', 'пропорция': 'пропорци:ROOT/я:END', 'процент': 'процент:ROOT', 'постулат': 'постулат:ROOT', 'радиан': 'радиа:ROOT/н:SUFF', 'радикал': 'радика:ROOT/л:SUFF', 'радиус': 'радиус:ROOT', 'рекуррентный': 'рекуррент:ROOT/н:SUFF/ый:END', 'ромб': 'ромб:ROOT', 'рулетты': 'рулетт:ROOT/ы:END', 'сегмент': 'сегмент:ROOT', 'секанс': 'секанс:ROOT', 'секстиллион': 'секстиллион:ROOT', 'сектор': 'сект:ROOT/ор:SUFF', 'секунда': 'секунд:ROOT/а:END', 'сигнум': 'сигнум:ROOT', 'симметрия': 'симметр:ROOT/и:SUFF/я:END', 'синус': 'синус:ROOT', 'скаляр': 'скаляр:ROOT', 'спираль': 'спирал:ROOT/ь:END', 'стереометрия': 'стере:ROOT/о:LINK/метр:ROOT/и:SUFF/я:END', 'сумма': 'сумм:ROOT/а:END', 'сфера': 'сфер:ROOT/а:END', 'тангенс': 'тангенс:ROOT', 'теорема': 'теорем:ROOT/а:END', 'тетраэдр': 'тетра:ROOT/эдр:ROOT', 'топология': 'топ:ROOT/о:LINK/лог:ROOT/и:SUFF/я:END', 'точка': 'точ:ROOT/к:SUFF/а:END', 'трактриса': 'трактрис:ROOT/а:END', 'транспозиция': 'тран:ROOT/с:PREF/позици:ROOT/я:END', 'транспортир': 'транспортир:ROOT', 'трансцендентный': 'трансцендент:ROOT/н:SUFF/ый:END', 'трапеция': 'трапеци:ROOT/я:END', 'триангулированная': 'триангул:ROOT/ир:SUFF/ова:SUFF/нн:SUFF/ая:END', 'тригонометрия': 'тригон:ROOT/о:LINK/метр:ROOT/и:SUFF/я:END', 'триллион': 'триллион:ROOT', 'трисекция': 'трисекци:ROOT/я:END', 'трохоида': 'трохо:ROOT/ид:SUFF/а:END', 'угол': 'угол:ROOT', 'уникурсальный': 'уникурсаль:ROOT/н:SUFF/ый:END', 'факториал': 'фактори:ROOT/ал:SUFF', 'фигура': 'фигур:ROOT/а:END', 'фокус': 'фокус:ROOT', 'формула': 'формул:ROOT/а:END', 'функция': 'функци:ROOT/я:END', 'характеристика': 'характер:ROOT/ист:SUFF/ик:SUFF/а:END', 'хорда': 'хорд:ROOT/а:END', 'центр': 'центр:ROOT', 'циклоида': 'цикл:ROOT/оид:SUFF/а:END', 'цилиндр': 'цилиндр:ROOT', 'циркуль': 'циркуль:ROOT', 'циссоида': 'цисс:ROOT/оид:SUFF/а:END', 'цифры': 'цифр:ROOT/ы:END', 'числитель': 'числ:ROOT/и:SUFF/тел:SUFF/ь:END', 'число': 'числ:ROOT/о:END', 'шкала': 'шкал:ROOT/а:END', 'эвольвента': 'эвольвент:ROOT/а:END', 'экспонента': 'экспон:ROOT/ент:SUFF/а:END', 'экстраполирование': 'экстра:PREF/пол:ROOT/ир:SUFF/ова:SUFF/ни:SUFF/е:END', 'экстремум': 'экстремум:ROOT', 'эксцентриситет': 'эксцентриситет:ROOT', 'эллипс': 'эллипс:ROOT', 'энтропия': 'энтроп:ROOT/и:SUFF/я:END', 'эпициклоида': 'эпи:ROOT/цикл:ROOT/оид:SUFF/а:END', 'абазия': 'абаз:ROOT/и:SUFF/я:END', 'аббревиация': 'аббреви:ROOT/аци:SUFF/я:END', 'абиогенез': 'а:PREF/био:ROOT/ген:ROOT/ез:SUFF', 'абориген': 'абориген:ROOT', 'авитаминоз': 'авитамин:ROOT/оз:SUFF', 'автогамия': 'авто:ROOT/гам:ROOT/и:SUFF/я:END', 'автодупликация': 'авто:ROOT/дуплик:ROOT/аци:SUFF/я:END', 'автолиз': 'авто:ROOT/лиз:ROOT', 'автомиксис': 'авто:ROOT/миксис:ROOT', 'автотомия': 'авто:ROOT/том:ROOT/и:SUFF/я:END', 'автотроф': 'авто:ROOT/троф:ROOT', 'агглютинация': 'агглютин:ROOT/аци:SUFF/я:END', 'агглютинины': 'агглютин:ROOT/ин:SUFF/ы:END', 'агония': 'агон:ROOT/и:SUFF/я:END', 'агранулоцит': 'агранул:ROOT/о:LINK/ци:ROOT/т:SUFF', 'агроценоз': 'агро:ROOT/цен:ROOT/оз:SUFF', 'адаптация': 'адапт:ROOT/аци:SUFF/я:END', 'адинамия': 'адинам:ROOT/и:SUFF/я:END', 'азотобактерии': 'азот:ROOT/о:LINK/бактери:ROOT/и:END', 'акклиматизация': 'ак:ROOT/климат:ROOT/из:SUFF/аци:SUFF/я:END', 'аккомодация': 'аккомод:ROOT/аци:SUFF/я:END', 'аккумуляция': 'аккумул:ROOT/яци:SUFF/я:END', 'акромегалия': 'акромегал:ROOT/и:SUFF/я:END', 'алкалоз': 'алкал:ROOT/оз:SUFF', 'аллель': 'аллель:ROOT', 'аллогенез': 'алло:ROOT/генез:ROOT', 'альбинизм': 'альбин:ROOT/изм:SUFF', 'альгология': 'альг:ROOT/о:LINK/лог:ROOT/и:SUFF/я:END', 'аменсализм': 'аменс:ROOT/а:SUFF/л:ROOT/изм:SUFF', 'амитоз': 'амит:ROOT/оз:SUFF', 'анабиоз': 'анаби:ROOT/оз:SUFF', 'анаболизм': 'анабол:ROOT/изм:SUFF', 'анализирующее': 'анализ:ROOT/ир:SUFF/у:SUFF/ющ:SUFF/ее:END', 'аналогичные': 'аналог:ROOT/ичн:SUFF/ые:END', 'анатомия': 'анатом:ROOT/и:SUFF/я:END', 'анаэроб': 'анаэроб:ROOT', 'ангиология': 'анги:ROOT/о:LINK/лог:ROOT/и:SUFF/я:END', 'анемия': 'анем:ROOT/и:SUFF/я:END', 'анеуплоидия': 'ане:ROOT/у:PREF/пло:ROOT/ид:SUFF/и:SUFF/я:END', 'антеридий': 'антериди:ROOT/й:END', 'антиген': 'анти:PREF/ген:ROOT', 'антикодон': 'анти:PREF/кодон:ROOT', 'антитело': 'анти:PREF/т:ROOT/ел:SUFF/о:END', 'антропогенез': 'антроп:ROOT/о:LINK/ген:ROOT/ез:SUFF', 'антропология': 'антроп:ROOT/о:LINK/лог:ROOT/и:SUFF/я:END', 'апомиксис': 'апомикси:ROOT/с:SUFF', 'арахнология': 'арахн:ROOT/о:LINK/лог:ROOT/и:SUFF/я:END', 'ареал': 'ареа:ROOT/л:END', 'арогенез': 'арогенез:ROOT', 'ароморфоз': 'ар:ROOT/о:LINK/морф:ROOT/оз:SUFF', 'арренотокия': 'аррен:ROOT/о:LINK/ток:ROOT/ия:END', 'архегоний': 'архегон:ROOT/и:SUFF/й:END', 'ассимиляция': 'ассимил:ROOT/яци:SUFF/я:END', 'астазия': 'астаз:ROOT/и:SUFF/я:END', 'астробиология': 'астр:ROOT/о:LINK/био:ROOT/лог:ROOT/и:SUFF/я:END', 'асфиксия': 'асфикс:ROOT/и:SUFF/я:END', 'атавизм': 'атав:ROOT/изм:SUFF', 'атония': 'атон:ROOT/и:SUFF/я:END', 'аутбридинг': 'аутбридинг:ROOT', 'аутосома': 'ауто:ROOT/сом:ROOT/а:END', 'ацидоз': 'ацид:ROOT/оз:SUFF', 'аэроб': 'аэро:ROOT/б:SUFF', 'аэропоника': 'аэр:ROOT/о:LINK/поник:ROOT/а:END', 'аэротаксис': 'аэр:ROOT/о:LINK/таксис:ROOT', 'аэротропизм': 'аэр:ROOT/о:LINK/троп:ROOT/изм:SUFF', 'бактериология': 'бактери:ROOT/о:LINK/лог:ROOT/и:SUFF/я:END', 'бактерионосительство': 'бактери:ROOT/о:LINK/нос:ROOT/и:SUFF/тель:SUFF/ств:SUFF/о:END', 'бактериофаг': 'бактери:ROOT/о:LINK/фаг:ROOT', 'бактериоцид': 'бактери:ROOT/о:LINK/цид:ROOT', 'барорецепторы': 'бар:ROOT/о:LINK/рецепт:ROOT/ор:SUFF/ы:END', 'бацилла': 'бацилл:ROOT/а:END', 'бивалент': 'бивалент:ROOT', 'билатеральность': 'билатерал:ROOT/ь:SUFF/н:SUFF/ост:SUFF/ь:END', 'биогеография': 'био:ROOT/гео:ROOT/граф:ROOT/и:SUFF/я:END', 'биогеохимия': 'био:ROOT/гео:ROOT/хим:ROOT/и:SUFF/я:END', 'биогеоценоз': 'био:ROOT/гео:ROOT/цен:ROOT/оз:SUFF', 'биология': 'био:ROOT/лог:ROOT/и:SUFF/я:END', 'биометрия': 'био:ROOT/метр:ROOT/и:SUFF/я:END', 'биомеханика': 'био:ROOT/механ:ROOT/ик:SUFF/а:END', 'бионика': 'бион:ROOT/ик:SUFF/а:END', 'биоритм': 'био:ROOT/ритм:ROOT', 'биосфера': 'био:ROOT/сфер:ROOT/а:END', 'биотехния': 'био:ROOT/техн:ROOT/и:SUFF/я:END', 'биотехнология': 'био:ROOT/техн:ROOT/о:LINK/лог:ROOT/и:SUFF/я:END', 'биофизика': 'био:ROOT/физ:ROOT/ик:SUFF/а:END', 'биохимия': 'био:ROOT/хим:ROOT/и:SUFF/я:END', 'биоценоз': 'био:ROOT/цен:ROOT/оз:SUFF', 'бифуркация': 'бифурк:ROOT/аци:SUFF/я:END', 'бластула': 'бластул:ROOT/а:END', 'ботаника': 'ботан:ROOT/ик:SUFF/а:END', 'бриология': 'бри:ROOT/о:LINK/лог:ROOT/и:SUFF/я:END', 'вакцина': 'вакцин:ROOT/а:END', 'вирусология': 'вирус:ROOT/о:LINK/лог:ROOT/и:SUFF/я:END', 'вирусоносительство': 'вирус:ROOT/о:LINK/нос:ROOT/и:SUFF/тель:SUFF/ств:SUFF/о:END', 'гамета': 'гамет:ROOT/а:END', 'гаметогенез': 'гамет:ROOT/о:LINK/ген:ROOT/ез:SUFF', 'гаметофит': 'гамет:ROOT/о:LINK/фит:ROOT', 'гаплоид': 'гапл:ROOT/оид:SUFF', 'гаструла': 'гаструл:ROOT/а:END', 'гаструляция': 'гаструл:ROOT/яци:SUFF/я:END', 'гелиобиология': 'гели:ROOT/о:LINK/био:ROOT/лог:ROOT/и:SUFF/я:END', 'гельминтология': 'гельминт:ROOT/о:LINK/лог:ROOT/и:SUFF/я:END', 'гемизигота': 'гемизигот:ROOT/а:END', 'гемолиз': 'гем:ROOT/о:LINK/лиз:ROOT', 'гемофилия': 'гем:ROOT/о:LINK/фил:ROOT/и:SUFF/я:END', 'гемоцианин': 'гемоцианин:ROOT', 'гемэритрин': 'гемэритрин:ROOT', 'генетика': 'гене:ROOT/т:SUFF/ик:SUFF/а:END', 'геном': 'ген:ROOT/ом:END', 'генотип': 'ген:ROOT/о:LINK/тип:ROOT', 'генофонд': 'ген:ROOT/о:LINK/фонд:ROOT', 'геоботаника': 'гео:ROOT/ботан:ROOT/ик:SUFF/а:END', 'геотаксис': 'гео:ROOT/таксис:ROOT', 'геотропизм': 'гео:ROOT/троп:ROOT/изм:SUFF', 'геофилия': 'гео:ROOT/фили:ROOT/я:END', 'гермафродитизм': 'гермафродит:ROOT/изм:SUFF', 'герпетология': 'герпет:ROOT/о:LINK/лог:ROOT/и:SUFF/я:END', 'гетерозигота': 'гетер:ROOT/о:LINK/зигот:ROOT/а:END', 'гетерозис': 'гетер:ROOT/оз:SUFF/ис:END', 'гетероплоидия': 'гетер:ROOT/о:LINK/плои:ROOT/д:SUFF/и:SUFF/я:END', 'гиббереллин': 'гибберелл:ROOT/ин:SUFF', 'гибрид': 'гибрид:ROOT', 'гигантизм': 'гигант:ROOT/изм:SUFF', 'гигиена': 'гигиен:ROOT/а:END', 'гигрофилы': 'гигр:ROOT/о:LINK/фил:ROOT/ы:END', 'гигрофиты': 'гигр:ROOT/о:LINK/фит:ROOT/ы:END', 'гигрофобы': 'гигр:ROOT/о:LINK/фоб:ROOT/ы:END', 'гидролиз': 'гидр:ROOT/о:LINK/лиз:ROOT', 'гидропоника': 'гидр:ROOT/о:LINK/пон:ROOT/ик:SUFF/а:END', 'гидротаксис': 'гидр:ROOT/о:LINK/таксис:ROOT', 'гипертония': 'гипер:PREF/тон:ROOT/и:SUFF/я:END', 'гиподинамия': 'гипо:ROOT/динам:ROOT/и:SUFF/я:END', 'гипоксия': 'гипокси:ROOT/я:END', 'гипотония': 'гипо:ROOT/тон:ROOT/и:SUFF/я:END', 'гистология': 'гисто:ROOT/лог:ROOT/и:SUFF/я:END', 'гликолиз': 'глик:ROOT/о:LINK/лиз:ROOT', 'голандрический': 'голандр:ROOT/ическ:SUFF/ий:END', 'гомозигота': 'гомозигот:ROOT/а:END', 'гомойотерм': 'гомой:ROOT/о:LINK/терм:ROOT', 'гомологичные': 'гом:ROOT/о:LINK/лог:ROOT/ичн:SUFF/ые:END', 'гормон': 'гормон:ROOT', 'гранулоцит': 'гранул:ROOT/о:LINK/ци:ROOT/т:SUFF', 'дальтонизм': 'дальтон:ROOT/изм:SUFF', 'дегенерация': 'де:PREF/генер:ROOT/аци:SUFF/я:END', 'делеция': 'дел:ROOT/еци:SUFF/я:END', 'демэкология': 'дем:ROOT/эк:ROOT/о:LINK/лог:ROOT/и:SUFF/я:END', 'дендрология': 'дендр:ROOT/о:LINK/лог:ROOT/и:SUFF/я:END', 'депрессия': 'депресс:ROOT/и:SUFF/я:END', 'дефишенси': 'дефишенс:ROOT/и:END', 'дивергенция': 'дивергенци:ROOT/я:END', 'дигибридное': 'дигибрид:ROOT/н:SUFF/ое:END', 'диссимиляция': 'дис:PREF/симил:ROOT/яци:SUFF/я:END', 'доминантный': 'домин:ROOT/ант:SUFF/н:SUFF/ый:END', 'донор': 'донор:ROOT', 'дрейф': 'дрейф:ROOT', 'дробление': 'дробл:ROOT/ени:SUFF/е:END', 'дупликация': 'дуплик:ROOT/аци:SUFF/я:END', 'евгеника': 'евген:ROOT/ик:SUFF/а:END', 'заказник': 'заказ:ROOT/ник:SUFF', 'заповедник': 'заповед:ROOT/ник:SUFF', 'зигота': 'зигот:ROOT/а:END', 'зоогеография': 'зоо:ROOT/гео:ROOT/граф:ROOT/и:SUFF/я:END', 'зоология': 'зоо:ROOT/лог:ROOT/и:SUFF/я:END', 'идиоадаптация': 'идио:ROOT/адапт:ROOT/аци:SUFF/я:END', 'изоляция': 'изол:ROOT/яци:SUFF/я:END', 'иммунитет': 'иммунитет:ROOT', 'импринтинг': 'импринтинг:ROOT', 'инбридинг': 'инбридинг:ROOT', 'инверсия': 'инверс:ROOT/и:SUFF/я:END', 'инсерция': 'инсерци:ROOT/я:END', 'интерферон': 'интерферон:ROOT', 'интоксикация': 'интоксик:ROOT/аци:SUFF/я:END', 'ихтиология': 'ихти:ROOT/о:LINK/лог:ROOT/и:SUFF/я:END', 'канцероген': 'канцер:ROOT/о:LINK/ген:ROOT', 'кариотип': 'кариотип:ROOT', 'каротиноиды': 'каротин:ROOT/оид:SUFF/ы:END', 'катаболизм': 'катабол:ROOT/изм:SUFF', 'катагенез': 'катагенез:ROOT', 'квартиранство': 'квартиран:ROOT/ств:SUFF/о:END', 'кифоз': 'киф:ROOT/оз:SUFF', 'клон': 'клон:ROOT', 'комменсализм': 'комменс:ROOT/ал:SUFF/изм:SUFF', 'комплементарность': 'комплемент:ROOT/арн:SUFF/ост:SUFF/ь:END', 'конвергенция': 'конвергенци:ROOT/я:END', 'конкуренция': 'конкур:ROOT/енц:SUFF/и:ROOT/я:END', 'консумент': 'консумент:ROOT', 'конъюгация': 'конъюг:ROOT/аци:SUFF/я:END', 'копуляция': 'копул:ROOT/яци:SUFF/я:END', 'кроссбридинг': 'кросс:ROOT/бридинг:ROOT', 'кроссинговер': 'кроссинг:ROOT/о:LINK/вер:ROOT', 'ксантофиллы': 'ксант:ROOT/о:LINK/филл:ROOT/ы:END', 'ксерофил': 'ксерофил:ROOT', 'ксерофит': 'ксер:ROOT/о:LINK/фит:ROOT', 'лабильность': 'лабиль:ROOT/н:SUFF/ост:SUFF/ь:END', 'латентный': 'латент:ROOT/н:SUFF/ый:END', 'лейкопласты': 'лейк:ROOT/о:LINK/пласт:ROOT/ы:END', 'лизис': 'лизис:ROOT', 'лихенология': 'лихен:ROOT/о:LINK/лог:ROOT/и:SUFF/я:END', 'локус': 'локус:ROOT', 'лордоз': 'лорд:ROOT/оз:SUFF', 'макроэволюция': 'макро:PREF/эволюци:ROOT/я:END', 'медиатор': 'меди:ROOT/атор:SUFF', 'мезодерма': 'мез:ROOT/о:LINK/дерм:ROOT/а:END', 'метаболизм': 'метабол:ROOT/изм:SUFF', 'метаморфоз': 'метаморф:ROOT/оз:SUFF', 'микология': 'мик:ROOT/о:LINK/лог:ROOT/и:SUFF/я:END', 'микориза': 'микор:ROOT/из:SUFF/а:END', 'микробиология': 'микро:PREF/био:ROOT/лог:ROOT/и:SUFF/я:END', 'микроэволюция': 'микро:PREF/эволюци:ROOT/я:END', 'мимикрия': 'мимикри:ROOT/я:END', 'моделирование': 'модел:ROOT/ир:SUFF/ова:SUFF/ни:SUFF/е:END', 'модификация': 'мод:ROOT/ифик:SUFF/аци:SUFF/я:END', 'мониторинг': 'мониторинг:ROOT', 'моногамия': 'моно:ROOT/гам:ROOT/и:SUFF/я:END', 'моногибридное': 'моно:ROOT/гибрид:ROOT/н:SUFF/ое:END', 'моноспермия': 'моно:ROOT/сперм:ROOT/и:SUFF/я:END', 'морганида': 'морганид:ROOT/а:END', 'морула': 'морул:ROOT/а:END', 'морфология': 'морф:ROOT/о:LINK/лог:ROOT/и:SUFF/я:END', 'мутагенез': 'мута:ROOT/ген:ROOT/ез:SUFF', 'мутация': 'мут:ROOT/аци:SUFF/я:END', 'мутуализм': 'мутуал:ROOT/изм:SUFF', 'наследственность': 'наслед:ROOT/ств:SUFF/енн:SUFF/ост:SUFF/ь:END', 'нахлебничество': 'на:PREF/хлеб:ROOT/нич:SUFF/еств:SUFF/о:END', 'нейрула': 'нейрул:ROOT/а:END', 'нейтрализм': 'нейтрал:ROOT/изм:SUFF', 'ноосфера': 'ноосфер:ROOT/а:END', 'нуклеопротеид': 'нукл:ROOT/е:LINK/о:PREF/протеид:ROOT', 'облигатный': 'об:PREF/лигат:ROOT/н:SUFF/ый:END', 'обмен': 'об:PREF/мен:ROOT', 'овуляция': 'овул:ROOT/яци:SUFF/я:END', 'онтогенез': 'онт:ROOT/о:LINK/ген:ROOT/ез:SUFF', 'оплодотворение': 'о:PREF/плод:ROOT/о:LINK/твор:ROOT/ени:SUFF/е:END', 'органогенез': 'орган:ROOT/о:LINK/ген:ROOT/ез:SUFF', 'орнитология': 'орнит:ROOT/о:LINK/лог:ROOT/и:SUFF/я:END', 'палеонтология': 'палеонт:ROOT/о:LINK/лог:ROOT/и:SUFF/я:END', 'памятник': 'памят:ROOT/ник:SUFF', 'паразит': 'парази:ROOT/т:END', 'параллелизм': 'параллел:ROOT/изм:SUFF', 'партеногенез': 'партен:ROOT/о:LINK/ген:ROOT/ез:SUFF', 'педосфера': 'педосфер:ROOT/а:END', 'пиноцитоз': 'пин:ROOT/о:LINK/цит:ROOT/оз:SUFF', 'плейотропия': 'плей:ROOT/о:LINK/троп:ROOT/и:SUFF/я:END', 'пойкилотерм': 'пойкил:ROOT/о:LINK/терм:ROOT', 'полигамия': 'поли:ROOT/гам:ROOT/и:SUFF/я:END', 'полимерия': 'поли:ROOT/мер:ROOT/и:SUFF/я:END', 'полиплоидия': 'полипл:ROOT/оид:SUFF/и:SUFF/я:END', 'порода': 'пород:ROOT/а:END', 'протистология': 'про:PREF/тист:ROOT/о:LINK/лог:ROOT/и:SUFF/я:END', 'процессинг': 'процессинг:ROOT', 'радиобиология': 'радио:ROOT/био:ROOT/лог:ROOT/и:SUFF/я:END', 'регенерация': 'регенер:ROOT/аци:SUFF/я:END', 'редуцент': 'редуцент:ROOT', 'реотаксис': 'рео:ROOT/таксис:ROOT', 'реотропизм': 'рео:ROOT/троп:ROOT/изм:SUFF', 'ретровирус': 'ретровирус:ROOT', 'рефлекс': 'рефлекс:ROOT', 'рецептор': 'рецепт:ROOT/ор:SUFF', 'реципиент': 'реципи:ROOT/ент:SUFF', 'рудименты': 'рудимент:ROOT/ы:END', 'селекция': 'селекци:ROOT/я:END', 'симбиоз': 'симби:ROOT/оз:SUFF', 'синапс': 'синапс:ROOT', 'синэкология': 'син:ROOT/эко:ROOT/лог:ROOT/и:SUFF/я:END', 'систематика': 'систем:ROOT/ат:SUFF/ик:SUFF/а:END', 'сколиоз': 'сколи:ROOT/оз:SUFF', 'сорт': 'сорт:ROOT', 'сперматогенез': 'сперм:ROOT/ат:SUFF/о:LINK/ген:ROOT/ез:SUFF', 'сплайсинг': 'с:PREF/плайсинг:ROOT', 'суккулент': 'суккулент:ROOT', 'сукцессия': 'сукцесс:ROOT/и:SUFF/я:END', 'сыворотка': 'сыворот:ROOT/к:SUFF/а:END', 'таксис': 'таксис:ROOT', 'тератоген': 'терат:ROOT/о:LINK/ген:ROOT', 'терморегуляция': 'терм:ROOT/о:LINK/регул:ROOT/яци:SUFF/я:END', 'термотаксис': 'терм:ROOT/о:LINK/таксис:ROOT', 'термотропизм': 'терм:ROOT/о:LINK/троп:ROOT/изм:SUFF', 'ткань': 'тк:ROOT/а:SUFF/н:SUFF/ь:END', 'толерантность': 'толерант:ROOT/н:SUFF/ост:SUFF/ь:END', 'транскрипция': 'транскрип:ROOT/ци:SUFF/я:END', 'транслокация': 'транс:PREF/лок:ROOT/аци:SUFF/я:END', 'трансляция': 'трансл:ROOT/яци:SUFF/я:END', 'транспирация': 'транспир:ROOT/аци:SUFF/я:END', 'тропизм': 'троп:ROOT/изм:SUFF', 'тургор': 'тургор:ROOT', 'фагоцит': 'фаг:ROOT/о:LINK/цит:ROOT', 'фагоцитоз': 'фаг:ROOT/о:LINK/цит:ROOT/оз:SUFF', 'фенология': 'фен:ROOT/о:LINK/лог:ROOT/и:SUFF/я:END', 'фенотип': 'фенотип:ROOT', 'фермент': 'фермент:ROOT', 'физиология': 'физи:ROOT/о:LINK/лог:ROOT/и:SUFF/я:END', 'филогенез': 'фил:ROOT/о:LINK/ген:ROOT/ез:SUFF', 'фотопериодизм': 'фото:ROOT/период:ROOT/изм:SUFF', 'фототаксис': 'фото:ROOT/таксис:ROOT', 'фототропизм': 'фото:ROOT/троп:ROOT/изм:SUFF', 'хемосинтез': 'хем:ROOT/о:LINK/синтез:ROOT', 'хемотаксис': 'хем:ROOT/о:LINK/таксис:ROOT', 'хищничество': 'хищ:ROOT/нич:SUFF/еств:SUFF/о:END', 'хроматида': 'хром:ROOT/ат:SUFF/ид:ROOT/а:END', 'хроматин': 'хром:ROOT/ат:SUFF/ин:SUFF', 'целлюлоза': 'целлюл:ROOT/оз:SUFF/а:END', 'центромера': 'центр:ROOT/о:LINK/мер:ROOT/а:END', 'циста': 'цист:ROOT/а:END', 'цитология': 'цит:ROOT/о:LINK/лог:ROOT/и:SUFF/я:END', 'шизогония': 'шизогон:ROOT/и:SUFF/я:END', 'штамм': 'штамм:ROOT', 'экзоцитоз': 'экзо:ROOT/цит:ROOT/оз:SUFF', 'экология': 'эко:ROOT/лог:ROOT/и:SUFF/я:END', 'эктодерма': 'экто:ROOT/дерм:ROOT/а:END', 'эмбриология': 'эмбри:ROOT/о:LINK/лог:ROOT/и:SUFF/я:END', 'эндоцитоз': 'эндо:ROOT/цит:ROOT/оз:SUFF', 'энтодерма': 'энто:ROOT/дерм:ROOT/а:END', 'этология': 'это:ROOT/лог:ROOT/и:SUFF/я:END'}

In [12]:
for k, v in tokenizer_map.items():
    new_v = list(map(lambda s: s.split(":")[0], v.split("/")))
    for i in range(1, len(new_v)):
        new_v[i] = "##" + new_v[i]
    tokenizer_map[k] = new_v

In [16]:
tokenizer_map

{'абсцисса': ['абсцисс', '##а'],
 'аддитивность': ['аддит', '##ивн', '##ост', '##ь'],
 'адъюнкта': ['адъюнкт', '##а'],
 'аксиома': ['аксиом', '##а'],
 'аксонометрия': ['аксон', '##о', '##метр', '##и', '##я'],
 'алгебра': ['алгебр', '##а'],
 'анализ': ['анализ'],
 'аналогия': ['аналог', '##и', '##я'],
 'антилогарифмлат': ['ант', '##и', '##ло', '##гарифмлат'],
 'антье': ['анть', '##е'],
 'апофема': ['апофем', '##а'],
 'аппликата': ['аппликат', '##а'],
 'аппроксимация': ['аппроксим', '##аци', '##я'],
 'аргумент': ['аргумент'],
 'арифметика': ['арифмет', '##ик', '##а'],
 'арктангенс': ['арктангенс'],
 'асимметрия': ['а', '##симметр', '##и', '##я'],
 'асимптота': ['асимптот', '##а'],
 'астроида': ['астр', '##оид', '##а'],
 'ассоциативность': ['ассоци', '##ат', '##ивн', '##ост', '##ь'],
 'биллион': ['биллион'],
 'бином': ['бин', '##ом'],
 'биссектриса': ['биссектри', '##с', '##а'],
 'вектор': ['вектор'],
 'вертикальные': ['вертикал', '##ьн', '##ые'],
 'гексаэдр': ['гекса', '##эдр'],
 'геомет

In [286]:
counter = 0
for k, v in tokenizer_map.items():
    for w in v:
        if w not in tokenizer.vocab:
            # print(k, v, w)
            counter += 1
            break
counter  # кол-во слов, для которых хотя бы одного из токенов не было в словаре модели

350

In [14]:
tokenizer_map_base = {}
for key in tokenizer_map.keys():
    tokenizer_map_base[key] = tokenizer.tokenize(key)

In [20]:
counter = 0
for key in tokenizer_map.keys():
    if (tokenizer_map[key] == tokenizer_map_base[key]):
        print(key, tokenizer_map[key])

анализ ['анализ']
аргумент ['аргумент']
бином ['бин', '##ом']
вектор ['вектор']
градус ['градус']
индекс ['индекс']
конус ['конус']
коэффициент ['коэффициент']
куб ['куб']
максимум ['максимум']
масштаб ['масштаб']
метр ['метр']
миллион ['миллион']
миллиард ['миллиард']
минимум ['минимум']
минус ['минус']
модуль ['модуль']
нуль ['нуль']
овал ['овал']
параметр ['параметр']
площадь ['площадь']
плюс ['плюс']
процент ['процент']
радиан ['радиа', '##н']
радикал ['радика', '##л']
радиус ['радиус']
сегмент ['сегмент']
триллион ['триллион']
угол ['угол']
фокус ['фокус']
центр ['центр']
цилиндр ['цилиндр']
автолиз ['авто', '##лиз']
аллогенез ['алло', '##генез']
антиген ['анти', '##ген']
аэроб ['аэро', '##б']
бактериоцид ['бактери', '##о', '##цид']
геофилия ['гео', '##фили', '##я']
гибрид ['гибрид']
гигантизм ['гигант', '##изм']
гормон ['гормон']
донор ['донор']
иммунитет ['иммунитет']
клон ['клон']
лордоз ['лорд', '##оз']
мониторинг ['мониторинг']
пиноцитоз ['пин', '##о', '##цит', '##оз']
рефлек

In [296]:
from torch.utils.data import Dataset

class BertDatasetMorphCorrect(Dataset):
    def __init__(self, corpus, labels, tokenizer, tokenizer_map):
        super().__init__()
        self._corpus = []
        self._labels = labels

        for word in corpus:
            input_ids = [101]

            if word in tokenizer_map:
                for morpha in tokenizer_map[word]:
                    if morpha in tokenizer.vocab:
                        input_ids.append(tokenizer.vocab[morpha])
                    else:
                        input_ids.extend(tokenizer(morpha).input_ids[1:-1])

            input_ids.append(102)
            self._corpus.append(input_ids)

    def __len__(self):
        return len(self._corpus)

    def __getitem__(self, idx):
        return self._corpus[idx], self._labels[idx]

In [412]:
from torch.utils.data import DataLoader

ds_m = BertDatasetMorphCorrect(
    corpus=corpus,
    labels=targets,
    tokenizer=tokenizer,
    tokenizer_map=tokenizer_map
)

collator = Collator(tokenizer)

dl_m = DataLoader(
    ds_m,
    collate_fn=collator,
    batch_size=16,
    shuffle=True
)

In [421]:
bert_model = BertModel(model, 16)

optimizer = torch.optim.AdamW(bert_model.parameters(), lr=1e-3)

trainer = Trainer(bert_model, optimizer, tokenizer.pad_token_id)

In [422]:
trainer.train(dl_m, 100)

epoch: 0, train_loss: 0.541, val_loss: 0.409, val_acc: 0.822, val_auc: 0.790
epoch: 1, train_loss: 0.439, val_loss: 0.354, val_acc: 0.838, val_auc: 0.806
epoch: 2, train_loss: 0.383, val_loss: 0.330, val_acc: 0.864, val_auc: 0.841
epoch: 3, train_loss: 0.386, val_loss: 0.391, val_acc: 0.830, val_auc: 0.776
epoch: 4, train_loss: 0.373, val_loss: 0.303, val_acc: 0.868, val_auc: 0.853
epoch: 5, train_loss: 0.348, val_loss: 0.436, val_acc: 0.810, val_auc: 0.747
epoch: 6, train_loss: 0.335, val_loss: 0.290, val_acc: 0.878, val_auc: 0.844
epoch: 7, train_loss: 0.340, val_loss: 0.301, val_acc: 0.872, val_auc: 0.868
epoch: 8, train_loss: 0.411, val_loss: 0.301, val_acc: 0.848, val_auc: 0.804
epoch: 9, train_loss: 0.331, val_loss: 0.301, val_acc: 0.890, val_auc: 0.878
epoch: 10, train_loss: 0.347, val_loss: 0.261, val_acc: 0.904, val_auc: 0.886
epoch: 11, train_loss: 0.300, val_loss: 0.273, val_acc: 0.876, val_auc: 0.841
epoch: 12, train_loss: 0.311, val_loss: 0.294, val_acc: 0.858, val_auc: 0.

KeyboardInterrupt: 