# HW2 Weights Clustering

ДЗ: Применить изученные подходы к своим моделям и замерить производительность.

В качестве модели взяли **BERT base model (uncased)**

Будем решать задачу классификации отзывов(токсичный/не токсичный) для "виртуального интернет магазина". То есть бинарная классификация.


**Описание данных**

Данные находятся в файле `toxic_comments.csv`. Столбец *text* в нём содержит текст комментария, а *toxic* — целевой признак.


**ПРИМЕЧАНИЕ:** так как работа носит учебный характер, то все манипуляции с данными будут проводится в усеченном варианте, то есть будет браться часть датасета для обучения и тестирования (2 000 записей).

# Подготовка

Установим и загрузим необходимые библиотеки для работы

In [1]:
!pip -q install transformers

In [2]:
import pandas as pd
import numpy as np
import re
import os
import time
import copy

import nltk
from nltk.stem import WordNetLemmatizer
from nltk.corpus import stopwords as nltk_stopwords
from tqdm import notebook

from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report
from sklearn.cluster import KMeans

import torch
import transformers
from torch.utils.data import Dataset, DataLoader
from transformers import BertTokenizer, BertForSequenceClassification, get_linear_schedule_with_warmup

In [3]:
!gdown 1ltdf-wuq52y6JLPzPaEywLYgRz5gfMsB #for colab

Downloading...
From: https://drive.google.com/uc?id=1ltdf-wuq52y6JLPzPaEywLYgRz5gfMsB
To: /content/toxic_comments.csv
100% 64.1M/64.1M [00:00<00:00, 181MB/s]


In [4]:
df_orig = pd.read_csv('/content/toxic_comments.csv') #for colab
# df_orig = pd.read_csv('toxic_comments.csv') #for local

Посмотрим на данные

In [5]:
df_orig.head(10)

Unnamed: 0,text,toxic
0,Explanation\nWhy the edits made under my usern...,0
1,D'aww! He matches this background colour I'm s...,0
2,"Hey man, I'm really not trying to edit war. It...",0
3,"""\nMore\nI can't make any real suggestions on ...",0
4,"You, sir, are my hero. Any chance you remember...",0
5,"""\n\nCongratulations from me as well, use the ...",0
6,COCKSUCKER BEFORE YOU PISS AROUND ON MY WORK,1
7,Your vandalism to the Matt Shirvington article...,0
8,Sorry if the word 'nonsense' was offensive to ...,0
9,alignment on this subject and which are contra...,0


Сначала сделаем предпреобразование наших данных

In [6]:
def lemmatize(text):
    lem = WordNetLemmatizer()
    clear_text = ' '.join(re.sub(r'[^a-zA-Z\']', ' ', text).split())
    lemm_list = lem.lemmatize(clear_text)
    ready_text = "".join(lemm_list)

    return ready_text

In [7]:
nltk.download('wordnet')
nltk.download('stopwords')
stopwords = set(nltk_stopwords.words('english'))

[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


Возьмем часть данных, как писалось выше. И дополнительно сбалансируем классы, для корректной работы алгоритмов.

Если выборку не сбалансировать, то в нее может попасть очень малое количество положительных таргетов. И некоторые модели не сумеют найти закономерности, показав 0 метрику.

In [8]:
df_sample = df_orig.sample(n=2000, weights=1./df_orig.groupby('toxic')['toxic'].transform('count'), random_state=101).reset_index(drop=True)
df_sample['text'] = df_sample['text'].apply(lambda x: lemmatize(x))

df = df_sample.copy()

Проверим баланс классов

In [9]:
df_sample['toxic'].value_counts(normalize=True)

0    0.5125
1    0.4875
Name: toxic, dtype: float64

Создадим таблицу для занесения результатов тестирования

In [10]:
result_df = pd.DataFrame(columns=['Name', 'F1_test', 'Size(mb)', 'Time for 1 predict(s)'])

# Кластеризация

## Исходный вариант

В данном варианте обучим модель и проведем замер интересующих характеристик. Это необходимо для сравнения результатов квантизации и прунинга.

In [11]:
# создается класс для загрузки данных и их подготовки
class CustomDataset(Dataset):

  def __init__(self, texts, targets, tokenizer, max_len=512):
    self.texts = texts
    self.targets = targets
    self.tokenizer = tokenizer
    self.max_len = max_len

  def __len__(self):
    return len(self.texts)

  def __getitem__(self, idx):
    text = str(self.texts[idx])
    target = self.targets[idx]

    encoding = self.tokenizer.encode_plus(
        text,
        add_special_tokens=True,
        max_length=self.max_len,
        return_token_type_ids=False,
        padding='max_length',
        return_attention_mask=True,
        return_tensors='pt',
        truncation=True
    )

    return {
      'text': text,
      'input_ids': encoding['input_ids'].flatten(),
      'attention_mask': encoding['attention_mask'].flatten(),
      'targets': torch.tensor(target, dtype=torch.long)
    }

Разобьем выборку на две части: тренировочную (60%), валидационную (20%) и тестовую (20%)

In [12]:
df_train, df_temp = train_test_split(df, test_size=0.4, random_state=101)
df_valid, df_test = train_test_split(df_temp, test_size=0.5, random_state=101)

Проверка

In [13]:
print(df_train.shape, df_valid.shape, df_test.shape)

(1200, 2) (400, 2) (400, 2)


Данные для обучения, валидации и тестирования

In [14]:
features_train = df_train.drop(['toxic'], axis=1)
target_train = df_train['toxic']

features_valid = df_valid.drop(['toxic'], axis=1)
target_valid = df_valid['toxic']

features_test = df_test.drop(['toxic'], axis=1)
target_test = df_test['toxic']

Задаем параметры и модель

In [15]:
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
model_save_path='/content/bert.pt'
n_classes = 2
max_len = 512
batch_size = 2
epochs = 3

In [16]:
model = BertForSequenceClassification.from_pretrained('bert-base-uncased')
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')

out_features = model.bert.encoder.layer[1].output.dense.out_features
model.classifier = torch.nn.Linear(out_features, n_classes)
model.to(device)

optimizer = torch.optim.AdamW(model.parameters(), lr=2e-5)
scheduler = get_linear_schedule_with_warmup(
        optimizer,
        num_warmup_steps=0,
        num_training_steps=len(features_train) * epochs
    )
loss_fn = torch.nn.CrossEntropyLoss().to(device)

Some weights of BertForSequenceClassification were not initialized from the model checkpoint at bert-base-uncased and are newly initialized: ['classifier.bias', 'classifier.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


In [17]:
# создание датасетов
train_set = CustomDataset(list(features_train['text']), list(target_train), tokenizer)
valid_set = CustomDataset(list(features_valid['text']), list(target_valid), tokenizer)

# создание дата лоудеров
train_loader = DataLoader(train_set, batch_size=batch_size, shuffle=True)
valid_loader = DataLoader(valid_set, batch_size=batch_size, shuffle=True)

In [18]:
def train(model, train_loader, valid_loader, features_train, features_valid, loss_fn, optimizer):

    for epoch in range(epochs):

        print(f'---------------Epoch:{epoch+1}/{epochs}----------------')
        train_losses = []
        val_losses = []
        train_correct_predictions = 0
        val_correct_predictions = 0
        best_accuracy = 0

        ###Train###
        model.train()

        for data in train_loader:
            input_ids = data["input_ids"].to(device)
            attention_mask = data["attention_mask"].to(device)
            targets = data["targets"].to(device)

            outputs = model(
                input_ids=input_ids,
                attention_mask=attention_mask
                )

            preds = torch.argmax(outputs.logits, dim=1)
            loss = loss_fn(outputs.logits, targets)

            train_correct_predictions += torch.sum(preds == targets)

            train_losses.append(loss.item())

            loss.backward()
            torch.nn.utils.clip_grad_norm_(model.parameters(), max_norm=1.0)
            optimizer.step()
            scheduler.step()
            optimizer.zero_grad()

        train_acc = train_correct_predictions.double() / len(features_train)
        train_loss = np.mean(train_losses)

        ###Eval###
        model.eval()

        with torch.no_grad():
            for data in valid_loader:
                input_ids = data["input_ids"].to(device)
                attention_mask = data["attention_mask"].to(device)
                targets = data["targets"].to(device)

                outputs = model(
                    input_ids=input_ids,
                    attention_mask=attention_mask
                    )

                preds = torch.argmax(outputs.logits, dim=1)
                loss = loss_fn(outputs.logits, targets)
                val_correct_predictions += torch.sum(preds == targets)
                val_losses.append(loss.item())

        val_acc = val_correct_predictions.double() / len(features_valid)
        val_loss = np.mean(val_losses)

        print(f'Train loss=   {train_loss:.4f},   accuracy= {train_acc:.4f}')
        print(f'Val   loss=   {val_loss:.4f},   accuracy= {val_acc:.4f}')

        if val_acc > best_accuracy:
            torch.save(model, model_save_path)
            best_accuracy = val_acc

        model = torch.load(model_save_path)

def predict(model, text):

    model.eval()
    encoding = tokenizer.encode_plus(
        text,
        add_special_tokens=True,
        max_length=max_len,
        return_token_type_ids=False,
        truncation=True,
        padding='max_length',
        return_attention_mask=True,
        return_tensors='pt',
    )

    out = {
          'text': text,
          'input_ids': encoding['input_ids'].flatten(),
          'attention_mask': encoding['attention_mask'].flatten()
      }

    input_ids = out["input_ids"].to(device)
    attention_mask = out["attention_mask"].to(device)

    outputs = model(
        input_ids=input_ids.unsqueeze(0),
        attention_mask=attention_mask.unsqueeze(0)
    )

    prediction = torch.argmax(outputs.logits, dim=1).cpu().numpy()[0]

    return prediction

Обучаем нашу сетку

In [19]:
# на cpu считается больше часа для одной эпохи, не дождался окончания
# на gpu 2 минуты на одну эпоху, но тогда квантизация не работает
train(model, train_loader, valid_loader, features_train, features_valid, loss_fn, optimizer)

---------------Epoch:1/3----------------
Train loss=   0.4912,   accuracy= 0.8650
Val   loss=   0.4594,   accuracy= 0.9050
---------------Epoch:2/3----------------
Train loss=   0.2902,   accuracy= 0.9375
Val   loss=   0.4594,   accuracy= 0.9050
---------------Epoch:3/3----------------
Train loss=   0.2827,   accuracy= 0.9375
Val   loss=   0.4594,   accuracy= 0.9050


Делаем предсказания и считаем метрики

In [20]:
def predict_and_metrics(model, name, number,
                        features_test=features_test,
                        target_test=target_test,
                        df_test=df_test,
                        result_df=result_df):
    # делаем предсказания и замеряем скорость
    texts = list(features_test['text'])
    start_time = time.time()
    target_pred = [predict(model, t) for t in texts]
    total_time = round((time.time() - start_time)/len(df_test), 4)

    # высчитываем размер модели
    torch.save(model.state_dict(), "temp.p")
    size = round(os.path.getsize("temp.p")/1e6, 3)
    os.remove('temp.p')

    # считаем метрику F-1
    bert_report = classification_report(target_test, target_pred, output_dict=True)
    result_df.loc[number]=[name, round(bert_report['1']['f1-score'], 3), size, total_time]

    return result_df

In [21]:
result_df = predict_and_metrics(model, 'BERT_orig', 0)
result_df

Unnamed: 0,Name,F1_test,Size(mb),Time for 1 predict(s)
0,BERT_orig,0.924,438.003,0.0356


## Кластеризация весов метод K-means

Скопируем нашу искходную модель, далее сохраним отдельно веса моледи, кластеризуем их, и после новые веса запишем в скопированную модель.

In [22]:
model_cluster = copy.deepcopy(model)

In [23]:
# посмотрим на названия всех параметров
[i[0] for i in list(model_cluster.named_parameters())]

['bert.embeddings.word_embeddings.weight',
 'bert.embeddings.position_embeddings.weight',
 'bert.embeddings.token_type_embeddings.weight',
 'bert.embeddings.LayerNorm.weight',
 'bert.embeddings.LayerNorm.bias',
 'bert.encoder.layer.0.attention.self.query.weight',
 'bert.encoder.layer.0.attention.self.query.bias',
 'bert.encoder.layer.0.attention.self.key.weight',
 'bert.encoder.layer.0.attention.self.key.bias',
 'bert.encoder.layer.0.attention.self.value.weight',
 'bert.encoder.layer.0.attention.self.value.bias',
 'bert.encoder.layer.0.attention.output.dense.weight',
 'bert.encoder.layer.0.attention.output.dense.bias',
 'bert.encoder.layer.0.attention.output.LayerNorm.weight',
 'bert.encoder.layer.0.attention.output.LayerNorm.bias',
 'bert.encoder.layer.0.intermediate.dense.weight',
 'bert.encoder.layer.0.intermediate.dense.bias',
 'bert.encoder.layer.0.output.dense.weight',
 'bert.encoder.layer.0.output.dense.bias',
 'bert.encoder.layer.0.output.LayerNorm.weight',
 'bert.encoder.layer

In [24]:
all_param = [i for i in list(model_cluster.named_parameters()) if i[0][-7:] == '.weight']

Посмотрим на веса классификатора

In [25]:
all_param[-1][1]

Parameter containing:
tensor([[ 0.0287, -0.0154,  0.0121,  ..., -0.0347, -0.0352,  0.0013],
        [ 0.0263, -0.0356,  0.0047,  ...,  0.0315,  0.0084, -0.0225]],
       device='cuda:0', requires_grad=True)

А теперь кластеризуем все веса, после сделаем предсказание и сделаем замеры интересующих характеристик

In [26]:
for param in all_param:

        weight = param[1].data.cpu().numpy()
        orig_shape = weight.shape

        space = np.linspace(np.min(weight.reshape(-1)),
                            np.max(weight.reshape(-1)),
                            num=4) # будем делать разделение на 4

        kmeans = KMeans(n_clusters=len(space),
                        init=space.reshape(-1 ,1),
                        n_init= 1)
        kmeans.fit(weight.reshape(-1, 1))
        new_weight = kmeans.cluster_centers_[kmeans.labels_].reshape(-1)

        print('Веса до кластеризации (первые 10 значений):')
        print(weight.reshape(-1)[:10])
        print('Веса после кластеризации (первые 10 значений):')
        print(new_weight[:10])
        print('*'*72)

        param[1].data = torch.from_numpy(new_weight.reshape(orig_shape)).to(device)

Веса до кластеризации (первые 10 значений):
[-0.01018146 -0.06154212 -0.02649354 -0.04205633  0.00116702 -0.02826876
 -0.04449558 -0.02246269 -0.00465479 -0.08212052]
Веса после кластеризации (первые 10 значений):
[-0.024742   -0.07722882 -0.024742   -0.024742   -0.024742   -0.024742
 -0.024742   -0.024742   -0.024742   -0.07722882]
************************************************************************
Веса до кластеризации (первые 10 значений):
[ 0.0170757  -0.02507157 -0.0363661  -0.02509877  0.00762839 -0.02035232
 -0.00363424 -0.00511055  0.00622919 -0.0380539 ]
Веса после кластеризации (первые 10 значений):
[ 0.01131286 -0.01193338 -0.01193338 -0.01193338  0.01131286 -0.01193338
 -0.01193338 -0.01193338  0.01131286 -0.01193338]
************************************************************************
Веса до кластеризации (первые 10 значений):
[ 0.00014212  0.01089956  0.00366175  0.00160961  0.00066627 -0.01043894
  0.00766712 -0.00369567 -0.00729269  0.01554727]
Веса после клас

Проверка

In [27]:
model.classifier.weight

Parameter containing:
tensor([[ 0.0287, -0.0154,  0.0121,  ..., -0.0347, -0.0352,  0.0013],
        [ 0.0263, -0.0356,  0.0047,  ...,  0.0315,  0.0084, -0.0225]],
       device='cuda:0', requires_grad=True)

In [28]:
model_cluster.classifier.weight

Parameter containing:
tensor([[ 0.0271, -0.0100,  0.0086,  ..., -0.0278, -0.0278,  0.0086],
        [ 0.0271, -0.0278,  0.0086,  ...,  0.0271,  0.0086, -0.0278]],
       device='cuda:0', requires_grad=True)

Делаем предсказания и считаем метрики

In [29]:
result_df = predict_and_metrics(model_cluster, 'BERT_cluster', 1)
result_df

Unnamed: 0,Name,F1_test,Size(mb),Time for 1 predict(s)
0,BERT_orig,0.924,438.003,0.0356
1,BERT_cluster,0.589,438.003,0.0338


# Выводы

In [30]:
result_df

Unnamed: 0,Name,F1_test,Size(mb),Time for 1 predict(s)
0,BERT_orig,0.924,438.003,0.0356
1,BERT_cluster,0.589,438.003,0.0338


Значение метрики **F-1** сильно упало, что и следовало ожидать, так как кластеризация проводилась в "тупую" всего на 4 кластера (по факту произошло загрубление модели). Размер не изменился, так как кол-во весов осталось таким же. Скорость не существенно увеличилась (скорее всего это погрешность)