# Проект для «Викишоп» с BERT

Интернет-магазин «Викишоп» запускает новый сервис. Теперь пользователи могут редактировать и дополнять описания товаров, как в вики-сообществах. То есть клиенты предлагают свои правки и комментируют изменения других. Магазину нужен инструмент, который будет искать токсичные комментарии и отправлять их на модерацию. 

Обучите модель классифицировать комментарии на позитивные и негативные. В вашем распоряжении набор данных с разметкой о токсичности правок.

Постройте модель со значением метрики качества *F1* не меньше 0.75. 

**Описание данных**

Данные находятся в файле `toxic_comments.csv`. Столбец *text* в нём содержит текст комментария, а *toxic* — целевой признак.

## Импорт модулей

In [1]:
# !pip install transformers
# !pip install spacy


In [2]:
import pandas as pd
import numpy as np
from tqdm import tqdm, notebook

import re
import spacy
from nltk.stem import WordNetLemmatizer
from nltk.corpus import stopwords

from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.pipeline import Pipeline
from sklearn.model_selection import RandomizedSearchCV, cross_val_score
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.metrics import f1_score

import torch
import transformers


In [3]:
# import nltk
# nltk.download('wordnet')
# nltk.download('omw-1.4')
# nltk.download("stopwords")


## Константы

In [4]:
SEED = 123
SCORE = "f1"
DEVICE = torch.device('cuda' if torch.cuda.is_available() else 'cpu')


## TF-IDF

### Подготовка

In [5]:
df = pd.read_csv("./toxic_comments.csv", index_col=[0])

display(df.head())
print(f"Размер датасета: {df.shape}")


Unnamed: 0,text,toxic
0,Explanation\nWhy the edits made under my usern...,0
1,D'aww! He matches this background colour I'm s...,0
2,"Hey man, I'm really not trying to edit war. It...",0
3,"""\nMore\nI can't make any real suggestions on ...",0
4,"You, sir, are my hero. Any chance you remember...",0


Размер датасета: (159292, 2)


Очистим и лемматизируем текст.

In [6]:
CLEAR_LEMMATIZE = False
if CLEAR_LEMMATIZE:
    def clear_text(text):
        text_clear = re.sub(r"[^a-zA-Z' ]", " ", text)
        text_clear = text_clear.split()
        text_clear = ' '.join(text_clear)

        return text_clear.lower()

    X_clear = df["text"].apply(clear_text)

    def lemmatize(text):
        spacy.prefer_gpu()
        nlp = spacy.load("en_core_web_sm", disable=["parser", "ner"])
        token_list = nlp(text)
        text_lemm = " ".join([token.lemma_ for token in token_list])

        return text_lemm

    tqdm.pandas()
    X_lemm = X_clear.progress_apply(lemmatize)
    X_lemm.to_csv("./toxic_comments_lemm_1.csv", index=False)
    
    print("Файл сохранен")


Ссылка для скачивания датасета после лемматизации:

https://drive.google.com/file/d/1Lj-z9_GUS474aCsk8dHuOQ_HcggwL6Dk/view?usp=sharing

In [7]:
X_lemm = pd.read_csv("./toxic_comments_lemm.csv")
X_lemm.index = df.index
X_lemm["toxic"] = df["toxic"]
X_lemm = X_lemm.dropna()

display(X_lemm.head())
print(f"Размер датасета после лемматизации: {X_lemm.shape}")


Unnamed: 0,text,toxic
0,explanation why the edit make under my usernam...,0
1,d'aww he match this background colour I be see...,0
2,hey man I be really not try to edit war it be ...,0
3,more I can not make any real suggestion on imp...,0
4,you sir be my hero any chance you remember wha...,0


Размер датасета после лемматизации: (159282, 2)


Разделим данные на тестовую и обучающую выборки.

In [8]:
X_train, X_test, y_train, y_test = train_test_split(X_lemm["text"], X_lemm["toxic"], test_size=0.1, random_state=SEED)

sw = stopwords.words("english")
tfidf = TfidfVectorizer(stop_words=sw, ngram_range=(1,1), max_df=0.95)

print(f"Размер обучающего датасета: {X_train.shape}")


Размер обучающего датасета: (143353,)


### Обучение

#### Логистическая регрессия

Подберем гиперпараметры модели.

In [9]:
SEARCH_HP_LR_TFIDF = False
if SEARCH_HP_LR_TFIDF:
    pipe_lr_tfidf = Pipeline([("vector_tfidf", tfidf),
                              ("lr_tfidf", LogisticRegression(max_iter=10000,
                                                              solver="saga"))])
    
    params_lr_tfidf = {"lr_tfidf__penalty": ["l2", "l1"],
                       "lr_tfidf__C": [1, 5, 10, 15],
                       "lr_tfidf__fit_intercept": [True, False]}

    grid_lr_tfidf = RandomizedSearchCV(estimator=pipe_lr_tfidf,
                                       param_distributions=params_lr_tfidf,
                                       scoring=SCORE,
                                       cv=5,
                                       n_iter=16,
                                       random_state=SEED,
                                       n_jobs=-1,
                                       verbose=2)

    grid_lr_tfidf.fit(X_train, y_train)
    
    print(f"params_lr_tfidf = {grid_lr_tfidf.best_params_}")


Обучим модель с лучшими параметрами.

In [10]:
pipe_lr_tfidf = Pipeline([("vector_tfidf", tfidf),
                          ("lr_tfidf", LogisticRegression(max_iter=10000,
                                                          solver="saga"))])

params_lr_tfidf = {'lr_tfidf__penalty': ['l1'], 
                   'lr_tfidf__fit_intercept': [True], 
                   'lr_tfidf__C': [5]}

grid_lr_tfidf = RandomizedSearchCV(estimator=pipe_lr_tfidf,
                                   param_distributions=params_lr_tfidf,
                                   scoring=SCORE,
                                   cv=5,
                                   n_iter=1,
                                   random_state=SEED,
                                   n_jobs=-1,
                                   verbose=2)

grid_lr_tfidf.fit(X_train, y_train)

print(f"Логистическая регрессия (TF-IDF)\n"
      f"f1_score_lr_tfidf = {grid_lr_tfidf.best_score_:.3f}")


Fitting 5 folds for each of 1 candidates, totalling 5 fits
Логистическая регрессия (TF-IDF)
f1_score_lr_tfidf = 0.783


## BERT

### Подготовка

Преобразуем текст в токены.

In [11]:
tqdm.pandas()
tokenizer = transformers.AutoTokenizer.from_pretrained("unitary/toxic-bert")
tokenized = df["text"].progress_apply(lambda x: tokenizer.encode(x,
                                                        add_special_tokens=True,
                                                        max_length=256,
                                                        truncation=True))
max_len = 0
for i in tokenized.values:
    if len(i) > max_len:
        max_len = len(i)

padded = np.array([i + [0]*(max_len - len(i)) for i in tokenized.values])
attention_mask = np.where(padded != 0, 1, 0)

print(f"Размер датасета после токенизации: {padded.shape}")
print(padded[:5])


100%|████████████████████████████████████████████████████████████████████████| 159292/159292 [00:36<00:00, 4385.27it/s]


Размер датасета после токенизации: (159292, 256)
[[ 101 7526 2339 ...    0    0    0]
 [ 101 1040 1005 ...    0    0    0]
 [ 101 4931 2158 ...    0    0    0]
 [ 101 1000 2062 ...    0    0    0]
 [ 101 2017 1010 ...    0    0    0]]


Найдем эмбеддинги.

In [12]:
model = transformers.AutoModel.from_pretrained("unitary/toxic-bert").to(DEVICE)

batch_size = 400
embeddings = []
for i in notebook.tqdm(range(padded.shape[0] // batch_size + 1)):
        batch = torch.LongTensor(padded[batch_size*i:batch_size*(i + 1)]).to(DEVICE)
        attention_mask_batch = torch.LongTensor(attention_mask[batch_size*i:batch_size*(i + 1)]).to(DEVICE)

        with torch.no_grad():
            batch_embeddings = model(batch, attention_mask=attention_mask_batch)

        embeddings.append(batch_embeddings[0][:,0,:].to('cpu').numpy())
        del batch_embeddings
        torch.cuda.empty_cache()

features = np.concatenate(embeddings)

print(f"Размер датасета после поиска эмбеддингов: {features.shape}")
print(features[:5])


Some weights of the model checkpoint at unitary/toxic-bert were not used when initializing BertModel: ['classifier.bias', 'classifier.weight']
- This IS expected if you are initializing BertModel from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertModel from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


  0%|          | 0/399 [00:00<?, ?it/s]

Размер датасета после поиска эмбеддингов: (159292, 768)
[[-0.5585107  -1.0476651   0.7199489  ... -0.71159047  0.5249052
   0.1127703 ]
 [-0.59337103 -0.9981305   0.6239386  ... -0.69221896  0.4633578
   0.10821168]
 [-0.61220884 -0.8657579   0.7485891  ... -0.6126195   0.5090271
   0.13732637]
 [-0.5692074  -0.92946845  0.589398   ... -0.70434874  0.3813434
   0.1057018 ]
 [-0.79451674 -0.84589386  0.889402   ... -0.7354617   0.6126284
  -0.06679608]]


### Обучение

Разделим найденные эмбеддинги на обучающую и тестовую выборки.

In [13]:
X_train_bert, X_test_bert, y_train_bert, y_test_bert = train_test_split(features, 
                                                                        df["toxic"], 
                                                                        test_size=0.1, 
                                                                        random_state=SEED)


#### Логистическая регрессия

In [14]:
params_lr_bert = {"penalty": "l1",
                  "C": 5,
                  "fit_intercept": True}

lr_bert = LogisticRegression(**params_lr_bert, max_iter=10000, solver="saga")

f1_score_lr_bert = cross_val_score(lr_bert, X_train_bert, y_train_bert, 
                                   scoring=SCORE, cv=5, n_jobs=-1, verbose=2)

print(f"f1_score_lr_bert = {np.mean(f1_score_lr_bert):.3f}")


[Parallel(n_jobs=-1)]: Using backend LokyBackend with 12 concurrent workers.
[Parallel(n_jobs=-1)]: Done   3 out of   5 | elapsed:  4.4min remaining:  2.9min
[Parallel(n_jobs=-1)]: Done   5 out of   5 | elapsed:  4.6min finished


f1_score_lr_bert = 0.944


#### Градиентный бустинг

In [15]:
params_gb_bert = {'n_estimators': 100,
                  'max_depth': 3,
                  'learning_rate': 0.1}

gb_bert = GradientBoostingClassifier(**params_gb_bert, random_state=SEED)

f1_score_gb_bert = cross_val_score(gb_bert, X_train_bert, y_train_bert, 
                                   scoring=SCORE, cv=5, n_jobs=-1, verbose=2)

print(f"f1_score_gb_bert = {np.mean(f1_score_gb_bert):.3f}")


[Parallel(n_jobs=-1)]: Using backend LokyBackend with 12 concurrent workers.
[Parallel(n_jobs=-1)]: Done   3 out of   5 | elapsed: 50.9min remaining: 33.9min
[Parallel(n_jobs=-1)]: Done   5 out of   5 | elapsed: 51.0min finished


f1_score_gb_bert = 0.943


Сравним метрики полученных моделей.

In [16]:
results = pd.DataFrame(data={"f1_score": [grid_lr_tfidf.best_score_,
                                          np.mean(f1_score_lr_bert),
                                          np.mean(f1_score_gb_bert)]},
                       index=pd.Index(data=["lr_tfidf", "lr_bert", "gb_bert"], name="models"))\
            .sort_values("f1_score", ascending=False).round(3)

results


Unnamed: 0_level_0,f1_score
models,Unnamed: 1_level_1
lr_bert,0.944
gb_bert,0.943
lr_tfidf,0.783


Наибольшей величиной метрики обладает логистическая регрессия, построенная на эмбеддингах.

Найдем величину метрики лучшей модели на тестовой выборке.

In [17]:
lr_bert.fit(X_train_bert, y_train_bert)
y_predict = lr_bert.predict(X_test_bert)

print(f"f1_score_lr_bert_test = {f1_score(y_test_bert, y_predict):.3f}")


f1_score_lr_bert_test = 0.949


Найденная величина метрики удовлетворяет условиям задачи.

## Выводы

В работе проанализированы модели классификации текста комментариев на данных после TF-IDF и выделения эмбеддиногов. Показано, что наибольшей величиной метрики обладает логистическая регрессия, построенная на данных после выделения эмбеддиногов с помощью предварительно обученной модели BERT. Величина метрики F1 на тестовой выборке равна 0.95 и с запасом удовлетворяет условиям задачи.