In [147]:
import pandas as pd
import numpy as np
import torch
import transformers
from sklearn.model_selection import train_test_split
from tqdm import notebook
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import StratifiedKFold
from sklearn.model_selection import cross_val_score
from transformers import AutoTokenizer, AutoModel
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import GridSearchCV
from catboost import Pool, CatBoostRegressor, CatBoostClassifier
from sklearn.metrics import f1_score

%matplotlib inline

<h1>Содержание<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Подготовка" data-toc-modified-id="Подготовка-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Подготовка</a></span></li><li><span><a href="#Обучение" data-toc-modified-id="Обучение-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Обучение</a></span></li><li><span><a href="#Выводы" data-toc-modified-id="Выводы-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Выводы</a></span></li><li><span><a href="#Чек-лист-проверки" data-toc-modified-id="Чек-лист-проверки-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Чек-лист проверки</a></span></li></ul></div>

# Проект для «Викишоп» c BERT


Интернет-магазин «Викишоп» запускает новый сервис. Теперь пользователи могут редактировать и дополнять описания товаров, как в вики-сообществах. То есть клиенты предлагают свои правки и комментируют изменения других. Магазину нужен инструмент, который будет искать токсичные комментарии и отправлять их на модерацию. 

Обучите модель классифицировать комментарии на позитивные и негативные. В вашем распоряжении набор данных с разметкой о токсичности правок.

Постройте модель со значением метрики качества *F1* не меньше 0.75. 

**Инструкция по выполнению проекта**

1. Загрузите и подготовьте данные.
2. Обучите разные модели. 
3. Сделайте выводы.

Для выполнения проекта применять *BERT* необязательно, но вы можете попробовать.

**Описание данных**

Данные находятся в файле `toxic_comments.csv`. Столбец *text* в нём содержит текст комментария, а *toxic* — целевой признак.

## Подготовка

Загрузим данные, чтобы модно было работать и локально и удаленно.

In [88]:
try:
    data = pd.read_csv('../datasets/toxic_comments.csv', index_col=[0], parse_dates=[0])

except:
    data = pd.read_csv('https://code.s3.yandex.net/datasets/toxic_comments.csv', index_col=[0], parse_dates=[0])
data

Unnamed: 0,text,toxic
0,Explanation\nWhy the edits made under my usern...,0
1,D'aww! He matches this background colour I'm s...,0
2,"Hey man, I'm really not trying to edit war. It...",0
3,"""\nMore\nI can't make any real suggestions on ...",0
4,"You, sir, are my hero. Any chance you remember...",0
...,...,...
159446,""":::::And for the second time of asking, when ...",0
159447,You should be ashamed of yourself \n\nThat is ...,0
159448,"Spitzer \n\nUmm, theres no actual article for ...",0
159449,And it looks like it was actually you who put ...,0


Супер, пропущенных значений нет и признаки приведены к нужному типу, так что предобработка не нужна!

In [89]:
data.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 159292 entries, 0 to 159450
Data columns (total 2 columns):
 #   Column  Non-Null Count   Dtype 
---  ------  --------------   ----- 
 0   text    159292 non-null  object
 1   toxic   159292 non-null  int64 
dtypes: int64(1), object(1)
memory usage: 3.6+ MB


Из-за особенности Berta и наличия слишком уж длинных твитов у нас придется оставить только те, где длинна меньше 500 и обучаться на них!

In [92]:
data = data[data['text'].apply(lambda x: len(x) < 501)]
data = data.reset_index(drop=True)
data

Unnamed: 0,text,toxic
0,Explanation\nWhy the edits made under my usern...,0
1,D'aww! He matches this background colour I'm s...,0
2,"Hey man, I'm really not trying to edit war. It...",0
3,"You, sir, are my hero. Any chance you remember...",0
4,"""\n\nCongratulations from me as well, use the ...",0
...,...,...
125436,""":::::And for the second time of asking, when ...",0
125437,You should be ashamed of yourself \n\nThat is ...,0
125438,"Spitzer \n\nUmm, theres no actual article for ...",0
125439,And it looks like it was actually you who put ...,0


Возьмем 2000 объектов случаным образов для токенизации и обучения.

In [93]:
data = data.sample(n=2000, random_state=12345).reset_index(drop=True)
data

Unnamed: 0,text,toxic
0,"Yes, I saw Timeline of Anti-Semitism. It isn'...",0
1,"All right, (sorry to interrupt) I think we sho...",0
2,Fixed It Up\nHope you like how I fixed up the ...,0
3,"fuck ya, ya poo brian",1
4,"""\nYes they are indeed. I've replaced that se...",0
...,...,...
1995,hey tom...yea im talkn to yu...first of all ge...,1
1996,"This is a very minor point, but the two words ...",0
1997,fuck you.\n\nyour fuckin stupid and i'm black ...,1
1998,Regarding edits made during December 1 2006\nP...,0


Воспользуемся уже обученным токенизатором и применим к нему наши 2000 обьектов!

In [94]:
tokenizer = AutoTokenizer.from_pretrained("unitary/toxic-bert")


tokenized = data['text'].apply(
    lambda x: tokenizer.encode(x, add_special_tokens=True))

Чтобы создать маску внимания найдем максимальную длинну токенов.

In [95]:

max_len = 0
for i in tokenized.values:
    if len(i) > max_len:
        max_len = len(i)
max_len

164

Применим метод padding , чтобы после токенизации длины исходных текстов в корпусе были равными. Создадим маску внимания для действительно важных токенов.

In [96]:
# max_len = 139
padded = np.array([i + [0]*(max_len - len(i)) for i in tokenized.values])

attention_mask = np.where(padded != 0, 1, 0)

In [97]:
padded.shape

(2000, 164)

Инициализируем саму модель класса BertModel. Передадим ей файл с предобученной моделью и конфигурацией.

In [98]:
config = transformers.BertConfig.from_json_file(
    '../materials/config.json')
model = AutoModel.from_pretrained("unitary/toxic-bert")

Some weights of the model checkpoint at unitary/toxic-bert were not used when initializing BertModel: ['classifier.bias', 'classifier.weight']
- This IS expected if you are initializing BertModel from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertModel from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


In [99]:
batch_size = 100
embeddings = []

for i in notebook.tqdm(range(padded.shape[0] // batch_size)):
    batch = torch.LongTensor(padded[batch_size*i:batch_size*(i+1)])
    attention_mask_batch = torch.LongTensor(attention_mask[batch_size*i:batch_size*(i+1)])

    with torch.no_grad():
        batch_embeddings = model(batch, attention_mask=attention_mask_batch)

    embeddings.append(batch_embeddings[0][:,0,:].numpy())

  0%|          | 0/20 [00:00<?, ?it/s]

Получили вектор фичей!

In [100]:
features = np.concatenate(embeddings)
features

array([[-0.54618627, -0.942462  ,  0.53754437, ..., -0.7138484 ,
         0.4585068 ,  0.206296  ],
       [-0.55645144, -0.829792  ,  0.72461665, ..., -0.67558193,
         0.4354809 ,  0.13492501],
       [-0.46774155, -0.9803523 ,  0.68424314, ..., -0.68779784,
         0.5541289 ,  0.08955944],
       ...,
       [-0.07072948,  1.0594004 ,  0.40474346, ..., -0.55032736,
        -0.35131308, -0.36006793],
       [-0.5309198 , -0.98468965,  0.6583364 , ..., -0.7759333 ,
         0.33238003,  0.10097264],
       [-0.98013395, -0.508522  , -0.23657921, ..., -0.22487363,
         0.06660761,  1.218791  ]], dtype=float32)

Разбиваем данные в соотношении 4:1 и не забывает про stratify!

In [122]:
features_train, features_test, target_train, target_test = train_test_split(features, data['toxic'], test_size=0.2, random_state=12345, stratify=data['toxic'])
target_train

1029    0
1809    0
1298    0
722     0
1923    0
       ..
1534    0
1586    0
320     0
1950    0
611     1
Name: toxic, Length: 1600, dtype: int64

## Обучение

Создадим списки для записи лучших метрик и параметров, при которых они были получены, для итоговой таблицы.

In [179]:
best_metrics = []
best_params = []

Обучим Логистическую Регрессию и протесируем ее на кросс-валидации!

In [180]:
log_model  = LogisticRegression()
log_model.fit(features_train, target_train)

cv = StratifiedKFold(n_splits=5)
grid_log = cross_val_score(log_model, X=features_train, y=target_train, cv=cv, scoring='f1')
best_metrics.append(round(grid_log.mean(), 5))
best_params.append('No Params')
grid_log.mean()

STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(
STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(
STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver opt

0.9429397832861494

F1 score = 0.94 - неплохо!

GridSearchCV(cv=StratifiedKFold(n_splits=5, random_state=None, shuffle=False),
             estimator=RandomForestClassifier(random_state=12345), n_jobs=-1,
             param_grid={'max_depth': range(5, 26, 5),
                         'n_estimators': range(100, 260, 50)},
             scoring='f1', verbose=True)

Также обучим Случайны Лес и подберем гипперпараметры!

In [128]:
# %%time
# forest = RandomForestClassifier(random_state=12345)
# params = {'n_estimators': range(100, 260, 50), 'max_depth': range(5, 26, 5)}
# cv = StratifiedKFold(n_splits=5)
# grid = GridSearchCV(forest, params, n_jobs=-1, verbose=True, cv=cv, scoring='f1')
# grid.fit(features_train, target_train)

Fitting 5 folds for each of 20 candidates, totalling 100 fits
huggingface/tokenizers: The current process just got forked, after parallelism has already been used. Disabling parallelism to avoid deadlocks...
	- Avoid using `tokenizers` before the fork if possible
	- Explicitly set the environment variable TOKENIZERS_PARALLELISM=(true | false)
huggingface/tokenizers: The current process just got forked, after parallelism has already been used. Disabling parallelism to avoid deadlocks...
	- Avoid using `tokenizers` before the fork if possible
	- Explicitly set the environment variable TOKENIZERS_PARALLELISM=(true | false)
huggingface/tokenizers: The current process just got forked, after parallelism has already been used. Disabling parallelism to avoid deadlocks...
	- Avoid using `tokenizers` before the fork if possible
	- Explicitly set the environment variable TOKENIZERS_PARALLELISM=(true | false)
huggingface/tokenizers: The current process just got forked, after parallelism has alread

GridSearchCV(cv=StratifiedKFold(n_splits=5, random_state=None, shuffle=False),
             estimator=RandomForestClassifier(random_state=12345), n_jobs=-1,
             param_grid={'max_depth': range(5, 26, 5),
                         'n_estimators': range(100, 260, 50)},
             scoring='f1', verbose=True)

F1 score = 0.93 - Хуже, чем у Логистической.

In [181]:
best_metrics.append(round(grid.best_score_, 5))
best_params.append(str(grid.best_params_))
print('Лучшие параметры:', grid.best_params_)
print('Лучший счет:', grid.best_score_)

Лучшие параметры: {'max_depth': 5, 'n_estimators': 250}
Лучший счет: 0.9376593000633923



bestTest = 0.9850746269
bestIteration = 45

{'depth': 5, 'l2_leaf_reg': 1, 'learning_rate': 0.1}
CPU times: user 4h 11min 22s, sys: 7min 8s, total: 4h 18min 30s
Wall time: 44min 46s

Ну и куда же без бустинга! Обучим и его и подберем гипперпараметры!

In [144]:
# %%time
# cat_model = CatBoostClassifier(eval_metric="F1")
# params = {'learning_rate': [0.03, 0.1],
#         'depth': [5, 7, 10, 20],
#         'l2_leaf_reg': [1, 3, 7, 9]}
# grid_search_result = cat_model.grid_search(params, X=features_train, y=target_train, cv = StratifiedKFold(n_splits=5))
# print(grid_search_result['params'])

0:	learn: 0.8863636	test: 0.8615385	best: 0.8615385 (0)	total: 102ms	remaining: 1m 41s
1:	learn: 0.8939394	test: 0.9062500	best: 0.9062500 (1)	total: 126ms	remaining: 1m 2s
2:	learn: 0.9160305	test: 0.9180328	best: 0.9180328 (2)	total: 245ms	remaining: 1m 21s
3:	learn: 0.9338235	test: 0.9206349	best: 0.9206349 (3)	total: 339ms	remaining: 1m 24s
4:	learn: 0.9516729	test: 0.9206349	best: 0.9206349 (3)	total: 367ms	remaining: 1m 13s
5:	learn: 0.9594096	test: 0.9206349	best: 0.9206349 (3)	total: 403ms	remaining: 1m 6s
6:	learn: 0.9477612	test: 0.9354839	best: 0.9354839 (6)	total: 424ms	remaining: 1m
7:	learn: 0.9591078	test: 0.9354839	best: 0.9354839 (6)	total: 452ms	remaining: 56.1s
8:	learn: 0.9591078	test: 0.9354839	best: 0.9354839 (6)	total: 481ms	remaining: 52.9s
9:	learn: 0.9584906	test: 0.9354839	best: 0.9354839 (6)	total: 502ms	remaining: 49.7s
10:	learn: 0.9509434	test: 0.9180328	best: 0.9354839 (6)	total: 528ms	remaining: 47.5s
11:	learn: 0.9548872	test: 0.9000000	best: 0.9354839

А вот и лучший результат от бустинга! F1 score = 0.98!

In [182]:
# print(grid_search_result["params"]["depth"])
# print(grid_search_result["params"]["learning_rate"])
# print(grid_search_result["params"]["l2_leaf_reg"])
best_metrics.append(round(0.9850746269, 5))
best_params.append(str(grid_search_result['params']))
best_depth = 5
best_learning_rate = 0.1
best_l2 = 1

In [184]:
cat_model = CatBoostRegressor(depth=best_depth, learning_rate=best_learning_rate, l2_leaf_reg= best_l2, loss_function='RMSE')
cat_model.fit(features_train, target_train)

0:	learn: 36.8148940	total: 6.53ms	remaining: 6.52s
1:	learn: 35.0369650	total: 10.2ms	remaining: 5.1s
2:	learn: 33.4626258	total: 13ms	remaining: 4.33s
3:	learn: 32.0653465	total: 22.7ms	remaining: 5.66s
4:	learn: 30.8270423	total: 28.3ms	remaining: 5.63s
5:	learn: 29.7503296	total: 32.3ms	remaining: 5.35s
6:	learn: 28.7626165	total: 36ms	remaining: 5.11s
7:	learn: 27.8875338	total: 38.7ms	remaining: 4.8s
8:	learn: 27.1187866	total: 42ms	remaining: 4.63s
9:	learn: 26.3586350	total: 45.2ms	remaining: 4.47s
10:	learn: 25.7403235	total: 48.8ms	remaining: 4.39s
11:	learn: 25.2007451	total: 52.3ms	remaining: 4.31s
12:	learn: 24.7043421	total: 59.3ms	remaining: 4.5s
13:	learn: 24.3339916	total: 64.6ms	remaining: 4.55s
14:	learn: 23.9324178	total: 67.9ms	remaining: 4.46s
15:	learn: 23.5769907	total: 71.6ms	remaining: 4.4s
16:	learn: 23.2811161	total: 74.7ms	remaining: 4.32s
17:	learn: 23.0093868	total: 78.3ms	remaining: 4.27s
18:	learn: 22.7665433	total: 81.8ms	remaining: 4.22s
19:	learn: 22

<catboost.core.CatBoostRegressor at 0x7fc763f88bb0>

Протестируем нашу лучшую модель на тестовой выборке!

In [149]:
print('F1 score:', f1_score(y_true=target_test, y_pred=cat_model.predict(features_test)))

F1 score: 0.9367088607594937


Хороший результат!

## Выводы

In [187]:
test = []
test.append('-')
test.append('-')
test.append(round(0.9367088607594937, 5))

final_pivot = []
final_pivot.append(best_metrics)
final_pivot.append(best_params)
final_pivot.append(test)


final = pd.DataFrame(final_pivot, columns=['LogisticRegression', 'ForestClassifier', 'CatboostClassifier'], index=['F1 score cross-val', 'best_params', 'Test'])
final

Unnamed: 0,LogisticRegression,ForestClassifier,CatboostClassifier
F1 score cross-val,0.94294,0.93766,0.98507
best_params,No Params,"{'max_depth': 5, 'n_estimators': 250}","{'depth': 5, 'l2_leaf_reg': 1, 'learning_rate'..."
Test,-,-,0.93671


В данном проекте была обучена модель на поиск токсичных твитов. Мы загрузили данные и проверили - они были чистыми и готовыми к обучению. В проекте мы воспользовались нейронной сетью BERT, но перед этим для корректной работы нам пришлось выкинуть из датасета слишком длинные твиты. Мы взяли 2000 случайных твитов и токенизировали их, не забыл создать маску внимания, после чего передали токены BERT и получили векторы, готовые к обучению! Мы обучили и проверили на кросс-валидации Логистическую Регрессию, Случайный Лес с гиперпараметрами и Catboost гиперпараметрами, где последняя показала себя лучше всего, выдав метрику на тестовой выборке F1 score: 0.9367088607594937!

## Чек-лист проверки

- [x]  Jupyter Notebook открыт
- [x]  Весь код выполняется без ошибок
- [x]  Ячейки с кодом расположены в порядке исполнения
- [x]  Данные загружены и подготовлены
- [x]  Модели обучены
- [x]  Значение метрики *F1* не меньше 0.75
- [x]  Выводы написаны