# Проект для Викишоп с применением BERT

Интернет-магазин «Викишоп» запускает новый сервис. Теперь пользователи могут редактировать и дополнять описания товаров, как в вики-сообществах. То есть клиенты предлагают свои правки и комментируют изменения других. Магазину нужен инструмент, который будет искать токсичные комментарии и отправлять их на модерацию.

Обучите модель классифицировать комментарии на позитивные и негативные. В вашем распоряжении набор данных с разметкой о токсичности правок.

Постройте модель со значением метрики качества *F1* не меньше 0.75.

**Инструкция по выполнению проекта**

1. Загрузите и подготовьте данные.
2. Обучите разные модели.
3. Сделайте выводы.

Для выполнения проекта применять *BERT* необязательно, но вы можете попробовать.

**Описание данных**

Данные находятся в файле `toxic_comments.csv`.

*text* - текст комментария.

*toxic* — целевой признак.

### Библиотеки и окружение

In [None]:
import numpy as np
import pandas as pd
import random
import torch
import transformers
from tqdm import notebook
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import train_test_split

In [None]:
!pip install catboost optuna -q

In [None]:
from catboost import CatBoostClassifier
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.tree import DecisionTreeRegressor
from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import TimeSeriesSplit
from sklearn.metrics import f1_score, make_scorer

In [None]:
from transformers import AutoTokenizer, AutoModelForSequenceClassification

In [None]:
!pip install transformers -q

import transformers
from transformers import BertModel, BertTokenizer

PRETRAINED_MODEL_NAME = "unitary/toxic-bert"

In [None]:
from google.colab import userdata
userdata.get('HF_TOKEN')

'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'

In [None]:
!pip install transformers huggingface_hub -q


In [None]:
import os

## Подготовка

In [None]:
df_full = pd.read_csv('/content/toxic_comments.csv').sort_index()

In [None]:
df_full.head()

Unnamed: 0.1,Unnamed: 0,text,toxic
0,0,Explanation\nWhy the edits made under my usern...,0
1,1,D'aww! He matches this background colour I'm s...,0
2,2,"Hey man, I'm really not trying to edit war. It...",0
3,3,"""\nMore\nI can't make any real suggestions on ...",0
4,4,"You, sir, are my hero. Any chance you remember...",0


In [None]:
df_full.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 159292 entries, 0 to 159291
Data columns (total 3 columns):
 #   Column      Non-Null Count   Dtype 
---  ------      --------------   ----- 
 0   Unnamed: 0  159292 non-null  int64 
 1   text        159292 non-null  object
 2   toxic       159292 non-null  int64 
dtypes: int64(2), object(1)
memory usage: 3.6+ MB


In [None]:
# делаем выборку 5000 случайных объектов
ind_5000 = random.sample(list(df_full.index), 5000)
df = df_full[df_full.index.isin(ind_5000)].reset_index(drop=True)
df.shape

(5000, 3)

In [None]:
tokenizer = BertTokenizer.from_pretrained(PRETRAINED_MODEL_NAME)

In [None]:
model = BertModel.from_pretrained(PRETRAINED_MODEL_NAME)

In [None]:
tokenized = df['text'].apply(
    lambda x: tokenizer.encode(x, add_special_tokens=True, truncation=True, max_length=512))

max_len = 0
for i in tokenized.values:
    if len(i) > max_len:
        max_len = len(i)

padded = np.array([i + [0]*(max_len - len(i)) for i in tokenized.values])

attention_mask = np.where(padded != 0, 1, 0)
print('Максимальная длина токена:', max_len)

Максимальная длина токена: 512


In [None]:
batch_size = 100
embeddings = []
for i in notebook.tqdm(range(padded.shape[0] // batch_size)):
        batch = torch.LongTensor(padded[batch_size*i:batch_size*(i+1)])
        attention_mask_batch = torch.LongTensor(attention_mask[batch_size*i:batch_size*(i+1)])

        with torch.no_grad():
            batch_embeddings = model(batch, attention_mask=attention_mask_batch)

        embeddings.append(batch_embeddings[0][:,0,:].numpy())

  0%|          | 0/50 [00:00<?, ?it/s]

## Обучение

In [None]:
X = np.concatenate(embeddings)
y = df['toxic']

X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.5, random_state=42)

print(f'Размер тренировочной выборки: ', f'{(len(X_train)/len(df)):.0%}')

Размер тренировочной выборки:  50%


In [None]:
f1 = make_scorer(f1_score , average= 'weighted')

In [None]:
pipe_final = Pipeline([
    ('preprocessor', StandardScaler()),
    ('models', DecisionTreeRegressor(random_state=42))
])


In [None]:
param_grid = [
    {
        'models': [CatBoostClassifier(iterations=150, verbose=False)],
        'models__learning_rate': [0.01, 0.1],
        'models__depth': [3, 5]
    },
    {
        'models': [LogisticRegression()],
        'models__C': [0.1, 1, 10]
        }
]
tscv = TimeSeriesSplit(n_splits=5)

g_search = GridSearchCV(
    pipe_final,
    param_grid,
    cv=tscv,
    verbose=0,
    scoring = f1,
    n_jobs=-1,
    error_score='raise'
)

g_search.fit(X_train, y_train)



STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


In [None]:
print('Лучшая модель и её параметры:\n\n', g_search.best_estimator_)
print ('Метрика F1 лучшей модели на кросс-валидации:', g_search.best_score_)


Лучшая модель и её параметры:

 Pipeline(steps=[('preprocessor', StandardScaler()),
                ('models', LogisticRegression(C=0.1))])
Метрика F1 лучшей модели на кросс-валидации: 0.989931994950199


In [None]:
predictions = g_search.best_estimator_.predict(X_test)
print(f'метрика F1 лучшей модели: {f1_score(y_test, predictions):.2f}')

метрика F1 лучшей модели: 0.95


## Выводы

Для построения модели машинного обучения использована выборка из 5000 строк исходного датасета.
Для разработки модели была использована BERT предобученая модель, далее предсказания выполнялись с использованием пайплайна, содержащего две модели- CatBoostClassifier и LogisticRegression.

Выделена лучшая модель- LogisticRegression(C=0.1).

Метрика лучшей модели на кросс-валидационной выборке - 0.989

Метрика лучшей модели на тестовой выборке - 0.95

Работа выполнялась с использованием мощностей платформы Google Colab.