# Проект для «Викишоп» c BERT

## Описание проекта

Интернет-магазин «Викишоп» запускает новый сервис. Теперь пользователи могут редактировать и дополнять описания товаров, как в вики-сообществах. То есть клиенты предлагают свои правки и комментируют изменения других. Магазину нужен инструмент, который будет искать токсичные комментарии и отправлять их на модерацию. 

Нужно обучить модель классифицировать комментарии на позитивные и негативные. В нашем распоряжении набор данных с разметкой о токсичности правок.

Необходимо построить модель со значением метрики качества F1 не меньше 0.75.

## План работ 

1. Загрузить и подготовить данные.
2. Обучить разные модели.
3. Сделать выводы.

## Описание данных

Данные находятся в файле *toxic_comments.csv*. 
Столбец *text* в нём содержит текст комментария, а *toxic* — целевой признак.

## Загрузка и подготовка данных

### Импорт библиотек

Сперва установим и импортируем все необходимые библиотеки:

In [1]:
# pip install torch --index-url https://download.pytorch.org/whl/cu118
#!pip install protobuf==3.20.*
#!pip install lightgbm

In [2]:
import re

import lightgbm as lgbm
import nltk
import numpy as np
import pandas as pd
import torch
import transformers
from nltk.corpus import stopwords as nltk_stopwords
from nltk.stem import WordNetLemmatizer
from numpy.random import RandomState
from sklearn.ensemble import RandomForestClassifier
from sklearn.experimental import enable_halving_search_cv
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import f1_score
from sklearn.model_selection import HalvingRandomSearchCV, train_test_split
from tqdm import tqdm, tqdm_notebook

И произведем некоторые настройки параметров:

In [3]:
tqdm.pandas()
nltk.download("wordnet")
nltk.download("stopwords")
torch.cuda.empty_cache()
state = RandomState(12345)
pd.set_option("display.max_rows", None)

[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\pashn\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\pashn\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


### Загрузка данных

In [4]:
try:
    df = pd.read_csv("toxic_comments.csv")

except:
    df = pd.read_csv("/datasets/toxic_comments.csv")

In [5]:
display(df.sample(5))

Unnamed: 0.1,Unnamed: 0,text,toxic
25184,25208,"sky brightness graph \n\nAlbester, where did u...",0
143653,143807,Over-use of shy template \n\nI have reversed y...,0
142924,143078,"""\n\nThere is far too much pointless listing o...",0
151285,151441,"Good point, thanks. I think I copied the R not...",0
38929,38978,"""\n\nMerge of Emerald Ash borer """"Infestation""...",0


### Подготовка данных

In [6]:
print("Общая информация о датафрейме:")
df.info()

Общая информация о датафрейме:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 159292 entries, 0 to 159291
Data columns (total 3 columns):
 #   Column      Non-Null Count   Dtype 
---  ------      --------------   ----- 
 0   Unnamed: 0  159292 non-null  int64 
 1   text        159292 non-null  object
 2   toxic       159292 non-null  int64 
dtypes: int64(2), object(1)
memory usage: 3.6+ MB


Как видим, пропусков нет. Но есть колонка *Unnamed: 0* про которую не известно, за что она отвечает, да и по значениям, кажется что она не сильно информативна (просто в какие то моменты начинает немного отличаться от значений индекса). Избавимся от этой колонки:

In [7]:
df = df.drop("Unnamed: 0", axis=1)
df.head()

Unnamed: 0,text,toxic
0,Explanation\nWhy the edits made under my usern...,0
1,D'aww! He matches this background colour I'm s...,0
2,"Hey man, I'm really not trying to edit war. It...",0
3,"""\nMore\nI can't make any real suggestions on ...",0
4,"You, sir, are my hero. Any chance you remember...",0


Далее проверим  данные на наличие дубликатов:

In [8]:
print("Количество дубликатов = ", df.duplicated().sum())

Количество дубликатов =  0


Дубликатов нет, отлично!

Теперь проведем лемматизацию текстов и избавимся от лишних символов с помощью регулярных выражений:

In [9]:
def lemmatize(text):
    lemmatizer = WordNetLemmatizer()
    word_list = nltk.word_tokenize(text)
    lemmatized_output = " ".join([lemmatizer.lemmatize(w) for w in word_list])
    return lemmatized_output


def clear_text(text):
    text = re.sub(r"[^a-zA-Z ]", " ", text)
    text = text.split()
    text = " ".join(text)
    return text

In [10]:
df["text"] = df["text"].progress_apply(clear_text)
print("Текст после регулярных выражений:")
display(df.head())
df["text"] = df["text"].progress_apply(lemmatize)
print("Текст после лемматизации:")
display(df.head())
df["text"] = df["text"].str.lower()
print("Текст после перевода в нижний регистр:")
display(df.head())

100%|██████████| 159292/159292 [00:01<00:00, 103037.04it/s]

Текст после регулярных выражений:





Unnamed: 0,text,toxic
0,Explanation Why the edits made under my userna...,0
1,D aww He matches this background colour I m se...,0
2,Hey man I m really not trying to edit war It s...,0
3,More I can t make any real suggestions on impr...,0
4,You sir are my hero Any chance you remember wh...,0


100%|██████████| 159292/159292 [00:59<00:00, 2671.51it/s]

Текст после лемматизации:





Unnamed: 0,text,toxic
0,Explanation Why the edits made under my userna...,0
1,D aww He match this background colour I m seem...,0
2,Hey man I m really not trying to edit war It s...,0
3,More I can t make any real suggestion on impro...,0
4,You sir are my hero Any chance you remember wh...,0


Текст после перевода в нижний регистр:


Unnamed: 0,text,toxic
0,explanation why the edits made under my userna...,0
1,d aww he match this background colour i m seem...,0
2,hey man i m really not trying to edit war it s...,0
3,more i can t make any real suggestion on impro...,0
4,you sir are my hero any chance you remember wh...,0


### Промежуточный вывод

1. Подключили необходимые библиотеки
2. Загрузили данные
3. Определили что нет пропусков и дубликатов
4. Очистили текст с помощью регулярных выражений
5. Лемматизировали данные
6. Избавились от неинформативной колонки

## Обучение моделей

Попробуем два подхода:
* эмбеддинг с помощью готовой модели ***Bert***
* векторизация с помощью метрики ***TF-IDF***

### BERT

#### Эмбеддинг

Перед тем как начать обучать модели необходимо создать матрицу признаков из эмбеддингов. Для этого воспользуемся моделью ***BERT***. 

Сперва токенизируем наши данные:

In [11]:
print("Tokenizing...")
tokenizer = transformers.BertTokenizer(vocab_file="vocab.txt")
tokenized = df["text"].progress_apply(
    lambda x: tokenizer.encode(
        x, truncation=True, add_special_tokens=True, max_length=512
    )
)
print("Done!")

Tokenizing...


100%|██████████| 159292/159292 [02:41<00:00, 988.09it/s] 

Done!





Поиск максимального количества токенов:

In [12]:
max_len = 0
for i in tqdm(tokenized.values, desc="Max length"):
    if len(i) > max_len:
        max_len = len(i)

Max length: 100%|██████████| 159292/159292 [00:00<00:00, 3630391.35it/s]


Padding, чтобы длины данных в корпусе были равными, и создание маски:

In [13]:
padded = np.array(
    [i + [0] * (max_len - len(i)) for i in tqdm(tokenized.values, desc="Padding")]
)

attention_mask = np.where(padded != 0, 1, 0)
print(attention_mask.shape)

Padding: 100%|██████████| 159292/159292 [00:01<00:00, 117834.53it/s]


(159292, 512)


Инициализируем саму модель класса BertModel:

In [14]:
# код на случай скачанных моделей Bert
# config = transformers.BertConfig.from_json_file("bert_config.json")
# model = transformers.BertForPreTraining.from_pretrained(
#    "bert_model.ckpt.index", from_tf=True, config=config
# )
model = transformers.BertModel.from_pretrained("bert-base-uncased")
model = model.to("cuda")
print("Done")

Some weights of the model checkpoint at bert-base-uncased were not used when initializing BertModel: ['cls.predictions.decoder.weight', 'cls.seq_relationship.bias', 'cls.predictions.transform.dense.weight', 'cls.predictions.bias', 'cls.predictions.transform.dense.bias', 'cls.predictions.transform.LayerNorm.weight', 'cls.predictions.transform.LayerNorm.bias', 'cls.seq_relationship.weight']
- This IS expected if you are initializing BertModel from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertModel from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


Done


Преобразуем данные в эмбеддинги:

In [15]:
batch_size = 2
embeddings = []
for i in tqdm(range(padded.shape[0] // batch_size)):
    batch = torch.cuda.LongTensor(padded[batch_size * i : batch_size * (i + 1)])
    attention_mask_batch = torch.cuda.LongTensor(
        attention_mask[batch_size * i : batch_size * (i + 1)]
    )

    with torch.no_grad():
        batch_embeddings = model(batch, attention_mask=attention_mask_batch)

    embeddings.append((batch_embeddings[0][:, 0, :]).cpu().numpy())

100%|██████████| 79646/79646 [1:22:19<00:00, 16.12it/s]


In [16]:
features = np.concatenate(embeddings)

X_train, X_test, y_train, y_test = train_test_split(
    features, df["toxic"], test_size=0.25, random_state=state
)
print(X_train.shape)
print(X_test.shape)

(119469, 768)
(39823, 768)


#### Логистическая регрессия

In [18]:
param_distributions = {
    "max_iter": [100, 500, 700, 1000],
    "solver": ["lbfgs", "liblinear"],
}

linear_regression = HalvingRandomSearchCV(
    estimator=LogisticRegression(random_state=state, class_weight="balanced"),
    param_distributions=param_distributions,
    verbose=0,
    n_jobs=-1,
    random_state=state,
    scoring="f1",
    max_resources=80,
).fit(X_train, y_train)

print(
    "Метрика f1 на тестовой выборке = ",
    round(
        f1_score(y_test, linear_regression.best_estimator_.predict(X_test)),
        2,
    ),
)

8 fits failed out of a total of 20.
The score on these train-test partitions for these parameters will be set to nan.
If these failures are not expected, you can try to debug them by setting error_score='raise'.

Below are more details about the failures:
--------------------------------------------------------------------------------
6 fits failed with the following error:
Traceback (most recent call last):
  File "D:\Anaconda\envs\ds_practicum_env\lib\site-packages\sklearn\model_selection\_validation.py", line 732, in _fit_and_score
    estimator.fit(X_train, y_train, **fit_params)
  File "D:\Anaconda\envs\ds_practicum_env\lib\site-packages\sklearn\base.py", line 1151, in wrapper
    return fit_method(estimator, *args, **kwargs)
  File "D:\Anaconda\envs\ds_practicum_env\lib\site-packages\sklearn\linear_model\_logistic.py", line 1252, in fit
    raise ValueError(
ValueError: This solver needs samples of at least 2 classes in the data, but the data contains only one class: 0

---------

Метрика f1 на тестовой выборке =  0.63


#### Случайный лес

In [19]:
param_distributions = {
    "max_depth": [1, 5, 10, 50, 100],
    "n_estimators": [2, 10, 50, 100, 300],
    "min_samples_split": [2, 5, 10],
    "criterion": ["entropy", "gini"],
}


rf = HalvingRandomSearchCV(
    estimator=RandomForestClassifier(random_state=state),
    param_distributions=param_distributions,
    verbose=0,
    n_jobs=-1,
    random_state=state,
    scoring="f1",
    max_resources=1500,
).fit(X_train, y_train)

print(
    "Метрика f1 на тестовой выборке = ",
    round(f1_score(y_test, rf.best_estimator_.predict(X_test)), 2),
)

Метрика f1 на тестовой выборке =  0.24


#### LightGBM

In [20]:
param_distributions = {
    "n_estimators": [10, 50, 70, 100, 150, 200, 500],
    "num_leaves": [2, 5, 10, 30, 50, 100, 150],
    "learning_rate": [0.03, 0.1, 0.2, 0.5, 0.7],
}


LightGBM = HalvingRandomSearchCV(
    estimator=lgbm.LGBMClassifier(random_state=state, force_col_wise=True),
    param_distributions=param_distributions,
    verbose=0,
    n_jobs=-1,
    random_state=state,
    scoring="f1",
    max_resources=2450,
).fit(X_train, y_train)

print(
    "Метрика f1 на тестовой выборке = ",
    round(f1_score(y_test, LightGBM.best_estimator_.predict(X_test)), 2),
)

[LightGBM] [Info] Number of positive: 12142, number of negative: 107327
[LightGBM] [Info] Total Bins 195840
[LightGBM] [Info] Number of data points in the train set: 119469, number of used features: 768
[LightGBM] [Info] [binary:BoostFromScore]: pavg=0.101633 -> initscore=-2.179210
[LightGBM] [Info] Start training from score -2.179210
Метрика f1 на тестовой выборке =  0.66


#### Промежуточный вывод

1. С помощью модели **BERT** провели эмбеддинг признаков
2. Обучили три модели и получили следующие значения метрик *f1*:
    * Логистическая регрессия - 0.63
    * Случайный лес - 0.24
    * LightGBM - 0.66
    
Лучший результат показала модель *LightGBM*. Но тем не менее ни одна из моделей не смогла показать результат выше целевого значения 0.75. 

### TF-IDF

#### Векторизация

Данные уже лемматизированы и очищены от ненужных символов. Произведем векторизацию текста, а перед этим разделим данные на обучающую и тестовую:

In [21]:
X_train_tf_idf, X_test_tf_idf, y_train_tf_idf, y_test_tf_idf = train_test_split(
    df["text"], df["toxic"], test_size=0.25, random_state=state
)

stopwords = set(nltk_stopwords.words("english"))
count_tf_idf_train = TfidfVectorizer(stop_words=list(stopwords))

tf_idf_train = count_tf_idf_train.fit_transform(X_train_tf_idf)
tf_idf_test = count_tf_idf_train.transform(X_test_tf_idf)

print(X_train_tf_idf.shape)
print(X_test_tf_idf.shape)

(119469,)
(39823,)


#### Логистическая регрессия

In [22]:
param_distributions = {
    "max_iter": [100, 500, 700, 1000],
    "solver": ["lbfgs", "liblinear"],
}

linear_regression = HalvingRandomSearchCV(
    estimator=LogisticRegression(random_state=state, class_weight="balanced"),
    param_distributions=param_distributions,
    verbose=0,
    n_jobs=-1,
    random_state=state,
    scoring="f1",
    max_resources=80,
).fit(tf_idf_train, y_train_tf_idf)

print(
    "Метрика f1 на тестовой выборке = ",
    round(
        f1_score(y_test_tf_idf, linear_regression.best_estimator_.predict(tf_idf_test)),
        2,
    ),
)

4 fits failed out of a total of 20.
The score on these train-test partitions for these parameters will be set to nan.
If these failures are not expected, you can try to debug them by setting error_score='raise'.

Below are more details about the failures:
--------------------------------------------------------------------------------
1 fits failed with the following error:
Traceback (most recent call last):
  File "D:\Anaconda\envs\ds_practicum_env\lib\site-packages\sklearn\model_selection\_validation.py", line 732, in _fit_and_score
    estimator.fit(X_train, y_train, **fit_params)
  File "D:\Anaconda\envs\ds_practicum_env\lib\site-packages\sklearn\base.py", line 1151, in wrapper
    return fit_method(estimator, *args, **kwargs)
  File "D:\Anaconda\envs\ds_practicum_env\lib\site-packages\sklearn\linear_model\_logistic.py", line 1252, in fit
    raise ValueError(
ValueError: This solver needs samples of at least 2 classes in the data, but the data contains only one class: 0

---------

Метрика f1 на тестовой выборке =  0.75


#### Случайный лес

In [23]:
param_distributions = {
    "max_depth": [1, 5, 10, 50, 100],
    "n_estimators": [2, 10, 50, 100, 300],
    "min_samples_split": [2, 5, 10],
    "criterion": ["entropy", "gini"],
}


rf = HalvingRandomSearchCV(
    estimator=RandomForestClassifier(random_state=state),
    param_distributions=param_distributions,
    verbose=0,
    n_jobs=-1,
    random_state=state,
    scoring="f1",
    max_resources=1500,
).fit(tf_idf_train, y_train_tf_idf)

print(
    "Метрика f1 на тестовой выборке = ",
    round(f1_score(y_test_tf_idf, rf.best_estimator_.predict(tf_idf_test)), 2),
)

Метрика f1 на тестовой выборке =  0.0


#### LightGBM

In [24]:
param_distributions = {
    "n_estimators": [10, 100, 200, 500],
    "num_leaves": [2, 5, 10, 100, 150],
    "learning_rate": [0.03, 0.1, 0.7],
}


LightGBM = HalvingRandomSearchCV(
    estimator=lgbm.LGBMClassifier(random_state=state, force_col_wise=True),
    param_distributions=param_distributions,
    verbose=0,
    n_jobs=-1,
    random_state=state,
    scoring="f1",
    max_resources=600,
).fit(tf_idf_train, y_train_tf_idf)

print(
    "Метрика f1 на тестовой выборке = ",
    round(f1_score(y_test_tf_idf, LightGBM.best_estimator_.predict(tf_idf_test)), 2),
)

[LightGBM] [Info] Number of positive: 12208, number of negative: 107261
[LightGBM] [Info] Total Bins 576654
[LightGBM] [Info] Number of data points in the train set: 119469, number of used features: 10945
[LightGBM] [Info] [binary:BoostFromScore]: pavg=0.102186 -> initscore=-2.173174
[LightGBM] [Info] Start training from score -2.173174
Метрика f1 на тестовой выборке =  0.71


#### Промежуточный итог

1. С помощью метрики **TF-IDF** векторизовали признаки
2. Обучили три модели и получили следующие значения метрик *f1*:
    * Логистическая регрессия - 0.75
    * Случайный лес - 0.0 (не понимаю почему)
    * LightGBM - 0.71
    
Лучший результат показала модель *Логистическая регрессия*, достигнув целевого значения 0.75.

## Итоговой вывод

1. Загрузили данные и подготовили данные:
    * убедились, что нет пропусков и дубликатов
    * лемматизировали данные
    * избавились от ненужных символов с помощью регулярного выражения
    * избавились от неинформативной колонки
2. Обучение моделей:
    * произвели эмбеддинг признаков с помощью готовой модели BERT, обучили модели и получили следующие значения метрики *f1*: 
        * Логическая регрессия - 0.63
        * Случайный лес - 0.24
        * LightGBM - 0.66
    * произвели векторизацию признаков с помощью метрики *TF-IDF*, обучили модели и получили следующие значения метрики *f1*: 
        * Логическая регрессия - 0.75
        * Случайный лес - 0.0 
        * LightGBM - 0.71
3. Лучше всего себя показала  модель логической регресии с векторизованными признаками  с помощью метрики *TF-IDF* (**f1=0.75**) попутно достигнув целевого значения 0.75.
    