# Проект для Викишоп с BERT

## Описание проекта

Интернет-магазин «Викишоп» запускает новый сервис. Теперь пользователи могут редактировать и дополнять описания товаров, как в вики-сообществах. То есть клиенты предлагают свои правки и комментируют изменения других. Магазину нужен инструмент, который будет искать токсичные комментарии и отправлять их на модерацию.

Нужно обучить модель классифицировать комментарии на позитивные и негативные. Для обучения модели имеется набор данных с разметкой о токсичности правок.

Необходимо построить модель со значением метрики качества F1 не меньше 0.75.

Данные находятся в файле toxic_comments.csv. Столбец text в нём содержит текст комментария, а toxic — целевой признак.

Проект выполнен в google colab.

## Импорт библиотек

Импортируем необходимые библиотеки.

Комментарий студента:

Часть библиотек импортируется не в начале, а в теле работы. Я могу их перенести в начало по правилам оформления, но сейчас оставила так, чтобы понимать, какая библиотека для чего нужна.

In [122]:
! pip install nltk
! pip install catboost
! pip install transformers
!pip install datasets 
!pip install huggingface_hub
!apt-get install git-lfs
!pip install keras

import math
from pathlib import Path
import random
import warnings
warnings.filterwarnings('ignore')

import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
pd.set_option('display.float_format', '{:,.4f}'.format)
from scipy import stats
from sklearn.model_selection import train_test_split 
from sklearn.metrics import f1_score
from sklearn.utils import shuffle

import pickle
import torch
import tensorflow as tf
import transformers
from transformers import pipeline
from tqdm import notebook
import datasets
from datasets import load_dataset
from datasets import Dataset

In [125]:
!pip install keras==2.2.4
!pip install tensorflow==1.13.1
import keras

## Загрузка данных
Загрузим данные. 

Попробуем импортировать файл с Google Drive (так быстрей). Если не получится, то импортируем иначе.


Комментарий студента: 

Для импорта с Google Drive нужно иметь файл в своем Google Drive и предоставить ноутбуку доступ к нему. Этот способ значительно быстрей всех остальных. 

Если не получается импортировать с гугл драйва, можно сделать прямой импорт в колаб с жесткого диска компьютера - эта опция запускается следующей по очереди в ячейке №5. 

На всякий случай в ячейке также прописаны опции с импортом из локального файла для jupyter notebook и из /datasets/toxic_comments.csv в яндекс окружении.


In [61]:
# libraries for the files in google drive
from pydrive.auth import GoogleAuth
from google.colab import drive
from pydrive.drive import GoogleDrive
from google.colab import auth
from oauth2client.client import GoogleCredentials

In [104]:
auth.authenticate_user()
gauth = GoogleAuth()
gauth.credentials = GoogleCredentials.get_application_default()
drive = GoogleDrive(gauth)

file_id = '1gmYkEjHFO2qX9PkfNKlW9dlg2jqkVG4U'


download = drive.CreateFile({'id': file_id})


# Download the file to a local colab disc
download.GetContentFile('file.csv')
df  = pd.read_csv("file.csv")
df.head()

In [63]:
# Here we check that df is loaded and try other options if it's not loaded
try:
    df
except:
    try:
        from google.colab import files
        uploaded = files.upload()
        df = pd.read_csv('toxic_comments.csv')
    except:
        try:
            my_path = Path('/home/klarazetkin/Documents/yandex/module_5/project_2')
            file_name = str(my_path) + '/' + 'toxic_comments.csv'
            df = pd.read_csv(file_name, index_col=[0])
        except:
            df = pd.read_csv('/datasets/toxic_comments.csv')


In [64]:
print(df.shape)
print()
print(df.info())
print()
df.head(100)

In [65]:
df = df.drop('Unnamed: 0', axis=1)

In [66]:
print(df['toxic'].value_counts())
print()
print('Положительный класс:', round(df[df['toxic'] == 1]['toxic'].count() / len(df) * 100), '%')

Вывод по импорту датасета: 

Датасет содержит 159292 строк и три колонки, одна из них неинформативная - дропнем ее. Обучающий признак в колонке 'text', он преставляет собой текст твита. Целевой признак - в колонке 'toxic', он содержит маркер токсичности текста (1 или 0).

Типы данных соответствуют содержимому колонки.

В датасете сильный дисбаланс классов, положительный (токсичный) класс - 10%. 

Попробуем использовать модели без учета дисбаланса классов, однако будем иметь его в виду.


## Создание датасетов для обучения, валидации и тестирования моделей

Сформируем датасеты для обучения, валидации и тестирования моделей. Датасеты сформируем из импортированного ранее pandas датафрейма.

In [67]:
# from datasets import Dataset
dataset = Dataset.from_dict(df)
dataset

In [68]:
dataset = dataset.rename_column('toxic', 'label')
dataset

In [69]:
# Create a smaller training dataset for faster training
# without respect to class disbalance
small_train_dataset = dataset.shuffle(seed=666).select([i for i in list(range(3000))])
small_valid_dataset = dataset.shuffle(seed=666).select([i for i in list(range(3000, 4000))])
small_test_dataset = dataset.shuffle(seed=666).select([i for i in list(range(4000, 4500))])
print(small_train_dataset)
print(small_valid_dataset)
print(small_test_dataset)


## BERT "из коробки"

Попробуем запустить модель DistilBert через пайплан и предсказать результат без дообучения. Результат исключительно плохой, f1_score = 0.19. Уверенность модели в предсказаниях низкая, среднее значение score = 0.51, то есть модель совершенно не уверена в предсказаниях.

In [70]:
from transformers import pipeline

In [124]:
classificator = pipeline(task='sentiment-analysis', model='distilbert-base-uncased', truncation=True) 

In [73]:
raw_features_valid = small_valid_dataset['text']
raw_target_valid = small_valid_dataset['label']

In [74]:
type(raw_features_valid)

In [75]:
raw_predictions = classificator(raw_features_valid)

In [164]:
# function to get numeric predictions like [1, 0, 1, 0...]
def replacer(line):

    if line['label'] == 'LABEL_1':
        new = 1
    else:
        new = 0
    
    return new

predictions = list(map(replacer, raw_predictions))

In [77]:
bert_predictions_df = pd.DataFrame(raw_predictions)
bert_predictions_df['score'].describe()

In [78]:
bert_predictions_df.head()

In [79]:
bert_predictions_df['predictions'] = predictions

In [80]:
bert_f1_score = f1_score(raw_target_valid, predictions)
bert_f1_score

In [81]:
bert_predictions_df.head(20)

Проверим bias - насколько модель занижает или завышает предсказания относительно таргета. Модель несколько завышает предсказания. 

Комментарий студента:

Модель каждый раз предсказывает немного по-разному, хотя результат всегда низкий. Bias, возможно, здесь недостаточно показательный?

In [82]:
def bias(y_pred, y_true): 
    return sum(y_pred - y_true) / sum(y_true)

In [86]:
print(bias(pd.Series(predictions), pd.Series(raw_target_valid)))

Попробуем сдвинуть границу для label = 1 в зависимости от score - степени "уверенности" модели в ответе. Для этого напишем функцию score_one(), которая пересчитает score в вероятность положительного ответа. А также напишем функцию, которая будет определять предсказание в зависимости от score_one. Сделаем с ее помощью новые предсказания и вычислим для них f1_score.

In [87]:
# function to define score as probability of label = 1
def score_one(predictions, score):
    if predictions == 1:
        score_one_value = score
    elif predictions == 0:
        score_one_value = 1 - score
    else:
        score_one_value = null

    return score_one_value


In [88]:
bert_predictions_df['score_one'] = list(map(score_one, bert_predictions_df['predictions'], bert_predictions_df['score']))

bert_predictions_df.head()

In [89]:
# function to define numeric predictions with respect to the score_one
def label_with_threshold(score_one_value):    
    if score_one_value <= threshold:
        label_with_threshold = 0
    else:
        label_with_threshold = 1
        
    return label_with_threshold


In [90]:
bert_predictions_df.describe()

In [91]:
# add labels with respect to the score threshold 
for threshold in np.arange(0.4, 0.6, 0.02):
    bert_predictions_df['threshold_{}'.format(round(threshold, 2))] = list(map(label_with_threshold, bert_predictions_df['score_one']))

In [92]:
bert_predictions_df.head()

Проверим, возможно, где-то стал выше f1_score.


In [94]:
for threshold in np.arange(0.4, 0.6, 0.02):
    predictions = bert_predictions_df['threshold_{}'.format(round(threshold, 2))]
    print('threshold_{}'.format(round(threshold, 2)))
    print(f1_score(raw_target_valid, predictions))
    print()

In [96]:
max_f1_bert = 0.1949

Вывод по DistilBert без дообучения:

Если использовать дефолтный лэйбл, то f1_score = 0.1. Если поподбирать границу на основании score, то результат можно незначительно повысить до f1_score = 0.1949. Результат все равно неприемлемый.


## Дообучение DistilBERT

Сделаем попытку дообучить DistilBERT. Для этого используем встроенные инструменты huggingface.

Комментарий студента:

Мне повезло найти очень похожую инструкцию, которой я и пользовалась в процессе.

In [97]:
from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("distilbert-base-uncased")

In [98]:
# Prepare the text inputs for the model
def preprocess_function(examples):
    return tokenizer(examples["text"], truncation=True)

tokenized_train = small_train_dataset.map(preprocess_function, batched=True)
tokenized_valid = small_valid_dataset.map(preprocess_function, batched=True)
tokenized_test = small_test_dataset.map(preprocess_function, batched=True)

In [99]:
# Use data_collector to convert our samples to PyTorch tensors and concatenate them with the correct amount of padding
from transformers import DataCollatorWithPadding
data_collator = DataCollatorWithPadding(tokenizer=tokenizer)

In [100]:
# Define DistilBERT as our base model:
from transformers import AutoModelForSequenceClassification
model = AutoModelForSequenceClassification.from_pretrained("distilbert-base-uncased", num_labels=2)

In [101]:
# Define the evaluation metrics 
from datasets import load_metric

def compute_metrics(eval_pred):
    load_accuracy = load_metric("accuracy")
    load_f1 = load_metric("f1")
    
    logits, labels = eval_pred
    predictions = np.argmax(logits, axis=-1)
    accuracy = load_accuracy.compute(predictions=predictions, references=labels)["accuracy"]
    f1 = load_f1.compute(predictions=predictions, references=labels)["f1"]
    return {"accuracy": accuracy, "f1": f1}

Здесь потребуется залогиниться в аккаунт на huggingface, чтобы сохранить предобученную модель.

In [102]:
# Log in to your Hugging Face account 
# Get your API token here https://huggingface.co/settings/token
# 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 - is my token
from huggingface_hub import notebook_login

notebook_login()

Определяем аргументы для обучения, обучаем модель, оцениваем ее результат.

In [126]:
# Define a new Trainer with all the objects constructed
from transformers import TrainingArguments, Trainer

repo_name = "finetuning-sentiment-model-3000-samples"

training_args = TrainingArguments(
    output_dir=repo_name,
    learning_rate=2e-5,
    per_device_train_batch_size=16,
    per_device_eval_batch_size=16,
    num_train_epochs=2,
    weight_decay=0.01,
    save_strategy="epoch", 
    push_to_hub=True,
    seed=666,
)

trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=tokenized_train,
    eval_dataset=tokenized_test,
    tokenizer=tokenizer,
    data_collator=data_collator,
    compute_metrics=compute_metrics,
)

TypeError: ignored

In [59]:
# Train the model
trainer.train()

NameError: ignored

In [145]:
# Compute the evaluation metrics
trainer.evaluate()

Сохраняем обученную модель на huggingface.

In [146]:
# Upload the model to the Hub
trainer.push_to_hub()

Делаем предсказания на валидационном датасете с помощью обученной модели.

In [106]:
# Predict with your new model using Pipeline
from transformers import pipeline

sentiment_model = pipeline(model="klarazetkin/finetuning-sentiment-model-3000-samples")

sentiment_model(["I love to go in for shopping", "These malls totally suck!"])

In [107]:
raw_predictions_better = sentiment_model(small_valid_dataset['text'], truncation=True)

In [127]:
predictions_better = list(map(replacer, raw_predictions_better))

Проверим bias модели: модель слегка занижает результат.

In [128]:
# Check bias
print(bias(pd.Series(predictions_better), pd.Series(small_valid_dataset['label'])))

In [129]:
# Check f1_score
better_f1_score = f1_score(small_valid_dataset['label'], predictions_better)

In [130]:
better_f1_score

Получили f1_score = 0.7928 на валидации. Попробуем улучшить результат без пере- и дообучения модели. 

Преобразуем предсказания в датафрейм. Видим, что средний score (уверенность модели в предсказании) значительно увеличилась и стала 0.9835. Попробуем подобрать лучший порог перебором.

Комментарий студента: 

Есть сомнения, имеет ли вообще смысл этот перебор и стоит его делать просто по score или по score_one (вероятность label = 1). Как правильно?

In [131]:
better_predictions_df = pd.DataFrame(raw_predictions_better)
better_predictions_df['score'].describe()

In [132]:
better_predictions_df.head()

In [133]:
better_predictions_df['predictions'] = predictions_better

In [134]:
better_predictions_df.head()

In [135]:
better_predictions_df['score_one'] = list(map(score_one, better_predictions_df['predictions'], better_predictions_df['score']))

In [136]:
better_predictions_df.describe()

In [137]:
# add labels with respect to the score threshold 
for threshold in np.arange(0.05, 1.0, 0.05):
    better_predictions_df['threshold_{}'.format(round(threshold, 2))] = list(map(label_with_threshold, better_predictions_df['score_one']))

In [138]:
better_predictions_df.head()

In [139]:
for threshold in np.arange(0.05, 1.0, 0.05):
    predictions = better_predictions_df['threshold_{}'.format(round(threshold, 2))]
    print('threshold_{}'.format(round(threshold, 2)))
    print(f1_score(small_valid_dataset['label'], predictions))
    print()

In [140]:
max_f1_better = 0.8

Перебор порога на валидации показал, что лучший f1_score = 0.8 будет, если сместить границу для определения label = 1 на score_one = 0.35.

## ToxicBERT без дообучения
Попробуем ToxicBERT. 

Для задачи в принципе подходят все три модели: 'multilingual' (хотя другие языки, кроме английского, для данного датасета бесполезны), 'unbiased' и 'original'. На выходе моделей видим разный набор лэйблов, которые соответствуют вариантам токсичности.

Остановимся на модели 'original'.

К сожалению, сделать с ее помощью предсказания на датасете в 1000 записей не получилось ни локально, ни на гугл колабе с платным тарифом ("ускоритель за десять баксов"). Поэтому для пробы взят был срез на 20 записей из валидационного датасета.

In [13]:
!pip install detoxify
from detoxify import Detoxify

In [3]:
# try models on sample texts
results_original = Detoxify('original').predict('some text')
print(results_original)

results_unbiased = Detoxify('unbiased').predict(['example text 1','example text 2'])
print(results_unbiased)

In [29]:
raw_features_valid = small_valid_dataset['text'][:20]
raw_target_valid = small_valid_dataset['label'][:20]

In [16]:
type(raw_features_valid)
len(raw_features_valid)

In [17]:
predictions_toxic = Detoxify('original').predict(raw_features_valid)

In [23]:
print(type(predictions_toxic))
print(predictions_toxic.keys())
type(predictions_toxic['toxicity'])

Пока для теста определим итоговую токсичность как сумму всех возможных лейблов. Сочтем, что это и есть вероятность, что комментарий токсичный (то есть score_one).

In [28]:
new_toxic_predictions = []
for i in range(len(predictions_toxic['toxicity'])):
  new_prediction = (predictions_toxic['toxicity'][i] + 
                    predictions_toxic['severe_toxicity'][i] +
                    predictions_toxic['obscene'][i] +
                    predictions_toxic['threat'][i] + 
                    predictions_toxic['insult'][i] +
                    predictions_toxic['identity_attack'][i])
  
  print(new_prediction)
  new_toxic_predictions.append(new_prediction)

In [33]:
toxic_predictions_df = pd.DataFrame(data={'score_one': new_toxic_predictions})
toxic_predictions_df.head()

In [34]:
toxic_predictions_df.describe()

Попробуем подобрать порог для определения границы положительного и отрицательного класса.

In [37]:
# add labels with respect to the score threshold 
for threshold in np.arange(0.05, 1.0, 0.05):
    toxic_predictions_df['threshold_{}'.format(round(threshold, 2))] = list(map(label_with_threshold, toxic_predictions_df['score_one']))

In [40]:
toxic_predictions_df.head(20)

In [42]:
raw_target_valid

In [39]:
for threshold in np.arange(0.05, 1.0, 0.05):
    predictions = toxic_predictions_df['threshold_{}'.format(round(threshold, 2))]
    print('threshold_{}'.format(round(threshold, 2)))
    print(f1_score(raw_target_valid, predictions))
    print()

In [46]:
max_f1_toxic = 1.0

На валидационном датасете из 20 записей результат получился неплохой: попадание 20 из 20 при пороге ниже 0.2. Максимальный f1_score = 1.0, однако делать выводы на основании датасета из 20 записей нельзя. 

Вывод по ToxicBERT:

С этой моделью получен самый высокий f1_score, однако чтоб сделать вывод о пригодности этой модели без дообучения для решения поставленной задачи, нужно провести эксперимент на валидационном датасете достаточного размера.

## Выбор лучшей модели

Были испробованы три модели: BERT без дообучения, BERT c дообучением на датасете заказчика и ToxicBERT, специально обученная на большом датасете с похожей задачей. 

На валидационной выборке модели показали следующий результат:

In [47]:
data = {'model': ['BERT', 'BERT better', 'ToxicBERT'],
        'f1_score': [max_f1_bert, max_f1_better, max_f1_toxic]}
result = pd.DataFrame(data)
result

Оптимальным выглядит результат ToxicBERT, однако он получен на нерепрезентативном валидационном датасете (модель слишком ресурсоемкая, не удалось запустить на датасете большего размера).

Поэтому в качестве лучшей модели выберем модель BERT, дообученную на датасете заказчика.

Проверим ее на тестовой выборке. Метрика f1_score на тестовой выборке - 0.785

In [160]:
test_predictions = sentiment_model(small_test_dataset['text'], truncation=True)

In [171]:
predictions = list(map(replacer, test_predictions))

In [174]:
best_model_test_f1_score = f1_score(small_test_dataset['label'], predictions)
best_model_test_f1_score

## Вывод по проекту
### Постановка задачи
Проект создан в интересах Викишоп; цель работы - разработать модель, способную определять негативные комментарии в описании продукта.

Ключевая метрика качества предсказания модели - f1_score - среднегармоническое полноты и точности. Задача достичь f1_score не ниже 0.75.

### Исходный датасет
Датасет для обучения модели был предоставлен Викишоп. Исходный датасет содержит 159292 строк и две информативные колонки. В их числе колонка 'text', которая содержит обучающий признак - он преставляет собой текст твита. Целевой признак находится в колонке 'toxic', он содержит маркер токсичности текста (1 или 0).

Типы данных соответствуют содержимому колонок. Датасет пригоден к дальнейшей работе.

В датасете сильный дисбаланс классов, положительный (токсичный) класс - 10%.

В ходе работы датасет был использован без учета дисбаланса классов, однако, если его учесть, возможно удастся повысить метрику модели.

### Обучение моделей
Были испробованы три модели: BERT без дообучения, BERT c дообучением на датасете заказчика и ToxicBERT, специально обученная на большом датасете с похожей задачей.

На валидационной выборке модели показали следующий результат:



In [175]:
result

#### DistilBERT без дообучения
Модель DistilBERT без дообучения показала плохой результат. Качество предсказаний модели через pipeline на валидации имеет f1_score = 0.1.

При подборе порога для положительного класса удается достичь f1_score = 0.1945 или 0.2525, однако эти значения неприемлемо низкие. 

Без дообучения модель DistilBERT не пригодна для решения задачи.


#### DistilBERT, обученная на предоставленном датасете
Поскольку модель в исходном виде имеет крайне низкое качество предсказаний, была предпринята попытка дообучить модель на датасете заказчика. 

Для этого из исходного датасета были выделены обучающий и тестовый датасеты размером 3000 и 500 записей соответственно. Датасеты были сформированы без учета дисбаланса классов.

Модель была обучена на тренировочном датасете в течение двух эпох с learning_rate = 2e-5. 

Обученная модель была сохранена в личном аккаунте на huggingface.co . В ходе создания датасетов, обучения модели и предсказаний были использованы высокоуровневые инструменты huggingface.co .

Предсказания дообученной модели имеют ключевую метрику f1_score = 0.79, что значительно выше, чем метрика модели "из коробки", и соответствует условию задания.

#### ToxicBERT
Была также опробована модель ToxicBERT original, разработанная на основе BERT и обученная на большом датасете специально для задачи определения токсичных комментариев. К сожалению, модель очень ресурсозатратная, опробовать ее на репрезентативном валидационном датасете не получилось. 

На валидационном датасете из 20 записей результат получился хороший: попадание 20 из 20 при пороге ниже 0.2. Максимальный f1_score = 1.0, однако делать выводы на основании датасета из 20 записей нельзя.

С этой моделью получен самый высокий f1_score, однако чтоб сделать вывод о пригодности этой модели без дообучения для решения поставленной задачи, нужно провести эксперимент на валидационном датасете достаточного размера.

### Выбор лучшей модели
Оптимальным выглядит результат ToxicBERT, однако он получен на нерепрезентативном валидационном датасете (модель слишком ресурсоемкая, не удалось запустить на датасете большего размера).

Поэтому в качестве лучшей модели выберем модель BERT, дообученную на датасете заказчика.

На тестовой выборк метрика f1_score лучшей модели - 0.785

### Вывод и дальнейшие рекомендации
Модель DistilBERT, дообученная на датасете заказчика, показала приемлемый результат работы. Она рекомендована к дальнейшей доработке. 

Можно попробовать обучить ее на датасете большего размера, в течение большего количества эпох. Кроме того, можно попробовать учесть дисбаланс классов при формировании обучающего датасета, доведя долю положительного класса примерно до половины.

Кроме этого имеет смысл привлечь больше ресурсов и провести более детальный эксперимент с моделями ToxicBERT - возможно, этот вариант окажется более оптимальным.
