# Проект для «Викишоп»

Интернет-магазин «Викишоп» запускает новый сервис. Теперь пользователи могут редактировать и дополнять описания товаров, как в вики-сообществах. То есть клиенты предлагают свои правки и комментируют изменения других. Магазину нужен инструмент, который будет искать токсичные комментарии и отправлять их на модерацию. 

Обучите модель классифицировать комментарии на позитивные и негативные. В вашем распоряжении набор данных с разметкой о токсичности правок.

Постройте модель со значением метрики качества *F1* не меньше 0.75. 

**Инструкция по выполнению проекта**

1. Загрузите и подготовьте данные.
2. Обучите разные модели. 
3. Сделайте выводы.

Для выполнения проекта применять *BERT* необязательно, но вы можете попробовать.

**Описание данных**

Данные находятся в файле `toxic_comments.csv`. Столбец *text* в нём содержит текст комментария, а *toxic* — целевой признак.

## Подготовка

In [1]:
# установка spaCy
# import sys
!{sys.executable} -m pip install spacy
#pip install spacy
!{sys.executable} -m spacy download en_core_web_sm

/bin/bash: {sys.executable}: command not found
/bin/bash: {sys.executable}: command not found


In [2]:
# импорт библиотек
import pandas as pd
import numpy as np
import re
import nltk
import time
import spacy

from nltk.corpus import stopwords as nltk_stopwords
from nltk.stem import WordNetLemmatizer
from nltk.tokenize import word_tokenize

from sklearn.feature_extraction.text import TfidfVectorizer, TfidfTransformer
from sklearn.pipeline import Pipeline

from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
#from sklearn.ensemble import RandomForestClassifier
from catboost import CatBoostClassifier

from sklearn.metrics import f1_score
from sklearn.model_selection import train_test_split, GridSearchCV, RandomizedSearchCV

import warnings
warnings.filterwarnings('ignore')

pd.options.mode.chained_assignment = None

import seaborn as sns
import os

2022-12-13 21:27:00.682916: I tensorflow/core/platform/cpu_feature_guard.cc:193] This TensorFlow binary is optimized with oneAPI Deep Neural Network Library (oneDNN) to use the following CPU instructions in performance-critical operations:  AVX2 FMA
To enable them in other operations, rebuild TensorFlow with the appropriate compiler flags.


In [3]:
# загрузка данных
if os.path.exists('/datasets/toxic_comments.csv'):
    data = pd.read_csv('/datasets/toxic_comments.csv')

else:
    data = pd.read_csv('/Users/olesya/datasets/toxic_comments.csv')

Загрузим данные и ознакомимся с ними.

In [4]:
data.info()
data.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 159571 entries, 0 to 159570
Data columns (total 2 columns):
 #   Column  Non-Null Count   Dtype 
---  ------  --------------   ----- 
 0   text    159571 non-null  object
 1   toxic   159571 non-null  int64 
dtypes: int64(1), object(1)
memory usage: 2.4+ MB


Unnamed: 0,text,toxic
0,Explanation\nWhy the edits made under my usern...,0
1,D'aww! He matches this background colour I'm s...,0
2,"Hey man, I'm really not trying to edit war. It...",0
3,"""\nMore\nI can't make any real suggestions on ...",0
4,"You, sir, are my hero. Any chance you remember...",0


Очистим текст от лишних символов. Оставим в датасете только регулярные выражения. Приведем текс к нижнему регистру.

In [5]:
# функция очистки текста методом re.sub()
def clear_text(text):
    sub = re.sub(r'[^a-z ]', ' ', text.lower())
    #sub_split = sub.split()
    new_text = " ".join(sub.split())
    return (new_text)

In [6]:
# очищение текста от лишних символов
data['clear_text'] = data['text'].apply(clear_text)

In [7]:
# проверка отработки метода
data.head()

Unnamed: 0,text,toxic,clear_text
0,Explanation\nWhy the edits made under my usern...,0,explanation why the edits made under my userna...
1,D'aww! He matches this background colour I'm s...,0,d aww he matches this background colour i m se...
2,"Hey man, I'm really not trying to edit war. It...",0,hey man i m really not trying to edit war it s...
3,"""\nMore\nI can't make any real suggestions on ...",0,more i can t make any real suggestions on impr...
4,"You, sir, are my hero. Any chance you remember...",0,you sir are my hero any chance you remember wh...


Загрузим базу стоп-слов английского языка

In [8]:
stopwords = set(nltk_stopwords.words('english'))

Теперь очистим текст от стоп слов

In [9]:
# функция очистки текста от стоп слов 
def remove_stop_words(text):
    tokenizer = nltk.RegexpTokenizer(r"\w+")
    tokens = tokenizer.tokenize(text)
    filtered_comment = " ".join([w for w in tokens if not w in stopwords])
    return filtered_comment

In [10]:
# замена столбца clear_text новыми значениями
data['clear_text'] = data['clear_text'].apply(remove_stop_words)

In [11]:
# проверка отработки метода
data.head()

Unnamed: 0,text,toxic,clear_text
0,Explanation\nWhy the edits made under my usern...,0,explanation edits made username hardcore metal...
1,D'aww! He matches this background colour I'm s...,0,aww matches background colour seemingly stuck ...
2,"Hey man, I'm really not trying to edit war. It...",0,hey man really trying edit war guy constantly ...
3,"""\nMore\nI can't make any real suggestions on ...",0,make real suggestions improvement wondered sec...
4,"You, sir, are my hero. Any chance you remember...",0,sir hero chance remember page


Реализуем лемматизацию с помощью пакета Spacy Lemmatizer

In [12]:
nlp = spacy.load('en_core_web_sm', disable=['parser', 'ner'])

In [13]:
# функция лемматизации способом spaCy
def lemmatize(text):
    sentence = nlp(text)
    lemm_text = " ".join([token.lemma_ for token in sentence])
    
    return lemm_text

In [14]:
%%time
data['lemm_text_spacy'] = data['clear_text'].apply(lemmatize)

CPU times: user 14min 36s, sys: 30.3 s, total: 15min 7s
Wall time: 15min 15s


In [15]:
data.head(10)

Unnamed: 0,text,toxic,clear_text,lemm_text_spacy
0,Explanation\nWhy the edits made under my usern...,0,explanation edits made username hardcore metal...,explanation edit make username hardcore metall...
1,D'aww! He matches this background colour I'm s...,0,aww matches background colour seemingly stuck ...,aww match background colour seemingly stick th...
2,"Hey man, I'm really not trying to edit war. It...",0,hey man really trying edit war guy constantly ...,hey man really try edit war guy constantly rem...
3,"""\nMore\nI can't make any real suggestions on ...",0,make real suggestions improvement wondered sec...,make real suggestion improvement wonder sectio...
4,"You, sir, are my hero. Any chance you remember...",0,sir hero chance remember page,sir hero chance remember page
5,"""\n\nCongratulations from me as well, use the ...",0,congratulations well use tools well talk,congratulation well use tool well talk
6,COCKSUCKER BEFORE YOU PISS AROUND ON MY WORK,1,cocksucker piss around work,cocksucker piss around work
7,Your vandalism to the Matt Shirvington article...,0,vandalism matt shirvington article reverted pl...,vandalism matt shirvington article revert plea...
8,Sorry if the word 'nonsense' was offensive to ...,0,sorry word nonsense offensive anyway intending...,sorry word nonsense offensive anyway intend wr...
9,alignment on this subject and which are contra...,0,alignment subject contrary dulithgow,alignment subject contrary dulithgow


Удалим лишние столбцы

In [17]:
# Удаление столбцов
data = data.drop(['text', 'clear_text'], axis=1)
data.head()

Unnamed: 0,toxic,lemm_text_spacy
0,0,explanation edit make username hardcore metall...
1,0,aww match background colour seemingly stick th...
2,0,hey man really try edit war guy constantly rem...
3,0,make real suggestion improvement wonder sectio...
4,0,sir hero chance remember page



Комментарии были очищены от стоп-слов и лишних символов, приведены к леммам, затем удалены ненужные столбцы. Теперь можно перейти к обучению.

## Обучение

Обучим модели и сравним значение метрики качества F1. Рассмотрим три модели с различными гиперпараметрами. 

- LogisticRegression
- DecisionTreeClassifier
- CatboostClassifier

In [18]:
# создание итоговой таблицы
results = pd.DataFrame(columns = ['model', 'F1 (train)'])

Разделим датасет на обучающую и тестовую выборки в пропорциях 70% и 30% соответственно

In [19]:
# деление данных на обучающую и тестовую выборки
train, test = train_test_split(data, test_size=0.30, random_state=12345)

Выделим признаки и целевой признак. Переменные для признаков преобразуем к нужному типу

In [20]:
# создание переменных для признаков и целевого признака
features_train = train['lemm_text_spacy']
target_train = train['toxic']
features_test = test['lemm_text_spacy']
target_test = test['toxic']

Вычислим TF-IDF для корпуса текста

In [24]:
count_tfidf = TfidfVectorizer()

In [27]:
# создание признаков и целевого признака
tfidf_train = count_tfidf.fit_transform(features_train) 
tfidf_test = count_tfidf.transform(features_test) 

print(tfidf_train.shape)
print(tfidf_test.shape)
print(target_train.shape)
print(target_test.shape)


(111699, 125205)
(47872, 125205)
(111699,)
(47872,)


In [28]:

pipe_lr = Pipeline(
    [
        ('vect', TfidfVectorizer()),
        # ('tfidf', TfidfTransformer()),
        ('clf', LogisticRegression(random_state=12345))
    ]
)


### LogisticRegression

In [29]:
param_lr = {'clf__class_weight':['balanced'],
            'clf__C':[10,100],
            'clf__solver':['liblinear'],
            'clf__max_iter':[50,100]}

In [30]:
# обучение модели
grid_lr = GridSearchCV(pipe_lr, param_grid=param_lr, scoring='f1', cv = 3, n_jobs=-1)

grid_lr.fit(features_train, target_train) # tfidf_train
#predict_train_lr = grid_lr.predict(tfidf_train)
print('Наилучшие гиперпараметры модели:', grid_lr.best_params_)

Наилучшие гиперпараметры модели: {'clf__C': 10, 'clf__class_weight': 'balanced', 'clf__max_iter': 50, 'clf__solver': 'liblinear'}


In [31]:
print('F1 метрика логистической регрессии на обучающей выборке =', grid_lr.best_score_)
#f1_lr = grid_lr.best_params_.round(2)
# расчет F1 меры для модели Логистическая регрессия
#print('F1 метрика логистической регрессии на обучающей выборке =', f1_lr)

# добавление результата в итоговую таблицу
results = results.append({'model': 'LogisticRegression', 'F1 (train)': grid_lr.best_score_.round(2)}, 
                         ignore_index=True)

F1 метрика логистической регрессии на обучающей выборке = 0.7613597648824619


### DecisionTreeClassifier

Используем RandomizedSearchCV для подбора гиперпараметров для модели Решающее дерево

In [32]:
pipe_tree = Pipeline(
    [
        #('vect', TfidfVectorizer())
        ('tfidf', TfidfTransformer()),
        ('clf', DecisionTreeClassifier(random_state=12345))
    ]
)

In [33]:
# диапоазон параметров для поиска наилучшего
params = {'clf__max_depth':np.arange(5,56,10),
          'clf__min_samples_leaf':np.arange(2,15,4)}

In [34]:
# поиск наилучших параметров
search = RandomizedSearchCV(estimator=pipe_tree, param_distributions=params, cv=3, 
                            scoring='f1')

In [35]:
%%time
search.fit(tfidf_train, target_train)
print('Наилучшие гиперпараметры модели:', search.best_estimator_)

Наилучшие гиперпараметры модели: Pipeline(steps=[('tfidf', TfidfTransformer()),
                ('clf',
                 DecisionTreeClassifier(max_depth=55, min_samples_leaf=10,
                                        random_state=12345))])
CPU times: user 11min 20s, sys: 4.23 s, total: 11min 25s
Wall time: 12min 14s


In [36]:
print('F1 метрика решающего дерева на обучающей выборке =', search.best_score_.round(2))

# добавление результата в итоговую таблицу
results = results.append({'model': 'DecisionTreeClassifier', 'F1 (train)': search.best_score_.round(2)}, 
                         ignore_index=True)

F1 метрика решающего дерева на обучающей выборке = 0.7


### CatBoostClassifier

In [37]:
cat = CatBoostClassifier(iterations=100)

In [38]:
# обучение модели
cat.fit(tfidf_train, target_train, verbose=False) 

predict_train_cat = cat.predict(tfidf_train)


In [39]:
f1_cat = f1_score(target_train, predict_train_cat).round(2)
print('F1 метрика CatBoostClassifier на обучающей выборке =', f1_cat)

# добавление результата в итоговую таблицу
results = results.append({'model': 'CatBoostClassifier', 'F1 (train)': f1_cat}, ignore_index=True)

F1 метрика CatBoostClassifier на обучающей выборке = 0.79


In [40]:
results

Unnamed: 0,model,F1 (train)
0,LogisticRegression,0.76
1,DecisionTreeClassifier,0.7
2,CatBoostClassifier,0.79


##  Тестирование

Проверим f1 метрики на тестовой выборке

In [41]:
# LogisticRegression
lr_test = LogisticRegression(C=10, class_weight='balanced', max_iter=50, solver='liblinear', 
                             random_state=12345)
lr_test.fit(tfidf_train, target_train)
predict_test_lr = lr_test.predict(tfidf_test)
# расчет F1 меры для модели Логистическая регрессия
f1_test_lr = f1_score(target_test, predict_test_lr).round(2)
print('F1 метрика логистической регрессии на тестовой выборке =', f1_test_lr)

F1 метрика логистической регрессии на тестовой выборке = 0.76


In [42]:
# DecisionTreeClassifier
tree_test = DecisionTreeClassifier(max_depth=45, min_samples_leaf=2, random_state=12345)
tree_test.fit(tfidf_train, target_train)
predict_test_tree = tree_test.predict(tfidf_test)
# расчет F1 меры для модели Решающее дерево
f1_test_tree = f1_score(target_test, predict_test_tree).round(2)
print('F1 метрика Решающее дерево на тестовой выборке =', f1_test_tree)

F1 метрика Решающее дерево на тестовой выборке = 0.7


In [43]:
# CatBoostClassifier
predict_test_cat = cat.predict(tfidf_test)
# расчет F1 меры для модели CatBoost
f1_test_cat = f1_score(target_test, predict_test_cat).round(2)
print('F1 метрика CatBoost на тестовой выборке =', f1_test_cat)

F1 метрика CatBoost на тестовой выборке = 0.76


In [44]:
# добавление результата в итоговую таблицу
results['F1_test'] = ['0,76', '0.70', '0.76']

## Выводы

In [45]:
results

Unnamed: 0,model,F1 (train),F1_test
0,LogisticRegression,0.76,76.0
1,DecisionTreeClassifier,0.7,0.7
2,CatBoostClassifier,0.79,0.76


Рассмотрели три модели для сравнения метрик.
  
На тестовой выборке значение F1 метрики (выше 0.75) достигло только у моделей LogisticRegression и CatBoostClassifier. Модель DecisionTreeClassifier совсем не справилась с поставленной задачей, даже с подбором наилучших гиперпарамтеров. Наилучший результат показала модель CatBoostClassifier.
