<h1>Содержание<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Подготовка" data-toc-modified-id="Подготовка-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Подготовка</a></span></li><li><span><a href="#Обучение" data-toc-modified-id="Обучение-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Обучение</a></span></li><li><span><a href="#Выводы" data-toc-modified-id="Выводы-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Выводы</a></span></li><li><span><a href="#Чек-лист-проверки" data-toc-modified-id="Чек-лист-проверки-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Чек-лист проверки</a></span></li></ul></div>

# Проект для «Викишоп»

Интернет-магазин «Викишоп» запускает новый сервис. Теперь пользователи могут редактировать и дополнять описания товаров, как в вики-сообществах. То есть клиенты предлагают свои правки и комментируют изменения других. Магазину нужен инструмент, который будет искать токсичные комментарии и отправлять их на модерацию. 

Обучите модель классифицировать комментарии на позитивные и негативные. В вашем распоряжении набор данных с разметкой о токсичности правок.

Постройте модель со значением метрики качества *F1* не меньше 0.75. 

**Инструкция по выполнению проекта**

1. Загрузите и подготовьте данные.
2. Обучите разные модели. 
3. Сделайте выводы.

Для выполнения проекта применять *BERT* необязательно, но вы можете попробовать.

**Описание данных**

Данные находятся в файле `toxic_comments.csv`. Столбец *text* в нём содержит текст комментария, а *toxic* — целевой признак.

In [18]:
pip install tqdm

Note: you may need to restart the kernel to use updated packages.


## Подготовка

In [19]:
import re
import numpy as np
import pandas as pd
import nltk

from tqdm import tqdm
from nltk.corpus import stopwords as nltk_stopwords
from nltk.stem import WordNetLemmatizer
from nltk.corpus import wordnet
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import f1_score
from sklearn.pipeline import Pipeline
from catboost import CatBoostClassifier

In [2]:
RANDOM_SEED = 12345

In [3]:
data = pd.read_csv('toxic_comments.csv', index_col=0)

In [4]:
data.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 159292 entries, 0 to 159450
Data columns (total 2 columns):
 #   Column  Non-Null Count   Dtype 
---  ------  --------------   ----- 
 0   text    159292 non-null  object
 1   toxic   159292 non-null  int64 
dtypes: int64(1), object(1)
memory usage: 3.6+ MB


In [5]:
data.head(10)

Unnamed: 0,text,toxic
0,Explanation\nWhy the edits made under my usern...,0
1,D'aww! He matches this background colour I'm s...,0
2,"Hey man, I'm really not trying to edit war. It...",0
3,"""\nMore\nI can't make any real suggestions on ...",0
4,"You, sir, are my hero. Any chance you remember...",0
5,"""\n\nCongratulations from me as well, use the ...",0
6,COCKSUCKER BEFORE YOU PISS AROUND ON MY WORK,1
7,Your vandalism to the Matt Shirvington article...,0
8,Sorry if the word 'nonsense' was offensive to ...,0
9,alignment on this subject and which are contra...,0


Загрузка данных и их проверка

In [6]:
def clear_the_text(text):
    text = re.sub(r"(?:\n|\r)", " ", text)
    text = re.sub(r"[^a-zA-Z ]+", "", text).strip()
    text = text.lower()
    return text

In [7]:
data['text'] = data['text'].apply(clear_the_text)

In [8]:
data['text'].head(5)

0    explanation why the edits made under my userna...
1    daww he matches this background colour im seem...
2    hey man im really not trying to edit war its j...
3    more i cant make any real suggestions on impro...
4    you sir are my hero any chance you remember wh...
Name: text, dtype: object

Избавился от лишних символов в тексте

In [9]:
nltk.download('wordnet')
nltk.download('averaged_perceptron_tagger')
nltk.download('omw-1.4')

[nltk_data] Downloading package wordnet to /home/jovyan/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /home/jovyan/nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!
[nltk_data] Downloading package omw-1.4 to /home/jovyan/nltk_data...
[nltk_data]   Package omw-1.4 is already up-to-date!


True

In [10]:
lemmatizer = WordNetLemmatizer()

In [11]:
corpus = data['text'].values

In [12]:
corpus

array(['explanation why the edits made under my username hardcore metallica fan were reverted they werent vandalisms just closure on some gas after i voted at new york dolls fac and please dont remove the template from the talk page since im retired now',
       'daww he matches this background colour im seemingly stuck with thanks  talk  january   utc',
       'hey man im really not trying to edit war its just that this guy is constantly removing relevant information and talking to me through edits instead of my talk page he seems to care more about the formatting than the actual info',
       ...,
       'spitzer   umm theres no actual article for prostitution ring   crunch captain',
       'and it looks like it was actually you who put on the speedy to have the first version deleted now that i look at it',
       'and  i really dont think you understand  i came here and my idea was bad right away  what kind of community goes you have bad ideas go away instead of helping rewrite them

In [13]:
def get_wordnet_pos(word):
    tag = nltk.pos_tag([word])[0][1][0].upper()
    tag_dict = {"J": wordnet.ADJ,
                "N": wordnet.NOUN,
                "V": wordnet.VERB,
                "R": wordnet.ADV}
    return tag_dict.get(tag, wordnet.NOUN)

In [14]:
def lemmatize_text(text):
    return " ".join([lemmatizer.lemmatize(w, get_wordnet_pos(w)) for w in text.split()])

In [21]:
tqdm.pandas()

In [22]:
data['text'] = data['text'].progress_apply(lemmatize_text)

100%|██████████| 159292/159292 [19:32<00:00, 135.84it/s]


Лемматизация текста

## Обучение

Как было сказано в предисловии, объема оперативной памяти может не хватить для выполнения проекта с BERT, поэтому для начала попробую использовать TF-IDF

In [47]:
nltk.download('stopwords')
stopwords = set(nltk_stopwords.words('english'))

[nltk_data] Downloading package stopwords to /home/jovyan/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [48]:
stopwords_list = list(stopwords)
count_tf_idf = TfidfVectorizer(stop_words=stopwords_list) 

Загрузка стоп-слов

In [49]:
X = data['text']
y = data['toxic'].values
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = RANDOM_SEED)

In [50]:
X_train.shape[0], X_test.shape[0]

(127433, 31859)

Разделение выборки на тренировочную и тестовую

In [51]:
tfidf_train = count_tf_idf.fit_transform(X_train)
tfidf_test = count_tf_idf.transform(X_test)

Вычисление TF-IDF

In [52]:
linear_model = LogisticRegression(max_iter=200, 
                                  random_state = RANDOM_SEED, 
                                  solver='liblinear', 
                                  class_weight='balanced',
                                  penalty='l2',
                                  C=4)

In [53]:
linear_grid_search = GridSearchCV(estimator=linear_model, param_grid={}, cv=3, scoring='f1')

In [54]:
%%time
linear_grid_search.fit(tfidf_train, y_train)

CPU times: user 39.9 s, sys: 37.6 s, total: 1min 17s
Wall time: 1min 17s


GridSearchCV(cv=3,
             estimator=LogisticRegression(C=4, class_weight='balanced',
                                          max_iter=200, random_state=12345,
                                          solver='liblinear'),
             param_grid={}, scoring='f1')

Для расчета использую линейную регрессию и кросс валидацию

In [55]:
print("Лучшее значение F1:", linear_grid_search.best_score_)

Лучшее значение F1: 0.7536743053632611


In [56]:
# catboost_param_grid = {
#     'learning_rate': [0.01, 0.1], 
#     'depth': [4, 6],  
#     'iterations': [100, 200] 
# }

In [57]:
# catboost_model = CatBoostClassifier(random_seed=RANDOM_SEED)

In [58]:
# catboost_grid_search = GridSearchCV(estimator=catboost_model, 
#                                     param_grid=catboost_param_grid, 
#                                     cv=3, 
#                                     scoring='f1', 
#                                     n_jobs=-1)

In [59]:
# %%time
# catboost_grid_search.fit(tfidf_train, y_train)

In [60]:
# print("Лучшее значение F1:", catboost_grid_search.best_score_)

Попытка проверить градиентный бустинг крашит ядро

In [61]:
best_linear = linear_grid_search.best_estimator_
pred = best_linear.predict(tfidf_test)

print("Значение F1 на тестовой выборке:", f1_score(y_test, pred))

Значение F1 на тестовой выборке: 0.7575503355704697


Проверка на тестовой выборке

## Выводы

В ходе выполнения проекта начальные тексты были очищены от ненужных символов и далее лемматизированны 

Была получена модель линейной регрессии, способная определять токсичность текстов с точностью 0,76 процентов, что является удовлетворительным значением для заказчика