<h1>Содержание<span class="tocSkip"></span></h1><br>
<div class="toc"><ul class="toc-item"><li><span><a href="#Подготовка" data-toc-modified-id="Подготовка-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Подготовка</a></span><ul class="toc-item"><li><span><a href="#Вывод" data-toc-modified-id="Вывод-1.1"><span class="toc-item-num">1.1&nbsp;&nbsp;</span>Вывод</a></span></li></ul></li><li><span><a href="#Обучение" data-toc-modified-id="Обучение-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Обучение</a></span><ul class="toc-item"><li><span><a href="#Вывод" data-toc-modified-id="Вывод-2.1"><span class="toc-item-num">2.1&nbsp;&nbsp;</span>Вывод</a></span></li></ul></li><li><span><a href="#Выводы" data-toc-modified-id="Выводы-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Выводы</a></span><ul class="toc-item"><li><span><a href="#Вывод" data-toc-modified-id="Вывод-3.1"><span class="toc-item-num">3.1&nbsp;&nbsp;</span>Вывод</a></span></li></ul></li><li><span><a href="#Чек-лист-проверки" data-toc-modified-id="Чек-лист-проверки-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Чек-лист проверки</a></span></li></ul></div>

# Проект для «Викишоп»

Интернет-магазин «Викишоп» запускает новый сервис. Теперь пользователи могут редактировать и дополнять описания товаров, как в вики-сообществах. То есть клиенты предлагают свои правки и комментируют изменения других. Магазину нужен инструмент, который будет искать токсичные комментарии и отправлять их на модерацию. 

Необходимо обучить модель классифицировать комментарии на позитивные и негативные. В нашем распоряжении набор данных с разметкой о токсичности правок.

Необходимо построить модель со значением метрики качества *F1* не меньше 0.75. 

**Инструкция по выполнению проекта**

1. Загрузите и подготовьте данные.
2. Обучите разные модели. 
3. Сделайте выводы.


**Описание данных**

Данные находятся в файле `toxic_comments.csv`. Столбец *text* в нём содержит текст комментария, а *toxic* — целевой признак.

## Подготовка

Импортируем необходимые библиотеки

In [2]:
import time
import pandas as pd
import numpy as np
import nltk
from sklearn.utils import shuffle
from nltk.corpus import stopwords as nltk_stopwords
from sklearn.feature_extraction.text import TfidfVectorizer 
from nltk.stem import WordNetLemmatizer
import re 
from sklearn.model_selection import KFold, RepeatedKFold, train_test_split, GridSearchCV, cross_val_score
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import f1_score
from sklearn.metrics import accuracy_score
from catboost import CatBoostClassifier
from catboost import cv, Pool
from sklearn.pipeline import make_pipeline, Pipeline 
from sklearn.dummy import DummyClassifier
import warnings
warnings.filterwarnings('ignore')

Загрузим и посмотрим данные

In [3]:
df = pd.read_csv('https://code.s3.yandex.net/datasets/toxic_comments.csv')

Проверим информацию о данных

In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 159292 entries, 0 to 159291
Data columns (total 3 columns):
 #   Column      Non-Null Count   Dtype 
---  ------      --------------   ----- 
 0   Unnamed: 0  159292 non-null  int64 
 1   text        159292 non-null  object
 2   toxic       159292 non-null  int64 
dtypes: int64(2), object(1)
memory usage: 3.6+ MB


Проверим баланс классов

In [5]:
df['toxic'].mean()

0.10161213369158527

Создадим функцию для лемматизации

In [6]:
def lemmatize(text):
    m = WordNetLemmatizer()
    l = m.lemmatize(text)
    return "".join(l)

Создадим функцию для очистки текста

In [7]:
def clear_text(text):
    clear_text = re.sub(r'[^a-zA-Z ]', ' ', text).split()
    clear_text = ' '.join(clear_text).lower()
    return(clear_text)

Загрузим список стоп-слов

In [8]:
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\yazev\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping corpora\stopwords.zip.


True

Сохраним английские стоп слова в переменной

In [9]:
stopwords = set(nltk_stopwords.words('english'))

Очистим текст от слишком коротких слов

In [10]:
df['text'] = df['text'].apply(clear_text)

Проверим наличие дубликатов

In [11]:
df.duplicated().sum()

0

Удалим полные дубликаты

In [12]:
df.drop_duplicates(inplace=True)
df.duplicated().sum()

0

Проведем лемматизацию

In [13]:
df['text'] = df['text'].apply(lemmatize)
df

LookupError: 
**********************************************************************
  Resource [93mwordnet[0m not found.
  Please use the NLTK Downloader to obtain the resource:

  [31m>>> import nltk
  >>> nltk.download('wordnet')
  [0m
  For more information see: https://www.nltk.org/data.html

  Attempted to load [93mcorpora/wordnet[0m

  Searched in:
    - 'C:\\Users\\yazev/nltk_data'
    - 'C:\\Program Files\\WindowsApps\\PythonSoftwareFoundation.Python.3.8_3.8.2800.0_x64__qbz5n2kfra8p0\\nltk_data'
    - 'C:\\Program Files\\WindowsApps\\PythonSoftwareFoundation.Python.3.8_3.8.2800.0_x64__qbz5n2kfra8p0\\share\\nltk_data'
    - 'C:\\Program Files\\WindowsApps\\PythonSoftwareFoundation.Python.3.8_3.8.2800.0_x64__qbz5n2kfra8p0\\lib\\nltk_data'
    - 'C:\\Users\\yazev\\AppData\\Roaming\\nltk_data'
    - 'C:\\nltk_data'
    - 'D:\\nltk_data'
    - 'E:\\nltk_data'
**********************************************************************


Разделим выборку на трэйн и тест

In [14]:
X_train, X_test, y_train, y_test = train_test_split(df['text'], 
                                                    df['toxic'], 
                                                    test_size=0.2, 
                                                    random_state=42)

Создадим корпус текстов 

In [15]:
corpus = X_train.values
corpus_test = X_test.values

 Создадим счётчик, указав в нём стоп-слова

Вычислим TF-IDF для корпуса текстов

In [16]:
nltk.download('stopwords')
stopwords = set(nltk_stopwords.words('english'))
count_tf_idf = TfidfVectorizer(stop_words=stopwords, min_df=10) 
tf_idf_train = count_tf_idf.fit_transform(corpus)
tf_idf_test = count_tf_idf.transform(corpus_test) 
print('Размер матрицы:', tf_idf_train.shape)

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\yazev\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


Размер матрицы: (127433, 19325)


### Вывод

1) В данных обноружен дисбаланс классов 1/9, но так как метрика F1 не чувствительна к диссбалансу классов, то upsampling и downsampling решено не проводить (они дали худший скор);\
2) Провели очистку и лемматизацию текста;\
3) Разделили данные на обучающую и тестовую выборки в соотношеннии 20/80;\
3) Вычеслили TF-IDF для корпусов текста.

## Обучение

Обучим модель LogisticRegression на обучающей выборке

In [21]:
%%time
results_cross_val = []
model = LogisticRegression()
start_time = time.time()
pipe = Pipeline([('prep', TfidfVectorizer(stop_words=stopwords, min_df=10)), ('est', model)])  
cv_score = cross_val_score(pipe, X_train, y_train, cv=2, scoring='f1').mean()    
elapsed_time = time.time() - start_time
results_cross_val.append({'model_name': model.__class__.__name__,
                          'cv_score': '%.2f' % cv_score,
                          'learn_time': '%.2f' % elapsed_time})

CPU times: total: 12.1 s
Wall time: 12.2 s


Обучим модель CatBoostClassifier на обучающей выборке

In [33]:
%%time
model = CatBoostClassifier(verbose=100)
start_time = time.time()
pipe = Pipeline([('prep', TfidfVectorizer(stop_words=stopwords, min_df=10)), ('est', model)])  
cv_score = cross_val_score(pipe, X_train, y_train, cv=2, scoring='f1').mean()    
elapsed_time = time.time() - start_time
results_cross_val.append({'model_name': model.__class__.__name__,
                          'cv_score': '%.2f' % cv_score,
                          'learn_time': '%.2f' % elapsed_time})

Learning rate set to 0.060722
0:	learn: 0.6314985	total: 631ms	remaining: 10m 30s
100:	learn: 0.1855206	total: 50.6s	remaining: 7m 30s
200:	learn: 0.1617758	total: 1m 39s	remaining: 6m 35s
300:	learn: 0.1472077	total: 2m 27s	remaining: 5m 43s
400:	learn: 0.1367898	total: 3m 16s	remaining: 4m 53s
500:	learn: 0.1293342	total: 4m 4s	remaining: 4m 3s
600:	learn: 0.1231639	total: 4m 53s	remaining: 3m 14s
700:	learn: 0.1177170	total: 5m 41s	remaining: 2m 25s
800:	learn: 0.1129551	total: 6m 30s	remaining: 1m 36s
900:	learn: 0.1086812	total: 7m 18s	remaining: 48.2s
999:	learn: 0.1054676	total: 8m 6s	remaining: 0us
Learning rate set to 0.060723
0:	learn: 0.6314876	total: 630ms	remaining: 10m 29s
100:	learn: 0.1877887	total: 49.1s	remaining: 7m 16s
200:	learn: 0.1641246	total: 1m 36s	remaining: 6m 24s
300:	learn: 0.1493393	total: 2m 24s	remaining: 5m 35s
400:	learn: 0.1391292	total: 3m 11s	remaining: 4m 46s
500:	learn: 0.1317789	total: 3m 59s	remaining: 3m 58s
600:	learn: 0.1253694	total: 4m 46s

Проверим результаты обучения моделей на кросс-валидации 

In [23]:
pd.DataFrame(results_cross_val).sort_values('cv_score')

Unnamed: 0,model_name,cv_score,learn_time
0,LogisticRegression,0.7,12.22
1,CatBoostClassifier,0.74,987.01


### Вывод

1) Обучили модели LogisticRegression и CatBoostClassifier на обучающей выборке;\
2) Модель LogisticRegression на кросс-валидации показала лучшее время 12.22 секунды, но худшую метрику F1 - 0.70;\
3) Модель CatBoostClassifier на кросс-валидации показала худшее время 987.01 секунды, но лучшую метрику F1 - 0.74;\
3) Сохранили лучшие параметры модели на кросс-валидации;

## Выводы

Обучим модель DummyClassifier 

In [24]:
results_test = []
dummy = DummyClassifier(strategy="most_frequent")
dummy.fit(tf_idf_train, y_train)
DummyClassifier()
predict = dummy.predict(tf_idf_test)
dummy_f1 = f1_score(y_test, predict)
dummy_accuracy= accuracy_score(y_test, predict)
results_test.append({'model_name': dummy.__class__.__name__,
                          'test_score_F1': '%.2f' % dummy_f1,
                          'test_score_accuracy': '%.2f' % dummy_accuracy})

Сделаем предсказание LogisticRegression на тестовых данных

In [38]:
model

<catboost.core.CatBoostClassifier at 0x2834e5953a0>

In [37]:
predict = model.predict(tf_idf_test)
f1_lr = f1_score(y_test, predict)
accuracy_lr = accuracy_score(y_test, predict)
results_test.append({'model_name': model.__class__.__name__,
                          'test_score_F1': '%.2f' % f1_lr,
                          'test_score_accuracy': '%.2f' % accuracy_lr})

CatBoostError: There is no trained model to use predict(). Use fit() to train model. Then use this method.

Сравним на тестовых данных DummyClassifier и LogisticRegression

Так как DummyClassifier предсказывает константу (0), то мерика F1 - 0, для сравнения качества модели LogisticRegression и DummyClassifier используем метрику accuracy

In [None]:
pd.DataFrame(results_test).sort_values('test_score_F1')

### Вывод

1) Модель LogisticRegression показала accuracy 0,96, что больше, чем модель DummyClassifier;\
2) Модель LogisticRegression на кросс-валидации показала лучшее время и лучшую метрику F1 - 0.77;\
3) Модель LogisticRegression имеет метрику F1 = 0.77 на тестовой выборке, что больше необходимой 0.75.