<h1>Содержание<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Подготовка" data-toc-modified-id="Подготовка-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Подготовка</a></span></li><li><span><a href="#Обучение" data-toc-modified-id="Обучение-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Обучение</a></span></li><li><span><a href="#Тестирование-лучшей-модели" data-toc-modified-id="Тестирование-лучшей-модели-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Тестирование лучшей модели</a></span></li><li><span><a href="#Выводы" data-toc-modified-id="Выводы-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Выводы</a></span></li><li><span><a href="#Чек-лист-проверки" data-toc-modified-id="Чек-лист-проверки-5"><span class="toc-item-num">5&nbsp;&nbsp;</span>Чек-лист проверки</a></span></li></ul></div>

# Проект для «Викишоп»

Интернет-магазин «Викишоп» запускает новый сервис. Теперь пользователи могут редактировать и дополнять описания товаров, как в вики-сообществах. То есть клиенты предлагают свои правки и комментируют изменения других. Магазину нужен инструмент, который будет искать токсичные комментарии и отправлять их на модерацию. 

Обучите модель классифицировать комментарии на позитивные и негативные. В вашем распоряжении набор данных с разметкой о токсичности правок.

Постройте модель со значением метрики качества *F1* не меньше 0.75. 

**Инструкция по выполнению проекта**

1. Загрузите и подготовьте данные.
2. Обучите разные модели. 
3. Сделайте выводы.

Для выполнения проекта применять *BERT* необязательно, но вы можете попробовать.

**Описание данных**

Данные находятся в файле `toxic_comments.csv`. Столбец *text* в нём содержит текст комментария, а *toxic* — целевой признак.

________

Перед нами стоит задача построения модели машинного обучения, которая будет искать токсичные комментарии и отправлять их на модерацию. Основные требования к модели машинного обучения: метрика качества F1 не меньше 0.75..

Для обучения предоставленны выбока с комментариями с разметкой токсичен или нет комментарий. Перед исследованием проведем лемматизацию предоставленных данных, и проверим на дубликаты.

Для иследования будем использовать 3 модели машинного обучения(1 линейную, 1 ансамблевую и 1 градентного бустинга): LogisticRegression, CatBoostClassificator, и RandomForesClassificator. Для каждой модели подберем не менее трех гиперпараметров с помощью кроссвалидации через GridSearch. Обученные модели с подобранными гиперпараметры сравним между собой и с Dummy моделью.

Итогом исследования будет являться модель с наилучшими показателями точности предсказания.

## Подготовка

Подключим библиотеки необходимые в исследовании

In [1]:
import pandas as pd
import numpy as np

import re
import nltk
nltk.download('stopwords')
nltk.download('wordnet')
nltk.download('omw-1.4')
nltk.download('punkt')
nltk.download('averaged_perceptron_tagger')
from nltk.corpus import stopwords as nltk_stopwords
from nltk.stem import WordNetLemmatizer
from nltk.corpus import wordnet

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from catboost import CatBoostClassifier
from sklearn.dummy import DummyClassifier

from sklearn.pipeline import Pipeline
from sklearn.model_selection import train_test_split, cross_validate, GridSearchCV
from sklearn.metrics import f1_score

from sklearn.utils import shuffle

[nltk_data] Downloading package stopwords to /Users/rndmz/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package wordnet to /Users/rndmz/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package omw-1.4 to /Users/rndmz/nltk_data...
[nltk_data]   Package omw-1.4 is already up-to-date!
[nltk_data] Downloading package punkt to /Users/rndmz/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /Users/rndmz/nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!


Загрузим файл с данными.

In [2]:
file = '/datasets/toxic_comments.csv'
try:
    data = pd.read_csv(file)
    print('Файл из директории', file, 'загружен')
except Exception as e:
    print('При загрузке файла', file, 'произошел сбой.\nОшибка:', e)

Файл из директории toxic_comments.csv загружен


Выведем первые 5 строк датафрейма и суммарную информацию о нем.

In [3]:
data.head()

Unnamed: 0.1,Unnamed: 0,text,toxic
0,0,Explanation\nWhy the edits made under my usern...,0
1,1,D'aww! He matches this background colour I'm s...,0
2,2,"Hey man, I'm really not trying to edit war. It...",0
3,3,"""\nMore\nI can't make any real suggestions on ...",0
4,4,"You, sir, are my hero. Any chance you remember...",0


In [4]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 159292 entries, 0 to 159291
Data columns (total 3 columns):
 #   Column      Non-Null Count   Dtype 
---  ------      --------------   ----- 
 0   Unnamed: 0  159292 non-null  int64 
 1   text        159292 non-null  object
 2   toxic       159292 non-null  int64 
dtypes: int64(2), object(1)
memory usage: 3.6+ MB


В датафрейме 3 столбца: Unnamed: 0 - дублирует индекс(можно удалить), столбце с тексом(обучающие данные) и целевой стобец. В датафрейме пропусков нет.

Проверим значения в целевом столбце.

In [5]:
data['toxic'].value_counts()

0    143106
1     16186
Name: toxic, dtype: int64

In [6]:
data['toxic'].value_counts()[0]/data['toxic'].value_counts()[1]

8.841344371679229

Наблюдается дисбаланс классов. Записей класса 'не токчиный' больше в 8.8 раз чем класса 'токсичный'. 

Выведем полностью первые 5 комментариев 

In [7]:
print('\n', data['text'][0])
print('\n', data['text'][1])
print('\n', data['text'][2])
print('\n', data['text'][3])
print('\n', data['text'][4])


 Explanation
Why the edits made under my username Hardcore Metallica Fan were reverted? They weren't vandalisms, just closure on some GAs after I voted at New York Dolls FAC. And please don't remove the template from the talk page since I'm retired now.89.205.38.27

 D'aww! He matches this background colour I'm seemingly stuck with. Thanks.  (talk) 21:51, January 11, 2016 (UTC)

 Hey man, I'm really not trying to edit war. It's just that this guy is constantly removing relevant information and talking to me through edits instead of my talk page. He seems to care more about the formatting than the actual info.

 "
More
I can't make any real suggestions on improvement - I wondered if the section statistics should be later on, or a subsection of ""types of accidents""  -I think the references may need tidying so that they are all in the exact same format ie date format etc. I can do that later on, if no-one else does first - if you have any preferences for formatting style on references 

В тексте присутствуют знаки пунктуации, спец символы и цифры, перед лемматизацией удалим все символы кроме латиницы и апострофа '. Проведем лемматизацию полученного текста.

In [8]:
data['text'] = data['text'].values.astype('U')

lemmatizer = WordNetLemmatizer()

def get_wordnet_pos(word):
    tag = nltk.pos_tag([word])[0][1][0].upper()
    tag_dict = {"J": wordnet.ADJ,
                "N": wordnet.NOUN,
                "V": wordnet.VERB,
                "R": wordnet.ADV}
    return tag_dict.get(tag, wordnet.NOUN)

def cleaning(text):
    text = re.sub(r"[0-9]", "", text)
    text = re.sub(r"[\.,!\?\";:\t\n\r\(\)#\-_]", " ", text).lower()
    lemmatized_output = ' '.join([lemmatizer.lemmatize(w, get_wordnet_pos(w)) for w in nltk.word_tokenize(text)])
    return lemmatized_output

data['text'] = data['text'].apply(cleaning)

Выведем для проверки 5 первых комментариев.

In [9]:
print('\n', data['text'][0])
print('\n', data['text'][1])
print('\n', data['text'][2])
print('\n', data['text'][3])
print('\n', data['text'][4])


 explanation why the edits make under my username hardcore metallica fan be revert they be n't vandalism just closure on some gas after i vote at new york doll fac and please do n't remove the template from the talk page since i 'm retire now

 d'aww he match this background colour i 'm seemingly stuck with thanks talk january utc

 hey man i 'm really not try to edit war it 's just that this guy be constantly remove relevant information and talk to me through edits instead of my talk page he seem to care more about the format than the actual info

 more i ca n't make any real suggestion on improvement i wonder if the section statistic should be later on or a subsection of type of accident i think the reference may need tidy so that they be all in the exact same format ie date format etc i can do that later on if no one else do first if you have any preference for format style on reference or want to do it yourself please let me know there appear to be a backlog on article for review 

Проверим дубликаты в полученном тексте.

In [10]:
data['text'].duplicated().sum()

1006

In [12]:
data[data['text'].duplicated()].head(10)

Unnamed: 0.1,Unnamed: 0,text,toxic
1564,1564,july utc,0
2020,2020,july utc,0
2828,2828,july utc,0
5703,5703,every other press agency say the crowd be chan...,1
6289,6293,,0
7179,7187,— precede unsigned comment add by talk • contribs,0
7436,7448,request for comment there be an rfc on the que...,0
8439,8451,july utc,0
8590,8602,fuck you smith please have me notify when you ...,1
8925,8938,her poop pee toot fart gas diareah zoey be poo...,1


In [13]:
print('Начальный размер выборки:', data.shape[0])
starting_shape = data.shape[0]
data = data.drop_duplicates(subset=['text']).reset_index(drop=True)
print('Размер выборки после удаления дубликатов: {}, удалено: {}'.format(data.shape[0], starting_shape-data.shape[0]))

Начальный размер выборки: 159292
Размер выборки после удаления дубликатов: 158286, удалено: 1006


## Обучение

Выделим обучающие признаки и целевой признак.

In [14]:
target=data['toxic']
features = data['text']


Проведем разбиение выборки на обучающую и тестовую.

In [15]:
features_train, features_test, target_train, target_test = train_test_split(features, target, test_size =0.2, stratify=target, random_state = 12345)


Проведем TF-IDF на полученных выборках. 

In [16]:
stopwords = set(nltk_stopwords.words('english'))

In [17]:
count_tf_idf = TfidfVectorizer(stop_words=stopwords)
features_train_transformed = count_tf_idf.fit_transform(features_train)
features_test_transformed = count_tf_idf.transform(features_test)

Зададим модели по умолчанию.

In [18]:
model_linear = LogisticRegression(random_state=12345, max_iter=10000, n_jobs=-1)


In [19]:
model_ensemble = RandomForestClassifier(random_state=12345, n_jobs=-1)


In [20]:
model_gradient = CatBoostClassifier(random_state=12345, verbose=0)


Задаем сетку параметров и pipeline для GridSearch

In [27]:
pipeline_linear = Pipeline(
    [
        ("vect", count_tf_idf),
        ("clf", model_linear)
    ]
)

parameters_linear = {
              'clf__C': np.logspace(-4, 4, 4),
              'clf__tol': np.logspace(-4, 4, 4)
            }

In [28]:
pipeline_ensemble = Pipeline(
    [
        ("vect", count_tf_idf),
        ("clf", model_ensemble)
    ]
)

parameters_ensemble = { 'clf__n_estimators': range (50, 150, 50),
              'clf__max_depth': range (30, 70, 20),
              'clf__min_samples_split':range(2, 4, 1),
              'clf__min_samples_leaf':range(2, 4, 1)
            }

In [40]:
pipeline_gradient = Pipeline(
    [
        ("vect", count_tf_idf),
        ("clf", model_gradient)
    ]
)

parameters_gradient = { 'clf__iterations': [500],
              'clf__learning_rate': [0.4],
            }

Проводим подбор параметров через GridSearch

In [30]:
grid_linear = GridSearchCV(estimator=pipeline_linear, param_grid=parameters_linear, cv=3, scoring='f1', n_jobs=-1, refit=True)
grid_linear.fit(features_train, target_train)
display(grid_linear.best_params_)

{'clf__C': 10000.0, 'clf__tol': 21.54434690031882}

In [50]:
model_linear = LogisticRegression(random_state=12345, max_iter=10000, C=10000, tol=21.54, n_jobs=-1)

In [32]:
grid_ensemble = GridSearchCV(pipeline_ensemble, parameters_ensemble, cv=3, scoring='f1', refit=True)
grid_ensemble.fit(features_train, target_train)
display(grid_ensemble.best_params_)

{'clf__max_depth': 50,
 'clf__min_samples_leaf': 2,
 'clf__min_samples_split': 2,
 'clf__n_estimators': 50}

In [49]:
model_ensemble = RandomForestClassifier(max_depth=50, min_samples_leaf=2, min_samples_split=2, n_estimators=50, random_state=12345, n_jobs=-1)

In [41]:
grid_gradient = GridSearchCV(pipeline_gradient, parameters_gradient, cv=3, scoring='f1', refit=True)
grid_gradient.fit(features_train, target_train)
display(grid_gradient.best_params_)

{'clf__iterations': 500, 'clf__learning_rate': 0.4}

In [48]:
model_gradient = CatBoostClassifier(iterations=500, depth=8, learning_rate=0.4, random_state=12345, verbose=0)

Проводим кросс-валидацию на тестовой выборке и выбираем лучшую модель с самой высокой оценкой F1

In [43]:
def model_ef (model, cv, feaches, target):
    cv_results = cross_validate(model, feaches, target, cv=3, scoring='f1', return_estimator=True)
    return cv_results

In [51]:
cv_results = []
models = [model_linear, model_ensemble, model_gradient]
for i in models:
    
    res = model_ef(i, 3, features_train_transformed, target_train)
    cv_results.append(abs(res['test_score'].mean()))
cv_results = pd.DataFrame(cv_results, columns=['F1_score'], index=['LogisticRegression', 'RandomForest', 'CatBoost'])
cv_results.sort_values(by='F1_score', ascending=False)

Unnamed: 0,F1_score
LogisticRegression,0.769657
CatBoost,0.757754
RandomForest,0.042713


## Тестирование лучшей модели

In [52]:
model_linear.fit(features_train_transformed, target_train)
predictions_linear = model_linear.predict(features_test_transformed)
f1_score(target_test, predictions_linear)

0.7692307692307693

In [53]:
model_dummy=DummyClassifier()
model_dummy.fit(features_train_transformed, target_train)
predictions_dummy = model_dummy.predict(features_test_transformed)
f1_score(target_test, predictions_dummy)

0.0

## Выводы

В текущей работе были исследованна токсичность комментариев. Результатом исследования является модель с наилучшим показателем F1 обучения.

Перед обучением проведена лемматизация и обработка TF-IDF текса и проверка на дубликаты. Это позволило сформировать признаки для обучения модели.

Были обучены 3 разных модели обучения, определяющте токсичность комментария: LogisticRegression, RandomForestClassifier и CatBoostClassifier. LogisticRegression показала самый лучший показатель F1 в 0,76 и самую лучшую скорость обучения. RandomForestRegressor обучился с худшим показателем F1 в 0.03. А CatBoostRegressor показал близкий рещультат к LogisticRegression и F1 на уровне 0.74.

Для проверки результатов проведено сравнение с константной моделью, которая дала показатель  F1 в 0.18.

Лучшей моделью выберем LogisticRegression, F1 для которой удалось подтвердить на тестовой выборке который оказался чуть выше чем на обучающей. 0.769