<h1>Содержание<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><ul class="toc-item"><li><span><a href="#Общее-впечатление" data-toc-modified-id="Общее-впечатление-0.1"><span class="toc-item-num">0.1&nbsp;&nbsp;</span><font color="orange">Общее впечатление</font></a></span></li><li><span><a href="#Общее-впечатление-(ревью-2)" data-toc-modified-id="Общее-впечатление-(ревью-2)-0.2"><span class="toc-item-num">0.2&nbsp;&nbsp;</span><font color="orange">Общее впечатление (ревью 2)</font></a></span></li></ul></li><li><span><a href="#Подготовка" data-toc-modified-id="Подготовка-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Подготовка</a></span><ul class="toc-item"><li><span><a href="#Первичный-анализ" data-toc-modified-id="Первичный-анализ-1.1"><span class="toc-item-num">1.1&nbsp;&nbsp;</span>Первичный анализ</a></span></li><li><span><a href="#Приведение-данных" data-toc-modified-id="Приведение-данных-1.2"><span class="toc-item-num">1.2&nbsp;&nbsp;</span>Приведение данных</a></span></li></ul></li><li><span><a href="#Обучение" data-toc-modified-id="Обучение-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Обучение</a></span><ul class="toc-item"><li><span><a href="#Подбор-модели" data-toc-modified-id="Подбор-модели-2.1"><span class="toc-item-num">2.1&nbsp;&nbsp;</span>Подбор модели</a></span></li><li><span><a href="#Тест-модели" data-toc-modified-id="Тест-модели-2.2"><span class="toc-item-num">2.2&nbsp;&nbsp;</span>Тест модели</a></span></li></ul></li><li><span><a href="#Выводы" data-toc-modified-id="Выводы-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Выводы</a></span></li><li><span><a href="#Чек-лист-проверки" data-toc-modified-id="Чек-лист-проверки-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Чек-лист проверки</a></span></li></ul></div>

# Проект для «Викишоп»

Интернет-магазин «Викишоп» запускает новый сервис. Теперь пользователи могут редактировать и дополнять описания товаров, как в вики-сообществах. То есть клиенты предлагают свои правки и комментируют изменения других. Магазину нужен инструмент, который будет искать токсичные комментарии и отправлять их на модерацию. 

Обучите модель классифицировать комментарии на позитивные и негативные. В вашем распоряжении набор данных с разметкой о токсичности правок.

Постройте модель со значением метрики качества *F1* не меньше 0.75. 

**Инструкция по выполнению проекта**

1. Загрузите и подготовьте данные.
2. Обучите разные модели. 
3. Сделайте выводы.

Для выполнения проекта применять *BERT* необязательно, но вы можете попробовать.

**Описание данных**

Данные находятся в файле `toxic_comments.csv`. Столбец *text* в нём содержит текст комментария, а *toxic* — целевой признак.

## Подготовка

### Первичный анализ

In [214]:
import warnings
warnings.filterwarnings('ignore')

import pandas as pd
import numpy as np

import nltk
from nltk.stem import WordNetLemmatizer
import re
from nltk.corpus import stopwords as nltk_stopwords
from sklearn.feature_extraction.text import TfidfVectorizer

from sklearn.model_selection import train_test_split
from sklearn.model_selection import cross_val_score
from sklearn.metrics import f1_score

from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier

In [215]:
df = pd.read_csv('/datasets/toxic_comments.csv')
df.info()
display(df.head())
print('Дубликатов', df.duplicated().sum())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 159571 entries, 0 to 159570
Data columns (total 2 columns):
 #   Column  Non-Null Count   Dtype 
---  ------  --------------   ----- 
 0   text    159571 non-null  object
 1   toxic   159571 non-null  int64 
dtypes: int64(1), object(1)
memory usage: 2.4+ MB


Unnamed: 0,text,toxic
0,Explanation\nWhy the edits made under my usern...,0
1,D'aww! He matches this background colour I'm s...,0
2,"Hey man, I'm really not trying to edit war. It...",0
3,"""\nMore\nI can't make any real suggestions on ...",0
4,"You, sir, are my hero. Any chance you remember...",0


Дубликатов 0


Датасет содержит 159,571 наблюдение. Пропусков и дубликатов нет.

### Приведение данных

In [216]:
#text lemmatization
m = WordNetLemmatizer()
def lemmatize(text):
    lem = "".join(m.lemmatize(text)).lower()
    return lem

def clear_text(text):
    t = re.sub(r'[^a-zA-Z ]', ' ', text)
    t = t.split()
    return " ".join(t)

df['lem_text'] = df['text'].apply(clear_text).apply(lemmatize)

In [217]:
#samples split
df_train, df_test = train_test_split(df, test_size=0.25, random_state=12345)

target_train = df_train['toxic']
target_test = df_test['toxic']

corpus_train = df_train['lem_text'].values.astype('U')
corpus_test = df_test['lem_text'].values.astype('U')

## Обучение

### Подбор модели

In [218]:
#vectorization
count_tf_idf = TfidfVectorizer(stop_words=stopwords)
tf_idf = count_tf_idf.fit(corpus_train)
features_train = tf_idf.transform(corpus_train)
features_test = tf_idf.transform(corpus_test)

In [219]:
%%time
#LogisticRegression
model = LogisticRegression(class_weight='balanced')
cvs = cross_val_score(model, features_train, target_train, cv=5, scoring='f1').mean()
print(f'cross val score: {cvs:.2f}')

cross val score: 0.75
CPU times: user 1min 7s, sys: 13.7 s, total: 1min 21s
Wall time: 10.6 s


In [220]:
%%time
#DecisionTreeClassifier
cvs_max = 0
depth_best = 1
for i in range(1, 5):
    model = DecisionTreeClassifier(max_depth=i, random_state=12345, class_weight='balanced')
    cvs = cross_val_score(model, features_train, target_train, cv=5, scoring='f1').mean()
    if cvs > cvs_max:
        cvs_max = cvs
        depth_best = i
    
print(f'best depth - {depth_best}, cross val score: {cvs_max:.2f}')

best depth - 4, cross val score: 0.42
CPU times: user 2min 3s, sys: 415 ms, total: 2min 4s
Wall time: 2min 2s


In [221]:
%%time
#RandomForestClassifier
cvs_max = 0
depth_best = 1
est_best = 1
for i in range(1, 5):
    for j in range(1, 5):
        model = RandomForestClassifier(max_depth=i, n_estimators=j, random_state=12345, class_weight='balanced')
        cvs = cross_val_score(model, features_train, target_train, cv=5, scoring='f1').mean()
        if cvs > cvs_max:
            cvs_max = cvs
            depth_best = i
            est_best = j
    
print(f'best depth - {depth_best}, best estimators - {est_best}, cross val score: {cvs_max:.2f}')

best depth - 4, best estimators - 4, cross val score: 0.23
CPU times: user 12.2 s, sys: 23.7 ms, total: 12.2 s
Wall time: 12.2 s


### Тест модели

Наилучший результат показала модель логистической регрессии. Оценим ее на тестовой выборке.

In [222]:
model = LogisticRegression(class_weight='balanced')
model.fit(features_train,target_train)
predicted = model.predict(features_test)
f1 = f1_score(target_test, predicted)
print(f'f1-score: {f1:.2f}')

f1-score: 0.76


## Выводы

Модель логистической регрессии для оценки эмоционального окраса выглядит наиболее оптимальной, так как предоставляет наивысший результат cross_val_score, сопровождаемый гораздо более высокой скоростью работы. 

## Чек-лист проверки

- [x]  Jupyter Notebook открыт
- [x]  Весь код выполняется без ошибок
- [x]  Ячейки с кодом расположены в порядке исполнения
- [x]  Данные загружены и подготовлены
- [x]  Модели обучены
- [x]  Значение метрики *F1* не меньше 0.75
- [x]  Выводы написаны