<div class="alert alert-block alert-warning">
<b>Комментарий от ревьюера:</b> 
    
~~Алена, привет! Меня зовут Влада. Ниже в файле ты найдешь мои комментарии: <font color='green'>зеленый цвет — «все отлично»; </font> <font color='blue'>синий — «хорошо, но можно лучше (исправлять необязательно)»; </font> <font color='red'>красный — «нужно исправить».</font> Комментарии в самом коде я отделяю знаками «###». Пожалуйста, не удаляй мои комментарии, они мне нужны при повторной проверке.~~
    
Алена, спасибо за доработки, все в порядке!

</div>

Интернет-магазин «Викишоп» запускает новый сервис. Теперь пользователи могут редактировать и дополнять описания товаров, как в вики-сообществах. То есть клиенты предлагают свои правки и комментируют изменения других. Магазину нужен инструмент, который будет искать токсичные комментарии и отправлять их на модерацию. 

Обучите модель классифицировать комментарии на позитивные и негативные. В вашем распоряжении набор данных с разметкой о токсичности правок.

Постройте модель со значением метрики качества *F1* не меньше 0.75. 

### Инструкция по выполнению проекта

1. Загрузите и подготовьте данные.
2. Обучите разные модели. 
3. Сделайте выводы.

Для выполнения проекта применять *BERT* необязательно, но вы можете попробовать.

### Описание данных

Данные находятся в файле `toxic_comments.csv`. Столбец *text* в нём содержит текст комментария, а *toxic* — целевой признак.

# 0. Импорт библиотек

In [2]:
import pandas as pd 
import numpy as np 

import nltk
nltk.download('wordnet')
nltk.download('averaged_perceptron_tagger')
from nltk.stem import WordNetLemmatizer 
from nltk.corpus import wordnet
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize 
nltk.download('stopwords')
from nltk.corpus import stopwords as nltk_stopwords

import time
from tqdm import tqdm
import re

from sklearn.feature_extraction.text import CountVectorizer
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import f1_score
from sklearn.metrics import precision_score
from sklearn.metrics import recall_score

from catboost import CatBoostClassifier

[nltk_data] Downloading package wordnet to /home/jovyan/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /home/jovyan/nltk_data...
[nltk_data]   Unzipping taggers/averaged_perceptron_tagger.zip.
[nltk_data] Downloading package stopwords to /home/jovyan/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


# 1. Подготовка

In [3]:
data = pd.read_csv('/datasets/toxic_comments.csv')
data.head()

Unnamed: 0,text,toxic
0,Explanation\nWhy the edits made under my usern...,0
1,D'aww! He matches this background colour I'm s...,0
2,"Hey man, I'm really not trying to edit war. It...",0
3,"""\nMore\nI can't make any real suggestions on ...",0
4,"You, sir, are my hero. Any chance you remember...",0


In [4]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 159571 entries, 0 to 159570
Data columns (total 2 columns):
text     159571 non-null object
toxic    159571 non-null int64
dtypes: int64(1), object(1)
memory usage: 2.4+ MB


In [5]:
print('нулевые значения в', round(data[data['toxic'] == 0]['toxic'].count()/len(data)*100, 1), 'процентах случаев')

нулевые значения в 89.8 процентах случаев


<div class="alert alert-block alert-success">
Наблюдается дисбаланс классов.
</div>

<div class="alert alert-block alert-danger">

~~Уменьшать выборку можно на стадии отладки кода, но в финальном проекте нужно использовать все имеющиеся данные. Как правило, чем больше данных в обучающей выборке, тем качественнее настроенная модель.~~
</div>

Процент нетоксичных комментариев остался прежним

Напишем функции, которые будут предобрабатывать как тренировочную, так и тестовую выборки:

1) Функция clear(text) - оставляет в текстах только латинские символы и пробелы с помощью регулярных выражений, а также приведет все символы к нижнему регистру. 
2) Функция lemm(sentence) - лемматизирует тексты при помощи  Wordnet Lemmatizer из NLTK с соответствующим POS-тегом. 
3) Функция stop(sentence)  - избавляется от стоп-слов, то есть слов без смысловой нагрузки с помощью пакета stopwords, который находится в модуле nltk.corpus библиотеки nltk

4) Функция total_clean(text) - объединяет все вышеперечисленные функции

In [6]:
# Init the Wordnet Lemmatizer
lemmatizer = WordNetLemmatizer()

def get_wordnet_pos(word):
    """Map POS tag to first character lemmatize() accepts"""
    tag = nltk.pos_tag([word])[0][1][0].upper()
    tag_dict = {"J": wordnet.ADJ,
                "N": wordnet.NOUN,
                "V": wordnet.VERB,
                "R": wordnet.ADV}
    return tag_dict.get(tag, wordnet.NOUN)


def clear(text):
        cleaned = re.sub(r'[^a-zA-Z ]', ' ', text)
        cleaned_words = cleaned.split()
        cleaned_sentence = " ".join(cleaned_words)
        cleaned_sentence = cleaned_sentence.lower()
        return cleaned_sentence

def lemm(sentence):
        lemmas = [lemmatizer.lemmatize(w, get_wordnet_pos(w)) for w in nltk.word_tokenize(sentence)]
        sentence = " ".join(lemmas)
        return sentence

stop_words = set(stopwords.words('english')) 

def stop(sentence):
        word_tokens = word_tokenize(sentence) 
        filtered_sentence = [w for w in word_tokens if not w in stop_words] 
        final = " ".join(filtered_sentence)
        return final

def total_clean(text):
    corpus_final = stop(clear(lemm(text)))
    return corpus_final

<div class="alert alert-block alert-success">
Отличная предобработка, молодец :)
</div>

<div class="alert alert-block alert-info">
Следует сначала проводить очистку текста, а потом лемматизацию. Иначе, например, слово «sentences,» не будет лемматизировано из-за запятой.
</div>

Все данные были предобработаны и сохранены таким образом: (дабы кривые руки не удалили все что можно)

```
corpus_cleaned = data.apply(lambda x: total_clean(x['text']), axis = 1)
cleaned = pd.DataFrame({'cleaned': corpus_cleaned})
cleaned.to_csv('cleaned.csv', index=False)
```

теперь скачаем очищенный датасет и удалим получившиеся пустыми строки

In [7]:
data['text_cleaned'] = pd.read_csv('cleaned.csv')
data = data.dropna()
data.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 159514 entries, 0 to 159570
Data columns (total 3 columns):
text            159514 non-null object
toxic           159514 non-null int64
text_cleaned    159514 non-null object
dtypes: int64(1), object(2)
memory usage: 4.9+ MB


Теперь разделим данные на обучающую, валидационную и тестовую выборки 3:1:1. 

In [8]:
train, valid_test = train_test_split(data, test_size = 0.4)
valid, test = train_test_split(valid_test, test_size = 0.5)
print('Длина: тренировчоной {}, тестовой {}, валидационной {} выборок'.format(len(train), len(test), len(valid)))
print('нулевые значения в обучающей выборке', round(train[train['toxic'] == 0]['toxic'].count()/len(train)*100, 1), 'процентах случаев')

Длина: тренировчоной 95708, тестовой 31903, валидационной 31903 выборок
нулевые значения в обучающей выборке 89.8 процентах случаев


Так как у нас наблюдается сильный дисбаланс классов, удалим из обучающей выборки 40 тыс. нетоксичных комментариев, и повторим токсичные дважды

In [9]:
nontoxic = train[train['toxic'] == 0].iloc[40000:]
toxic = train[train['toxic'] == 1]
train = pd.concat([toxic, toxic, nontoxic])
print('нулевые значения в обучающей выборке', 
      round(train[train['toxic'] == 0]['toxic'].count()/len(train)*100, 1), 'процентах случаев')
len(train)

нулевые значения в обучающей выборке 70.1 процентах случаев


65483

<div class="alert alert-block alert-info">
<b>Комментарий v2:</b>    
Хорошо, дисбаланс на обучающей выборке стал меньше. Почему бы не сделать так, чтобы объектов обоих классов на обучающей выборке стало поровну?
</div>

выделим корпусы обработынных текстов и целевой признак.

In [10]:
corpus_train = list(train['text_cleaned'])
corpus_valid = list(valid['text_cleaned'])
corpus_test = list(test['text_cleaned'])

target_train = list(train['toxic'])
target_valid = list(valid['toxic'])
target_test = list(test['toxic'])

В качестве признаков подготовим мешок слов и величины TF-IDF. TF отвечает за количество упоминаний слова в отдельном тексте, а IDF отражает частоту его употребления во всём корпусе. Для обучающей выборки применим методы .fit_transform, для валидационной и тестовой - только .transform.

In [11]:
#мешок слов
count_vect = CountVectorizer()
bow_train = count_vect.fit_transform(corpus_train)
bow_valid = count_vect.transform(corpus_valid)
bow_test = count_vect.transform(corpus_test)

#tf-idf
count_tf_idf = TfidfVectorizer()
tf_idf_train = count_tf_idf.fit_transform(corpus_train)
tf_idf_valid = count_tf_idf.transform(corpus_valid)
tf_idf_test = count_tf_idf.transform(corpus_test)

<div class="alert alert-block alert-success">
Деление выборки на части и подготовка признаков проведены корректно.
</div>

# 2. Обучение

С различными признаками данных и гиперпараметрами будем обучать модели Логистической регрессии, Леса и градиентного бустинга CatBoostClassifier. Оценим качество f1 мерой на валидайионной выборке, и для анализа ошибок добавим precision_score и recall_score. Все результаты сохраним в одной таблице

### 1. Для определения токсичности применим величины TF-IDF как признаки.

In [12]:
compare = []
columns = ['model', 'feature', 'params', 'f1', 'precision', 'recall']

model = LogisticRegression(solver = 'sag', n_jobs = -1, random_state = 123)
model.fit(tf_idf_train, target_train)
predictions = model.predict(tf_idf_valid)
l = ['LogisticRegression', 'tf-idf',
                "solver = 'sag', n_jobs = -1, random_state = 123", f1_score(target_valid, predictions), 
               precision_score(target_valid, predictions), recall_score(target_valid, predictions)]
compare.append(l)
print(l)

for n_estimators in range(30, 91, 30):
    model = RandomForestClassifier(random_state = 123, n_estimators = n_estimators)
    model.fit(tf_idf_train, target_train)
    predictions = model.predict(tf_idf_valid)
    l = ['RandomForestClassifier', 'tf-idf',
                "random_state = 123, n_estimators = %d"%n_estimators, f1_score(target_valid, predictions), 
               precision_score(target_valid, predictions), recall_score(target_valid, predictions)]
    compare.append(l)
    print(l)
    
for iterations in range(60, 121, 60):
    for depth in [3, 5]:
            model = CatBoostClassifier(loss_function="Logloss", iterations=iterations, 
                                       depth = depth, random_state = 123)
            model.fit(tf_idf_train, target_train, verbose=False)
            predictions = model.predict(tf_idf_valid)
            l = ['CatBoostClassifier', 'tf-idf',
                "loss_function='Logloss', iterations={}, depth = {}".format(
                    iterations,depth), f1_score(target_valid, predictions), 
               precision_score(target_valid, predictions), recall_score(target_valid, predictions)]
            compare.append(l)
            print(l)


['LogisticRegression', 'tf-idf', "solver = 'sag', n_jobs = -1, random_state = 123", 0.7675288251791836, 0.7809131261889664, 0.7545955882352942]
['RandomForestClassifier', 'tf-idf', 'random_state = 123, n_estimators = 30', 0.6676465784746041, 0.7149352920601609, 0.6262254901960784]
['RandomForestClassifier', 'tf-idf', 'random_state = 123, n_estimators = 60', 0.6720805587136592, 0.7151745592810231, 0.6338848039215687]
['RandomForestClassifier', 'tf-idf', 'random_state = 123, n_estimators = 90', 0.6757065838915209, 0.7238361918095905, 0.633578431372549]
['CatBoostClassifier', 'tf-idf', "loss_function='Logloss', iterations=60, depth = 3", 0.7441708788521115, 0.7953990937608924, 0.6991421568627451]
['CatBoostClassifier', 'tf-idf', "loss_function='Logloss', iterations=60, depth = 5", 0.7628471113948293, 0.7961359093937375, 0.7322303921568627]
['CatBoostClassifier', 'tf-idf', "loss_function='Logloss', iterations=120, depth = 3", 0.7524816924328723, 0.802499132245748, 0.7083333333333334]
['Cat

<div class="alert alert-block alert-success">
Здорово, что рассматриваешь разные модели и настраиваешь их гиперпараметры.
</div>

<div class="alert alert-block alert-danger">

~~В целом, возможны 2 способа настройки и выбора моделей: 
1) делим выборку на 2 части – обучающую и тестовую. Для всех моделей на обучающей выборке проводим кросс-валидацию, лучшую модель выбираем по качеству на кросс-валидации. В конце оцениваем качество лучшей модели на тестовой выборке. 
2) делим выборку на 3 части – обучающую, валидационную, тестовую. На обучающей выборке настраиваем модели, лучшую модель выбираем по качеству на валидационной выборке. Качество лучшей модели оцениваем на тестовой выборке.
Качество лучшей модели на валидационной выборке/на кросс-валидации получится оптимистически смещенным, для получения несмещенной оценки качества и нужна тестовая выборка.
Так как кросс-валидацию ты не проводишь, то твой вариант – номер 2. Выборку следовало делить не на 2, а на **3 части**.~~
</div>

### 2. Для определения токсичности применим мешок слов как признак.

In [13]:
model = LogisticRegression(solver = 'sag', n_jobs = -1, random_state = 123)
model.fit(bow_train, target_train)
predictions = model.predict(bow_valid)
l = ['LogisticRegression', 'bow',
                "solver = 'sag', n_jobs = -1, random_state = 123", f1_score(target_valid, predictions), 
               precision_score(target_valid, predictions), recall_score(target_valid, predictions)]
compare.append(l)
print(l)

for n_estimators in range(60, 101, 10):
    model = RandomForestClassifier(random_state = 123, n_estimators = n_estimators)
    model.fit(bow_train, target_train)
    predictions = model.predict(bow_valid)
    l = ['RandomForestClassifier', 'bow',
                "random_state = 123, n_estimators = %d"%n_estimators, f1_score(target_valid, predictions), 
               precision_score(target_valid, predictions), recall_score(target_valid, predictions)]
    compare.append(l)
    print(l)
    
for iterations in range(60, 121, 20):
    for depth in [3, 5]:
            model = CatBoostClassifier(loss_function="Logloss", iterations=iterations, 
                                       depth = depth, random_state = 12)
            model.fit(bow_train, target_train, verbose=False)
            predictions = model.predict(bow_valid)
            l = ['CatBoostClassifier', 'bow',
                "loss_function='Logloss', iterations={}, depth = {}".format(
                    iterations,depth), f1_score(target_valid, predictions), 
               precision_score(target_valid, predictions), recall_score(target_valid, predictions)]
            compare.append(l)
            print(l)



['LogisticRegression', 'bow', "solver = 'sag', n_jobs = -1, random_state = 123", 0.6123828545091412, 0.6141756548536209, 0.6106004901960784]
['RandomForestClassifier', 'bow', 'random_state = 123, n_estimators = 60', 0.6735059436573848, 0.718804310045186, 0.633578431372549]
['RandomForestClassifier', 'bow', 'random_state = 123, n_estimators = 70', 0.67394848386045, 0.7202090592334495, 0.6332720588235294]
['RandomForestClassifier', 'bow', 'random_state = 123, n_estimators = 80', 0.6757110166721151, 0.7242466713384723, 0.6332720588235294]
['RandomForestClassifier', 'bow', 'random_state = 123, n_estimators = 90', 0.6730044255040156, 0.7236517448008459, 0.6289828431372549]
['RandomForestClassifier', 'bow', 'random_state = 123, n_estimators = 100', 0.6765908719123179, 0.7258687258687259, 0.633578431372549]
['CatBoostClassifier', 'bow', "loss_function='Logloss', iterations=60, depth = 3", 0.7414909513531461, 0.8093512142080463, 0.6841299019607843]
['CatBoostClassifier', 'bow', "loss_function=

In [14]:
compared_1 = pd.DataFrame(data = compare, columns = columns)
compared_1.sort_values('f1', ascending = False)

Unnamed: 0,model,feature,params,f1,precision,recall
7,CatBoostClassifier,tf-idf,"loss_function='Logloss', iterations=120, depth...",0.768033,0.79769,0.740502
0,LogisticRegression,tf-idf,"solver = 'sag', n_jobs = -1, random_state = 123",0.767529,0.780913,0.754596
5,CatBoostClassifier,tf-idf,"loss_function='Logloss', iterations=60, depth = 5",0.762847,0.796136,0.73223
17,CatBoostClassifier,bow,"loss_function='Logloss', iterations=80, depth = 5",0.761568,0.800676,0.726103
21,CatBoostClassifier,bow,"loss_function='Logloss', iterations=120, depth...",0.758832,0.801363,0.720588
19,CatBoostClassifier,bow,"loss_function='Logloss', iterations=100, depth...",0.758411,0.794829,0.725184
15,CatBoostClassifier,bow,"loss_function='Logloss', iterations=60, depth = 5",0.757581,0.804685,0.715686
16,CatBoostClassifier,bow,"loss_function='Logloss', iterations=80, depth = 3",0.756256,0.80519,0.712929
6,CatBoostClassifier,tf-idf,"loss_function='Logloss', iterations=120, depth...",0.752482,0.802499,0.708333
20,CatBoostClassifier,bow,"loss_function='Logloss', iterations=120, depth...",0.750574,0.808127,0.700674


<div class="alert alert-block alert-success">
Таблица наглядная.
</div>

<div class="alert alert-block alert-danger">

~~Как я писала выше, работать следует со всеми данными.~~
</div>

In [21]:
print(list(compared_1.iloc[7]))

['CatBoostClassifier', 'tf-idf', "loss_function='Logloss', iterations=120, depth = 5", 0.7680330473466794, 0.7976897689768977, 0.7405024509803921]


Лучше всего на валидационной выборке себя показала модель CatBoostClassifier(loss_function='Logloss', iterations=120, depth = 5, random_state = 123), обученная на tf-idf. Проверим ее на тестовой выборке

In [22]:
model = CatBoostClassifier(loss_function="Logloss", iterations=120, depth = 5, random_state = 123)
model.fit(tf_idf_train, target_train, verbose=30)
predictions = model.predict(tf_idf_test)
print('f1:',f1_score(target_test, predictions), ', precision:',precision_score(target_test, predictions),
      ', recall:', recall_score(target_test, predictions))

Learning rate set to 0.361858
0:	learn: 0.5447649	total: 1.73s	remaining: 3m 25s
30:	learn: 0.3018870	total: 56.1s	remaining: 2m 41s
60:	learn: 0.2582880	total: 1m 49s	remaining: 1m 45s
90:	learn: 0.2328546	total: 2m 42s	remaining: 51.9s
119:	learn: 0.2177634	total: 3m 34s	remaining: 0us
f1: 0.7529834886382213 , precision: 0.7857386557488911 , recall: 0.7228499686126805


Модель также справилась с тестовой выборкой и показала f1 = 0.75, причем точность и полнота получились близки друг к другу

<div class="alert alert-block alert-success">
<b>Комментарий v2:</b>    
Отлично, требуемое качество достигнуто.
</div>

# 3. Выводы

Для решения данной задачи нам хватило мешка слов и tf-idf, причем модели, обученные на первых и вторых видах признаков показали себя примерно одинаково. Мешок слов учитывает частоту употребления слов. TF-IDF показывает, как часто уникальное слово встречается во всём корпусе и в отдельном его тексте. И этого оказалось достаточно, так как токсичность комментария вполне можно определить по наличию или частоте употребления определенных слов, Embeddings и Bert не понадобились.

Для более сложных задач этого, скорее всего не хватит, так как мешок слов и TF-IDF не умеют учитывать смысл, контекст и свойства слов при переводе в векторы.

<div class="alert alert-block alert-warning">
<b>Итоговый комментарий:</b> 

~~Спасибо, ты провела отличное исследование, осталось его немного доработать: использовать все имеющиеся данные; поделить выборку на 3 части.~~
    
Все отлично, молодец! :)

</div>

# Чек-лист проверки

- [x]  Jupyter Notebook открыт
- [x]  Весь код выполняется без ошибок
- [x]  Ячейки с кодом расположены в порядке исполнения
- [x]  Данные загружены и подготовлены
- [x]  Модели обучены
- [x]  Значение метрики *F1* не меньше 0.75
- [x]  Выводы написаны