# Оглавление
* [Описание проекта](#b0)
* [1. Загрузка и подготовка данных](#b1)
* [2. Выбор и обучение модели](#b2)
* [3. Выводы](#b3)

# Описание проекта<a class="anchor" id="b0"></a>

Интернет-магазин запускает новый сервис. Теперь пользователи могут редактировать и дополнять описания товаров, как в вики-сообществах. То есть клиенты предлагают свои правки и комментируют изменения других. Магазину нужен инструмент, который будет искать токсичные комментарии и отправлять их на модерацию. 

Необходимо на наборе данных с разметкой о токсичности правок обучить модель классифицировать комментарии на позитивные и негативные. 

Значение метрики качества F1 должно быть не меньше 0.75. 


### Описание данных

Данные находятся в файле data/toxic_comments.csv. Столбец text в нём содержит текст комментария, а toxic — целевой признак.

In [1]:
import pandas as pd 
import numpy as np 

import nltk
nltk.download('wordnet')
nltk.download('averaged_perceptron_tagger')
from nltk.stem import WordNetLemmatizer 
from nltk.corpus import wordnet
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize 
nltk.download('stopwords')
from nltk.corpus import stopwords as nltk_stopwords

import time
from tqdm import tqdm
import re

from sklearn.feature_extraction.text import CountVectorizer
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import f1_score
from sklearn.metrics import precision_score
from sklearn.metrics import recall_score

from catboost import CatBoostClassifier

from ipywidgets import IntProgress
from IPython.display import display

[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\alena\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     C:\Users\alena\AppData\Roaming\nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\alena\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
  from pandas import MultiIndex, Int64Index


# 1. Загрузка и подготовка данных<a class="anchor" id="b1"></a>

In [2]:
data = pd.read_csv('data/toxic_comments.csv')
data.head()

Unnamed: 0.1,Unnamed: 0,text,toxic
0,0,Explanation\nWhy the edits made under my usern...,0
1,1,D'aww! He matches this background colour I'm s...,0
2,2,"Hey man, I'm really not trying to edit war. It...",0
3,3,"""\nMore\nI can't make any real suggestions on ...",0
4,4,"You, sir, are my hero. Any chance you remember...",0


In [3]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 159292 entries, 0 to 159291
Data columns (total 3 columns):
 #   Column      Non-Null Count   Dtype 
---  ------      --------------   ----- 
 0   Unnamed: 0  159292 non-null  int64 
 1   text        159292 non-null  object
 2   toxic       159292 non-null  int64 
dtypes: int64(2), object(1)
memory usage: 3.6+ MB


In [4]:
print('нулевые значения в', round(data[data['toxic'] == 0]['toxic'].count()/len(data)*100, 1), 'процентах случаев')

нулевые значения в 89.8 процентах случаев


Наблюдается дисбаланс классов.

Напишем функции обработки текстов, которые будут предобрабатывать как тренировочную, так и тестовую выборки:

1) Функция clear(text) - оставляет в текстах только латинские символы и пробелы с помощью регулярных выражений, а также приводит все символы к нижнему регистру. 
2) Функция lemm(sentence) - лемматизирует тексты при помощи  Wordnet Lemmatizer из NLTK с соответствующим POS-тегом. 
3) Функция stop(sentence)  - избавляется от стоп-слов, то есть слов без смысловой нагрузки с помощью пакета stopwords, который находится в модуле nltk.corpus библиотеки nltk

4) Функция total_clean(text) - объединяет все вышеперечисленные функции

In [5]:
# Init the Wordnet Lemmatizer
lemmatizer = WordNetLemmatizer()

def get_wordnet_pos(word):
    """Map POS tag to first character lemmatize() accepts"""
    tag = nltk.pos_tag([word])[0][1][0].upper()
    tag_dict = {"J": wordnet.ADJ,
                "N": wordnet.NOUN,
                "V": wordnet.VERB,
                "R": wordnet.ADV}
    return tag_dict.get(tag, wordnet.NOUN)


def clear(text):
        cleaned = re.sub(r'[^a-zA-Z ]', ' ', text)
        cleaned_words = cleaned.split()
        cleaned_sentence = " ".join(cleaned_words)
        cleaned_sentence = cleaned_sentence.lower()
        return cleaned_sentence

def lemm(sentence):
        lemmas = [lemmatizer.lemmatize(w, get_wordnet_pos(w)) for w in nltk.word_tokenize(sentence)]
        sentence = " ".join(lemmas)
        return sentence

stop_words = set(stopwords.words('english')) 

def stop(sentence):
        word_tokens = word_tokenize(sentence) 
        filtered_sentence = [w for w in word_tokens if not w in stop_words] 
        final = " ".join(filtered_sentence)
        return final

f = IntProgress(min=0, max=len(data))
display(f)

def total_clean(row):
    global f
    f.value += 1
    i = row._name
    if i % 1000 == 0:
        print(i)
    text = row['text']
    corpus_final = stop(clear(lemm(text)))
    return corpus_final

IntProgress(value=0, max=159292)

Все данные были предобработаны и сохранены (так как считается долго) таким образом: 

```
corpus_cleaned = data.apply(lambda x: total_clean(x['text']), axis = 1)
cleaned = pd.DataFrame({'cleaned': corpus_cleaned})
cleaned.to_csv('cleaned.csv', index=False)
```

Скачаем очищенный датасет и удалим получившиеся пустыми строки

In [7]:
data['text_cleaned'] = pd.read_csv('data/cleaned.csv')
data = data.dropna()
data.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 159231 entries, 0 to 159291
Data columns (total 4 columns):
 #   Column        Non-Null Count   Dtype 
---  ------        --------------   ----- 
 0   Unnamed: 0    159231 non-null  int64 
 1   text          159231 non-null  object
 2   toxic         159231 non-null  int64 
 3   text_cleaned  159231 non-null  object
dtypes: int64(2), object(2)
memory usage: 6.1+ MB


Разделим данные на обучающую, валидационную и тестовую выборки в отношеннии 3:1:1. 

In [8]:
train, valid_test = train_test_split(data, test_size = 0.4)
valid, test = train_test_split(valid_test, test_size = 0.5)
print('Длина: тренировчоной {}, тестовой {}, валидационной {} выборок'.format(len(train), len(test), len(valid)))
print('нулевые значения в обучающей выборке', round(train[train['toxic'] == 0]['toxic'].count()/len(train)*100, 1), 'процентах случаев')

Длина: тренировчоной 95538, тестовой 31847, валидационной 31846 выборок
нулевые значения в обучающей выборке 89.9 процентах случаев


Так как у нас наблюдается сильный дисбаланс классов, удалим из обучающей выборки 40 тыс. нетоксичных комментариев, и повторим токсичные дважды

In [9]:
nontoxic = train[train['toxic'] == 0].iloc[40000:]
toxic = train[train['toxic'] == 1]
train = pd.concat([toxic, toxic, nontoxic])
print('нулевые значения в обучающей выборке', 
      round(train[train['toxic'] == 0]['toxic'].count()/len(train)*100, 1), 'процентах случаев')
len(train)

нулевые значения в обучающей выборке 70.4 процентах случаев


65192

Выделим корпусы обработынных текстов и целевой признак.

In [10]:
corpus_train = list(train['text_cleaned'])
corpus_valid = list(valid['text_cleaned'])
corpus_test = list(test['text_cleaned'])

target_train = list(train['toxic'])
target_valid = list(valid['toxic'])
target_test = list(test['toxic'])

В качестве признаков подготовим мешок слов и величины TF-IDF. TF отвечает за количество упоминаний слова в отдельном тексте, а IDF отражает частоту его употребления во всём корпусе. Для обучающей выборки применим методы .fit_transform, для валидационной и тестовой - только .transform.

In [11]:
#мешок слов
count_vect = CountVectorizer()
bow_train = count_vect.fit_transform(corpus_train)
bow_valid = count_vect.transform(corpus_valid)
bow_test = count_vect.transform(corpus_test)

#tf-idf
count_tf_idf = TfidfVectorizer()
tf_idf_train = count_tf_idf.fit_transform(corpus_train)
tf_idf_valid = count_tf_idf.transform(corpus_valid)
tf_idf_test = count_tf_idf.transform(corpus_test)

# 2. Выбор и обучение модели<a class="anchor" id="b2"></a>

С различными признаками данных и гиперпараметрами будем обучать модели Логистической регрессии, Леса и градиентного бустинга CatBoostClassifier. Оценим качество f1 мерой на валидайионной выборке, и для анализа ошибок добавим precision_score и recall_score. Все результаты сохраним в одной таблице

### 1. Для определения токсичности применим величины TF-IDF как признаки.

In [12]:
compare = []
columns = ['model', 'feature', 'params', 'f1', 'precision', 'recall']

model = LogisticRegression(solver = 'sag', n_jobs = -1, random_state = 123)
model.fit(tf_idf_train, target_train)
predictions = model.predict(tf_idf_valid)
l = ['LogisticRegression', 'tf-idf',
                "solver = 'sag', n_jobs = -1, random_state = 123", f1_score(target_valid, predictions), 
               precision_score(target_valid, predictions), recall_score(target_valid, predictions)]
compare.append(l)
print(l)

for n_estimators in range(30, 91, 30):
    model = RandomForestClassifier(random_state = 123, n_estimators = n_estimators)
    model.fit(tf_idf_train, target_train)
    predictions = model.predict(tf_idf_valid)
    l = ['RandomForestClassifier', 'tf-idf',
                "random_state = 123, n_estimators = %d"%n_estimators, f1_score(target_valid, predictions), 
               precision_score(target_valid, predictions), recall_score(target_valid, predictions)]
    compare.append(l)
    print(l)
    
for iterations in range(60, 121, 60):
    for depth in [3, 5]:
            model = CatBoostClassifier(loss_function="Logloss", iterations=iterations, 
                                       depth = depth, random_state = 123)
            model.fit(tf_idf_train, target_train, verbose=False)
            predictions = model.predict(tf_idf_valid)
            l = ['CatBoostClassifier', 'tf-idf',
                "loss_function='Logloss', iterations={}, depth = {}".format(
                    iterations,depth), f1_score(target_valid, predictions), 
               precision_score(target_valid, predictions), recall_score(target_valid, predictions)]
            compare.append(l)
            print(l)


['LogisticRegression', 'tf-idf', "solver = 'sag', n_jobs = -1, random_state = 123", 0.7632608355499922, 0.778984350047908, 0.748159509202454]
['RandomForestClassifier', 'tf-idf', 'random_state = 123, n_estimators = 30', 0.6677869265669637, 0.7383872166480863, 0.6095092024539878]
['RandomForestClassifier', 'tf-idf', 'random_state = 123, n_estimators = 60', 0.6829594911282223, 0.7516580692704495, 0.6257668711656442]
['RandomForestClassifier', 'tf-idf', 'random_state = 123, n_estimators = 90', 0.6845277963831212, 0.7536873156342183, 0.6269938650306749]
['CatBoostClassifier', 'tf-idf', "loss_function='Logloss', iterations=60, depth = 3", 0.7383100902378997, 0.7936507936507936, 0.6901840490797546]
['CatBoostClassifier', 'tf-idf', "loss_function='Logloss', iterations=60, depth = 5", 0.7504005126561999, 0.7853789403085177, 0.7184049079754601]
['CatBoostClassifier', 'tf-idf', "loss_function='Logloss', iterations=120, depth = 3", 0.7510548523206751, 0.7973811164713991, 0.7098159509202454]
['Cat

### 2. Для определения токсичности применим мешок слов как признак.

In [13]:
model = LogisticRegression(solver = 'sag', n_jobs = -1, random_state = 123)
model.fit(bow_train, target_train)
predictions = model.predict(bow_valid)
l = ['LogisticRegression', 'bow',
                "solver = 'sag', n_jobs = -1, random_state = 123", f1_score(target_valid, predictions), 
               precision_score(target_valid, predictions), recall_score(target_valid, predictions)]
compare.append(l)
print(l)

for n_estimators in range(60, 101, 10):
    model = RandomForestClassifier(random_state = 123, n_estimators = n_estimators)
    model.fit(bow_train, target_train)
    predictions = model.predict(bow_valid)
    l = ['RandomForestClassifier', 'bow',
                "random_state = 123, n_estimators = %d"%n_estimators, f1_score(target_valid, predictions), 
               precision_score(target_valid, predictions), recall_score(target_valid, predictions)]
    compare.append(l)
    print(l)
    
for iterations in range(60, 121, 20):
    for depth in [3, 5]:
            model = CatBoostClassifier(loss_function="Logloss", iterations=iterations, 
                                       depth = depth, random_state = 12)
            model.fit(bow_train, target_train, verbose=False)
            predictions = model.predict(bow_valid)
            l = ['CatBoostClassifier', 'bow',
                "loss_function='Logloss', iterations={}, depth = {}".format(
                    iterations,depth), f1_score(target_valid, predictions), 
               precision_score(target_valid, predictions), recall_score(target_valid, predictions)]
            compare.append(l)
            print(l)



['LogisticRegression', 'bow', "solver = 'sag', n_jobs = -1, random_state = 123", 0.6013870541611626, 0.6512875536480687, 0.5585889570552147]
['RandomForestClassifier', 'bow', 'random_state = 123, n_estimators = 60', 0.6778367617783675, 0.7380780346820809, 0.6266871165644172]
['RandomForestClassifier', 'bow', 'random_state = 123, n_estimators = 70', 0.6791639017916391, 0.7395231213872833, 0.6279141104294479]
['RandomForestClassifier', 'bow', 'random_state = 123, n_estimators = 80', 0.6763877381938692, 0.7354954954954955, 0.6260736196319019]
['RandomForestClassifier', 'bow', 'random_state = 123, n_estimators = 90', 0.680780681442276, 0.7386934673366834, 0.6312883435582822]
['RandomForestClassifier', 'bow', 'random_state = 123, n_estimators = 100', 0.6819758797290599, 0.7389903329752954, 0.6331288343558282]
['CatBoostClassifier', 'bow', "loss_function='Logloss', iterations=60, depth = 3", 0.7370675453047776, 0.796085409252669, 0.6861963190184049]
['CatBoostClassifier', 'bow', "loss_functi

In [14]:
compared_1 = pd.DataFrame(data = compare, columns = columns)
compared_1.sort_values('f1', ascending = False)

Unnamed: 0,model,feature,params,f1,precision,recall
0,LogisticRegression,tf-idf,"solver = 'sag', n_jobs = -1, random_state = 123",0.763261,0.778984,0.74816
19,CatBoostClassifier,bow,"loss_function='Logloss', iterations=100, depth...",0.757629,0.790597,0.727301
7,CatBoostClassifier,tf-idf,"loss_function='Logloss', iterations=120, depth...",0.755584,0.781199,0.731595
6,CatBoostClassifier,tf-idf,"loss_function='Logloss', iterations=120, depth...",0.751055,0.797381,0.709816
21,CatBoostClassifier,bow,"loss_function='Logloss', iterations=120, depth...",0.750601,0.786555,0.717791
5,CatBoostClassifier,tf-idf,"loss_function='Logloss', iterations=60, depth = 5",0.750401,0.785379,0.718405
17,CatBoostClassifier,bow,"loss_function='Logloss', iterations=80, depth = 5",0.747863,0.788704,0.711043
18,CatBoostClassifier,bow,"loss_function='Logloss', iterations=100, depth...",0.747854,0.79211,0.708282
15,CatBoostClassifier,bow,"loss_function='Logloss', iterations=60, depth = 5",0.7452,0.793486,0.702454
20,CatBoostClassifier,bow,"loss_function='Logloss', iterations=120, depth...",0.742315,0.794818,0.696319


In [17]:
print(compared_1.sort_values('f1', ascending = False).head(1))

                model feature  \
0  LogisticRegression  tf-idf   

                                            params        f1  precision  \
0  solver = 'sag', n_jobs = -1, random_state = 123  0.763261   0.778984   

    recall  
0  0.74816  


Лучше всего на валидационной выборке себя показала модель LogisticRegression(solver='sag', n_jobs=-1, random_state=123), обученная на tf-idf. Проверим ее на тестовой выборке

In [19]:
model = LogisticRegression(solver='sag', n_jobs=-1, random_state=123)
model.fit(tf_idf_train, target_train)
predictions = model.predict(tf_idf_test)
print('f1:',f1_score(target_test, predictions), ', precision:',precision_score(target_test, predictions),
      ', recall:', recall_score(target_test, predictions))

f1: 0.7592332865825151 , precision: 0.7743165924984107 , recall: 0.7447263833690003


Модель также справилась с тестовой выборкой и показала f1=0.76, причем точность и полнота получились близки друг к другу

# 3. Выводы<a class="anchor" id="b3"></a>

Для решения данной задачи нам хватило мешка слов и tf-idf, причем модели, обученные на первых и вторых видах признаков показали себя примерно одинаково. Мешок слов учитывает частоту употребления слов. TF-IDF показывает, как часто уникальное слово встречается во всём корпусе и в отдельном его тексте. И этого оказалось достаточно, так как токсичность комментария вполне можно определить по наличию или частоте употребления определенных слов, Embeddings и Bert не понадобились.

Для более сложных задач этого, скорее всего не хватит, так как мешок слов и TF-IDF не умеют учитывать смысл, контекст и свойства слов при переводе в векторы.