# Работа с токсичными комментариями для интернет-магазина

<div style="border:solid Chocolate 2px; padding: 40px">

## Описание проекта

Интернет-магазину нужен инструмент, который будет искать токсичные комментарии пользователей о товарах и отправлять их на модерацию. 

Наша задача обучить модель для классификации комментариев на позитивные и негативные. В нашем распоряжении набор данных с разметкой о токсичности правок.

<b>Описание данных</b>
    
Данные находятся в файле csv.
* Столбец `text` содержит текст комментария.
* Столбец `toxic` — является ли комментарий токсичных (целевой признак).

<h1>Содержание<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Описание-проекта" data-toc-modified-id="Описание-проекта-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Описание проекта</a></span></li><li><span><a href="#Подготовка-данных" data-toc-modified-id="Подготовка-данных-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Подготовка данных</a></span></li><li><span><a href="#Предобработка-данных" data-toc-modified-id="Предобработка-данных-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Предобработка данных</a></span></li><li><span><a href="#Обучение" data-toc-modified-id="Обучение-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Обучение</a></span><ul class="toc-item"><li><span><a href="#LogisticRegression" data-toc-modified-id="LogisticRegression-4.1"><span class="toc-item-num">4.1&nbsp;&nbsp;</span>LogisticRegression</a></span></li><li><span><a href="#LightGBM" data-toc-modified-id="LightGBM-4.2"><span class="toc-item-num">4.2&nbsp;&nbsp;</span>LightGBM</a></span></li><li><span><a href="#SVM" data-toc-modified-id="SVM-4.3"><span class="toc-item-num">4.3&nbsp;&nbsp;</span>SVM</a></span></li></ul></li><li><span><a href="#Выводы" data-toc-modified-id="Выводы-5"><span class="toc-item-num">5&nbsp;&nbsp;</span>Выводы</a></span></li></ul></div>

In [1]:
import pandas as pd
import numpy as np
# from pymystem3 import Mystem
import re
import time
import swifter

from tqdm import notebook
import torch

import transformers
from transformers import BertTokenizer, BertModel, BertConfig

import warnings
warnings.filterwarnings("ignore")


import lightgbm as lgb
from lightgbm import LGBMClassifier

import sklearn
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split, GridSearchCV #, cross_val_score
from sklearn.metrics import f1_score
from sklearn import svm
from sklearn.pipeline import Pipeline

import nltk
from nltk.tokenize import TweetTokenizer, word_tokenize
from nltk.stem import WordNetLemmatizer
from nltk.corpus import stopwords, wordnet

nltk.download('punkt')
nltk.download('stopwords')
nltk.download('wordnet')
nltk.download('omw-1.4')
nltk.download('averaged_perceptron_tagger')

from sklearn.feature_extraction.text import TfidfVectorizer #, CountVectorizer

import spacy

  from pandas.core import (
  _torch_pytree._register_pytree_node(
  _torch_pytree._register_pytree_node(
[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\Katya\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\Katya\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\Katya\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package omw-1.4 to
[nltk_data]     C:\Users\Katya\AppData\Roaming\nltk_data...
[nltk_data]   Package omw-1.4 is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     C:\Users\Katya\AppData\Roaming\nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!


## Подготовка данных

Загрузим датасет и посмотрим общую информацию о нём.

In [2]:
path = 'C:/Users/Katya/Desktop/ds_learning/22sprint_Машинное обучение для текстов/project/'
# path = '/datasets/'

In [3]:
try:
    data = pd.read_csv(path + 'toxic_comments.csv', index_col='Unnamed: 0')
except FileNotFoundError:
    print('Данные не найдены')

In [4]:
data.describe()

Unnamed: 0,toxic
count,159292.0
mean,0.101612
std,0.302139
min,0.0
25%,0.0
50%,0.0
75%,0.0
max,1.0


In [5]:
data.info()

<class 'pandas.core.frame.DataFrame'>
Index: 159292 entries, 0 to 159450
Data columns (total 2 columns):
 #   Column  Non-Null Count   Dtype 
---  ------  --------------   ----- 
 0   text    159292 non-null  object
 1   toxic   159292 non-null  int64 
dtypes: int64(1), object(1)
memory usage: 3.6+ MB


In [6]:
data.head()

Unnamed: 0,text,toxic
0,Explanation\nWhy the edits made under my usern...,0
1,D'aww! He matches this background colour I'm s...,0
2,"Hey man, I'm really not trying to edit war. It...",0
3,"""\nMore\nI can't make any real suggestions on ...",0
4,"You, sir, are my hero. Any chance you remember...",0


**Вывод**

В датасете 159 292 строк. Пропусков нет. Целевой признак toxic - является ли комментарий негативным.

## Предобработка данных

In [7]:
data['toxic'] = data['toxic'].astype('uint8')
data.info()

<class 'pandas.core.frame.DataFrame'>
Index: 159292 entries, 0 to 159450
Data columns (total 2 columns):
 #   Column  Non-Null Count   Dtype 
---  ------  --------------   ----- 
 0   text    159292 non-null  object
 1   toxic   159292 non-null  uint8 
dtypes: object(1), uint8(1)
memory usage: 2.6+ MB


Напишем функцию, которая отчистит данные от лишних символов и лемматизирует данные.

In [8]:
def data_preprocessing(text):
    text = re.sub(r'[^A-Za-z0-9]', ' ', text)
    
    text = text.lower()
    
    # Parse the sentence using the loaded 'en_core_web_sm' model object `nlp`
    doc = nlp(text)
    
    # Extract the lemma for each token and join
    text = " ".join([token.lemma_ for token in doc])
    return text

# Initialize spacy 'en_core_web_sm' model, keeping only tagger component needed for lemmatization
nlp = spacy.load('en_core_web_sm', disable=['parser', 'ner'])
stop_words = stopwords.words('english')
stop_words.remove('not')

Применим ко всему датасету

In [9]:
%%time
data['lemmatized'] = data['text'].apply(lambda x: data_preprocessing(x))

CPU times: total: 11min 49s
Wall time: 11min 49s


In [10]:
data.head()

Unnamed: 0,text,toxic,lemmatized
0,Explanation\nWhy the edits made under my usern...,0,explanation why the edit make under my usernam...
1,D'aww! He matches this background colour I'm s...,0,d aww he match this background colour I m se...
2,"Hey man, I'm really not trying to edit war. It...",0,hey man I m really not try to edit war it ...
3,"""\nMore\nI can't make any real suggestions on ...",0,more I can t make any real suggestion on im...
4,"You, sir, are my hero. Any chance you remember...",0,you sir be my hero any chance you rememb...


Разделим данные на обучающую и тестовую выборки. Валидационную не выделяем так как будем использовать крос-валидацию

In [11]:
def split(df):

    target = df['toxic']
    features = df.drop(['toxic'], axis=1)
    
    features_train, features_test, target_train, target_test = train_test_split(features, target, test_size=0.3, shuffle=True)
    print('Размер обучающей выборки:', features_train.shape[0], 'строк - ', round(features_train.shape[0]/df.shape[0] * 100), "%")
    print('Размер тестовой выборки:', features_test.shape[0], 'строк - ', round(features_test.shape[0]/df.shape[0] * 100), "%")
    return features_train, features_test, target_train, target_test

In [12]:
features_train, features_test, target_train, target_test = split(data);

Размер обучающей выборки: 111504 строк -  70 %
Размер тестовой выборки: 47788 строк -  30 %


Используем алгоритм TF-IDF (от англ. term frequency, «частота терма, или слова»; inverse document frequency, «обратная частота документа, или текста»). То есть TF отвечает за количество упоминаний слова в отдельном тексте, а IDF отражает частоту его употребления во всём корпусе.

Применим TfidfVectorizer для векторизации данных

In [13]:
def tok(text):
    tt = TweetTokenizer()
    return tt.tokenize(text)

def tok(text):
    return nltk.word_tokenize(text)

In [14]:
count_tf_idf = TfidfVectorizer(tokenizer=tok)#(stop_words=stop_words)#, tokenizer=tok) 
count_tf_idf

In [15]:
count_tf_idf.fit(features_train['lemmatized'].values)
tf_idf = count_tf_idf.transform(features_train['lemmatized'].values)
print("Размер матрицы:", tf_idf.shape)

Размер матрицы: (111504, 132240)


In [16]:
tf_idf_test = count_tf_idf.transform(features_test['lemmatized'].values)
print("Размер матрицы:", tf_idf.shape)

Размер матрицы: (111504, 132240)


<font color='blue'><b>Комментарий ревьюера: </b></font> ⚠️\
<font color='darkorange'> Можно объединить Векторизатор с моделью через Pipeline. Так можно избежать утечек даже при кроссвалидации моделей.<br> Материалы по Pipeline:<br> [О Пайплайн](https://dzen.ru/a/YBBkKJBsUV9MPret)<br>

[Примеры работы с текстами](https://scikit-learn.org/stable/auto_examples/model_selection/plot_grid_search_text_feature_extraction.html)</font>

<font color='purple'><b>Комментарий студента</b></font>

Спасибо за доп информацию. Я посмотрела. В этом проекте решила не использовать пайплайн, так как предобработка для всех моделей одинаковая.

**Вывод**

Мы лемматизировали и отчистили данные. Перевели тексты комментариев в вектора при помощи алгоритма TF-IDF. И разделили данные на обучающую и тестовую выборки. При обучении моделей будем использовать кросс-валидацию.

## Обучение

### LogisticRegression

Обучим модель логистической регрессии. Для подбора параметров используем GridSearchCV. Также зафиксируем время обучения модели.

In [17]:
%%time

model_logreg = LogisticRegression()
# pipeline_logreg = make_pipeline(col_transformer_ohe, model_logreg)
model_params = {
    'C': [ 5, 10, 15],
    'class_weight' : ['balanced', None],
    'penalty': ['l1', 'l2', None],
    'solver': ['liblinear', None] #'lbfgs', 'saga'
}
gs_logreg = GridSearchCV(model_logreg, model_params, cv=5, scoring='f1', n_jobs=-1)

# начальное время
start_time = time.time()
    
gs_logreg.fit(tf_idf, target_train)
    
# конечное время
end_time = time.time()
    
elapsed_time_logreg = end_time - start_time

CPU times: total: 5.39 s
Wall time: 1min 1s


In [18]:
elapsed_time_logreg

61.79256200790405

In [19]:
gs_logreg.best_params_, gs_logreg.best_score_

({'C': 5, 'class_weight': None, 'penalty': 'l1', 'solver': 'liblinear'},
 0.7850482377331289)

In [20]:
gs_logreg.best_estimator_

**Вывод**

Модель логистическй регрессии показала хорошую метрику F1=0.78. А также очень быстрое время обучения.

### LightGBM

Обучим модель LightGBM. Для подбора параметров используем GridSearchCV. Также зафиксируем время обучения модели.

In [24]:
model_lgbm = LGBMClassifier(class_weight='balanced', n_jobs = -1)
# pipeline_lgbm = make_pipeline(col_transformer_oe, model_lgbm)
model_params = { 'max_depth': range(6, 10, 2),
                 'n_estimators': [200, 300]}

In [26]:
%%time

grid_lgbm = GridSearchCV(model_lgbm, model_params, cv=5, scoring='f1', n_jobs=-1)

# начальное время
start_time = time.time()

grid_lgbm.fit(tf_idf, target_train)

# конечное время
end_time = time.time()

# разница между конечным и начальным временем
elapsed_time_lgbm = end_time - start_time

grid_lgbm.best_params_, grid_lgbm.best_score_

[LightGBM] [Info] Number of positive: 11221, number of negative: 100283
[LightGBM] [Info] Auto-choosing col-wise multi-threading, the overhead of testing was 1.124847 seconds.
You can set `force_col_wise=true` to remove the overhead.
[LightGBM] [Info] Total Bins 552860
[LightGBM] [Info] Number of data points in the train set: 111504, number of used features: 9621
[LightGBM] [Info] [binary:BoostFromScore]: pavg=0.500000 -> initscore=0.000000
[LightGBM] [Info] Start training from score 0.000000
CPU times: total: 5min 34s
Wall time: 17min 35s


({'max_depth': 8, 'n_estimators': 300}, 0.7306559030603339)

<font color='blue'><b>Комментарий ревьюера 2: </b></font> ✔️\
<font color='green'> 👍</font>

In [27]:
elapsed_time_lgbm

1055.4861443042755

In [28]:
grid_lgbm.best_estimator_

**Вывод**

Модель LightGBM основана на ансамбле деревьев. Возможно поэтому данная модель хуже справилась с задачей. Метрика F1=0.75. Также время обучения значительно выше.

### SVM

Обучим модель опорных векторов. Для подбора параметров используем GridSearchCV. Также зафиксируем время обучения модели.

In [29]:
%%time

model_SVC = svm.SVC(class_weight = 'balanced', kernel = 'rbf', random_state=1234)

# defining parameter range 
param_grid = {'C': [100, 1000],
              'gamma': [0.001, 0.0001]} 

grid_SVC = GridSearchCV(model_SVC, param_grid, cv=5, scoring='f1', n_jobs=-1)

# начальное время
start_time = time.time()

# fitting the model for grid search 
grid_SVC.fit(tf_idf, target_train)

# конечное время
end_time = time.time()

# разница между конечным и начальным временем
elapsed_time_SVC = end_time - start_time

CPU times: total: 37min 4s
Wall time: 2h 20min 5s


In [30]:
elapsed_time_SVC

8405.30306339264

In [31]:
grid_SVC.best_estimator_

In [32]:
grid_SVC.best_params_, grid_SVC.best_score_

({'C': 1000, 'gamma': 0.001}, 0.7638680544367391)

In [33]:
grid_SVC.best_estimator_

**Вывод**

Модель опорных векторов показала метрику F1=0.76. Также время обучения больше чем у других моделей.

## Выводы

Сохраним все результаты моделей в таблице.

In [34]:
result = pd.DataFrame({'model': ['LogisticRegression', 'LightGBM', 'svm'],
                       'f1_score': [gs_logreg.best_score_, grid_lgbm.best_score_, grid_SVC.best_score_],
                      'learning_time': [elapsed_time_logreg, elapsed_time_lgbm, elapsed_time_SVC]})
result

Unnamed: 0,model,f1_score,learning_time
0,LogisticRegression,0.785048,61.792562
1,LightGBM,0.730656,1055.486144
2,svm,0.763868,8405.303063


Лучший резкльтат показала модель логистической регрессии. Она же оказалась наиболее быстрой. Получим предсказания на тестовой выборке.

In [35]:
predictions_logreg = gs_logreg.best_estimator_.predict(tf_idf_test)

In [36]:
f1_logreg = f1_score(target_test, predictions_logreg)
f1_logreg

0.7984815618221258

**Вывод**

Мы загрузили данные. В датасете 159 292 строк. Пропусков не было.

Мы лемматизировали и отчистили данные. Перевели тексты комментариев в вектора при помощи алгоритма TF-IDF. И разделили данные на обучающую и тестовую выборки. При обучении моделей использовали кросс-валидацию.

Лучше всего отработала модель логистической регрессии. при самом  высоком F1 = 0.78, она оказалсь также и наиболее быстрой: справилась всего за 9.68 s.