|  |  |  |
| ---: | :--- | :--- |
| Курс:| Машинное обучение для текстов | 12 |
| Срок обучения на момент сдачи: | 6 месяцев |


# Поиск токсичных комментариев

## Содержание

## Описание проекта и постановка задачи.

Интернет-магазин «Викишоп» запускает новый сервис. Теперь пользователи могут редактировать и дополнять описания товаров, как в вики-сообществах. То есть клиенты предлагают свои правки и комментируют изменения других. Магазину нужен инструмент, который будет искать токсичные комментарии и отправлять их на модерацию. 

Обучите модель классифицировать комментарии на позитивные и негативные. В вашем распоряжении набор данных с разметкой о токсичности правок.

Постройте модель со значением метрики качества *F1* не меньше 0.75. 

**Инструкция по выполнению проекта**

1. Загрузите и подготовьте данные.
2. Обучите разные модели. 
3. Сделайте выводы.

Для выполнения проекта применять *BERT* необязательно, но вы можете попробовать.

**Описание данных**

Данные находятся в файле `toxic_comments.csv`. Столбец *text* в нём содержит текст комментария, а *toxic* — целевой признак.

## Подготовка

In [1]:
#pip install lightgbm

In [2]:
import pandas as pd
import numpy as np
#import matplotlib.pyplot as plt
#import seaborn as sns
#import warnings
import datetime

from IPython.display import display
#from scipy import stats as st

import nltk
from nltk.corpus import stopwords as nltk_stopwords
from nltk.stem import WordNetLemmatizer
from nltk.corpus import wordnet

#from sklearn.preprocessing import StandardScaler 
from sklearn.model_selection import GridSearchCV, KFold, cross_val_score, train_test_split
from sklearn.utils import shuffle
from sklearn.linear_model import LogisticRegression #, LinearRegression
from sklearn.tree import DecisionTreeClassifier #,DecisionTreeRegressor, DecisionTreeClassifier, plot_tree
#from sklearn.ensemble import RandomForestRegressor #,RandomForestClassifier
#from sklearn.dummy import DummyRegressor#, DummyClassifier
from sklearn.feature_extraction.text import TfidfVectorizer 
from sklearn.metrics import f1_score #, mean_squared_error, make_scorer, mean_absolute_error, r2_score, 
                                           #accuracy_score, f1_score, confusion_matrix, roc_auc_score

#from catboost import CatBoostRegressor #,CatBoostClassifier

from lightgbm import LGBMClassifier #,LGBMClassifier, LGBMRegressor

#from pymystem3 import Mystem

import re

#from tqdm import tqdm

In [3]:
#nltk.download('averaged_perceptron_tagger')

In [4]:
data = pd.read_csv('https://code.s3.yandex.net/datasets/toxic_comments.csv')

In [5]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 159571 entries, 0 to 159570
Data columns (total 2 columns):
 #   Column  Non-Null Count   Dtype 
---  ------  --------------   ----- 
 0   text    159571 non-null  object
 1   toxic   159571 non-null  int64 
dtypes: int64(1), object(1)
memory usage: 2.4+ MB


In [6]:
display(data.sample(5))

Unnamed: 0,text,toxic
32009,General POV Comments,0
102966,Dogmatic \n\nThe use of the word dogmatic in r...,0
86879,Editor Interaction Analyzer \n\nThanks for you...,0
149769,"Bill McNeal is an idiot who thinks he's right,...",1
72932,"""\n\nGeorgewilliamherbert, you are intimately ...",1


In [7]:
data.describe()

Unnamed: 0,toxic
count,159571.0
mean,0.101679
std,0.302226
min,0.0
25%,0.0
50%,0.0
75%,0.0
max,1.0


### Очистка

In [8]:
def clear_text(text):
    
    '''переводит в нижний регистр, оставляет только латиницу, удаляет stop_words'''
    
    stop_words = set(nltk_stopwords.words('english'))
    text = text.lower()
    word_list = re.sub(r"[^a-z ]", ' ', text).split()
    word_notstop_list = [w for w in word_list if not w in stop_words]
    return ' '.join(word_notstop_list)

In [9]:
data['clean_text'] = data['text'].apply(clear_text)

In [10]:
display(data.sample(5))

Unnamed: 0,text,toxic,clean_text
39405,Stavros Damianides\nHi. I have recently come u...,0,stavros damianides hi recently come personal a...
22826,"""To whom it may concern. hello I am a student ...",0,may concern hello student univeristy computer ...
141380,I guess you should point out French defense mi...,0,guess point french defense minister jean yves ...
75526,How do i create an new article if there is alr...,0,create new article already one name wanted cre...
157698,F YOU: YOU IDIOT! YOU ARE PROBABLY JUST JEALOU...,1,f idiot probably jealous cant add make sorry


### Лемматизация WordNetLemmatizer

In [11]:
def lemm_text(text):
    
    '''Лемматизирует строку WordNetLemmatizer'''
    
    lemmatizer = WordNetLemmatizer()
    word_list = text.split()
    lemmatized_text = ' '.join([lemmatizer.lemmatize(w) for w in word_list])
    return lemmatized_text

In [12]:
beg_time = datetime.datetime.now()
data['wnl_text'] = data['clean_text'].apply(lemm_text)
data_lemm_time = (datetime.datetime.now()-beg_time).seconds

print(data_lemm_time)

54


### Лемматизация WordNetLemmatizer + pos_tag

In [13]:
def get_wordnet_pos(word):
    """Map POS tag to first character lemmatize() accepts"""
    tag = nltk.pos_tag([word])[0][1][0].upper()
    tag_dict = {"J": wordnet.ADJ,
                "N": wordnet.NOUN,
                "V": wordnet.VERB,
                "R": wordnet.ADV}
    return tag_dict.get(tag, wordnet.NOUN)

In [14]:
def postag_lemm_text(text):
    
    '''Лемматизирует строку WordNetLemmatizer с учетом nltk.pos_tag'''
    
    lemmatizer = WordNetLemmatizer()
    word_list = text.split()
    lemmatized_text = ' '.join([lemmatizer.lemmatize(w, get_wordnet_pos(w)) for w in word_list])
    return lemmatized_text

In [15]:
beg_time = datetime.datetime.now()
data['wnlpostag_text'] = data['clean_text'].apply(postag_lemm_text)
data_lemm_time = (datetime.datetime.now()-beg_time).seconds

print(data_lemm_time)

4881


In [16]:
#промежуточно сохраняю файл с очищенными и лемматизированными комментариями
'''
data.to_csv('data_lemm2.csv', index=False)
data = pd.read_csv('data_lemm2.csv')''';
display(data.sample(3).T)

Unnamed: 0,39488,65092,27021
text,"""Please explain the terms """"tinfoil hattery"""" ...",I left some notes on the talk page. I have als...,"""\n\n I have read various pieces by Dr Mehdi ..."
toxic,0,0,0
clean_text,please explain terms tinfoil hattery wackjob v...,left notes talk page also drafting another org...,read various pieces dr mehdi khaz ali listened...
wnl_text,please explain term tinfoil hattery wackjob va...,left note talk page also drafting another orga...,read various piece dr mehdi khaz ali listened ...
wnlpostag_text,please explain term tinfoil hattery wackjob va...,left note talk page also draft another organiz...,read various piece dr mehdi khaz ali listen va...


### Лемматизация spaCy

Поковырял документацию. Инструмент серьезный и просто лемматизировать на нем - как "забивать гвозди микроскопом". На датасете из 160тыс. комментариев даже исключая ненужные возможности работать будет очень долго. Возможно позже попробую векторизировать с помощью spaCy.

In [17]:
'''import spacy
from spacy.lang.en import English''';

In [18]:
'''pip install -U spacy''';

In [19]:
'''def spacy_lemm_text(text):
    lemmatizer = spacy.load('en_core_web_sm', disable=["parser", "ner"])
    doc = lemmatizer(text)
    lemmatized_text = " ".join([token.lemma_ for token in doc])
    return lemmatized_text''';

In [20]:
'''data2 = data[0:100].copy()''';

In [21]:
# apply(spacy_lemm_text) для 1000 строк заняла 880 секунд (весь df будет лемматизировать очень долго)
'''
beg_time = datetime.datetime.now()
data2['spacy_text'] = data2['clean_text'].apply(spacy_lemm_text)
data_lemm_time = (datetime.datetime.now()-beg_time).seconds

print(data_lemm_time)''';

In [22]:
'''display(data2.sample(3).T)''';

## Обучение

In [23]:
kfold = KFold(n_splits=5, random_state=123, shuffle=True)

In [24]:
corpus = data['wnl_text'].astype('U').values
corpus_2 = data['wnlpostag_text'].astype('U').values

In [25]:
count_tf_idf = TfidfVectorizer()
tf_idf = count_tf_idf.fit_transform(corpus)

In [26]:
count_tf_idf_2 = TfidfVectorizer()
tf_idf_2 = count_tf_idf_2.fit_transform(corpus_2)

In [27]:
features_train, features_test, target_train, target_test = train_test_split(
    tf_idf, 
    data['toxic'].values, 
    test_size=0.2, stratify=data['toxic'].values, shuffle=True, random_state=123)

In [28]:
features_train_2, features_test_2, target_train_2, target_test_2 = train_test_split(
    tf_idf_2, 
    data['toxic'].values, 
    test_size=0.2, stratify=data['toxic'].values, shuffle=True, random_state=123)

### LogisticRegression

In [29]:
beg_time = datetime.datetime.now()

model_1 = LogisticRegression(solver='liblinear', class_weight='balanced', random_state=123)

model_1.mod = 'model_1'
model_1.name = 'LogisticRegression'
model_1.data = 'wnl_text'
model_1.f1 = cross_val_score(model_1, features_train, target_train, cv=kfold, scoring='f1')
model_1.time = (datetime.datetime.now()-beg_time).seconds

print('f1: %.3f' %(model_1.f1.mean()), 
      'модель:', model_1.name, 
      'данные:', model_1.data, 
      'время работы модели:', model_1.time)

f1: 0.758 модель: LogisticRegression данные: wnl_text время работы модели: 25


In [30]:
beg_time = datetime.datetime.now()

model_2 = LogisticRegression(solver='liblinear', class_weight='balanced', random_state=123)

model_2.mod = 'model_2'
model_2.name = 'LogisticRegression'
model_2.data = 'wnlpostag_text'
model_2.f1 = cross_val_score(model_2, features_train_2, target_train_2, cv=kfold, scoring='f1')

model_2.time = (datetime.datetime.now()-beg_time).seconds

print('f1: %.3f' %(model_2.f1.mean()), 
      'модель:', model_2.name, 
      'данные:', model_2.data, 
      'время работы модели:', model_2.time)

f1: 0.757 модель: LogisticRegression данные: wnlpostag_text время работы модели: 25


### DecisionTreeClassifier

In [31]:
beg_time = datetime.datetime.now()

model_3 = DecisionTreeClassifier(class_weight='balanced', random_state=123)

model_3.mod = 'model_3'
model_3.name = 'DecisionTreeClassifier'
model_3.data = 'wnl_text'
model_3.f1 = cross_val_score(model_3, features_train, target_train, cv=kfold, scoring='f1')

model_3.time = (datetime.datetime.now()-beg_time).seconds

print('f1: %.3f' %(model_3.f1.mean()), 
      'модель:', model_3.name, 
      'данные:', model_3.data, 
      'время работы модели:', model_3.time)

f1: 0.659 модель: DecisionTreeClassifier данные: wnl_text время работы модели: 1688


In [32]:
beg_time = datetime.datetime.now()

model_4 = DecisionTreeClassifier(class_weight='balanced', random_state=123)

model_4.mod = 'model_4'
model_4.name = 'DecisionTreeClassifier'
model_4.data = 'wnlpostag_text'
model_4.f1 = cross_val_score(model_4, features_train_2, target_train_2, cv=kfold, scoring='f1')

model_4.time = (datetime.datetime.now()-beg_time).seconds

print('f1: %.3f' %(model_4.f1.mean()), 
      'модель:', model_4.name, 
      'данные:', model_4.data, 
      'время работы модели:', model_4.time)

f1: 0.666 модель: DecisionTreeClassifier данные: wnlpostag_text время работы модели: 1433


### LGBMClassifier 

In [33]:
beg_time = datetime.datetime.now()

model_5 = LGBMClassifier(n_estimators=50, class_weight='balanced', boosting_type='gbdt', 
                         objective='binary', random_state=123)

model_5.mod = 'model_5'
model_5.name = 'LGBMClassifier 50'
model_5.data = 'wnl_text'
model_5.f1 = cross_val_score(model_5, features_train, target_train, cv=kfold, scoring='f1')

model_5.time = (datetime.datetime.now()-beg_time).seconds

print('f1: %.3f' %(model_5.f1.mean()), 
      'модель:', model_5.name, 
      'данные:', model_5.data, 
      'время работы модели:', model_5.time)

f1: 0.729 модель: LGBMClassifier 50 данные: wnl_text время работы модели: 336


In [34]:
beg_time = datetime.datetime.now()

model_6 = LGBMClassifier(n_estimators=50, class_weight='balanced', boosting_type='gbdt', 
                         objective='binary', random_state=123)

model_6.mod = 'model_6'
model_6.name = 'LGBMClassifier 50'
model_6.data = 'wnlpostag_text'
model_6.f1 = cross_val_score(model_6, features_train_2, target_train_2, cv=kfold, scoring='f1')

model_6.time = (datetime.datetime.now()-beg_time).seconds

print('f1: %.3f' %(model_6.f1.mean()), 
      'модель:', model_6.name, 
      'данные:', model_6.data, 
      'время работы модели:', model_6.time)

f1: 0.729 модель: LGBMClassifier 50 данные: wnlpostag_text время работы модели: 279


In [35]:
beg_time = datetime.datetime.now()

model_7 = LGBMClassifier(n_estimators=500, class_weight='balanced', boosting_type='gbdt', 
                         objective='binary', random_state=123)

model_7.mod = 'model_7'
model_7.name = 'LGBMClassifier 500'
model_7.data = 'wnl_text'
model_7.f1 = cross_val_score(model_7, features_train, target_train, cv=kfold, scoring='f1')

model_7.time = (datetime.datetime.now()-beg_time).seconds

print('f1: %.3f' %(model_7.f1.mean()), 
      'модель:', model_7.name, 
      'данные:', model_7.data, 
      'время работы модели:', model_7.time)

f1: 0.769 модель: LGBMClassifier 500 данные: wnl_text время работы модели: 1451


In [36]:
beg_time = datetime.datetime.now()

model_8 = LGBMClassifier(n_estimators=500, class_weight='balanced', boosting_type='gbdt', 
                         objective='binary', random_state=123)

model_8.mod = 'model_8'
model_8.name = 'LGBMClassifier 500'
model_8.data = 'wnlpostag_text'
model_8.f1 = cross_val_score(model_5, features_train_2, target_train_2, cv=kfold, scoring='f1')

model_8.time = (datetime.datetime.now()-beg_time).seconds

print('f1: %.3f' %(model_8.f1.mean()), 
      'модель:', model_8.name, 
      'данные:', model_8.data, 
      'время работы модели:', model_8.time)

f1: 0.729 модель: LGBMClassifier 500 данные: wnlpostag_text время работы модели: 211


## Сравнение

In [37]:
model_list = [model_1, model_2, model_3, model_4, model_5, model_6, model_7, model_8]

In [38]:
a={}
for i in model_list:
    b={}    
    b['model']=i.name
    b['data']=i.data
    b['f1_score']=i.f1.mean()
    b['cross_val_time']=i.time
    a[i.mod] = b

final_table = pd.DataFrame(a)

In [39]:
display(final_table.T)

Unnamed: 0,model,data,f1_score,cross_val_time
model_1,LogisticRegression,wnl_text,0.758474,25
model_2,LogisticRegression,wnlpostag_text,0.757118,25
model_3,DecisionTreeClassifier,wnl_text,0.658575,1688
model_4,DecisionTreeClassifier,wnlpostag_text,0.665997,1433
model_5,LGBMClassifier 50,wnl_text,0.728778,336
model_6,LGBMClassifier 50,wnlpostag_text,0.729446,279
model_7,LGBMClassifier 500,wnl_text,0.769447,1451
model_8,LGBMClassifier 500,wnlpostag_text,0.729446,211


## Тестирование

In [40]:
model_1.fit(features_train, target_train)
model_1.predicted = model_1.predict(features_test)
model_1.test_f1 = f1_score(target_test, model_1.predicted)
print(model_1.test_f1)

0.7521367521367522


In [41]:
model_7.fit(features_train, target_train)
model_7.predicted = model_7.predict(features_test)
model_7.test_f1 = f1_score(target_test, model_7.predicted)
print(model_7.test_f1)

0.7665763581919293


## Выводы

Наилучшие результаты показала модель LGBMClassifier с n_estimators=500 и логистическая регрессия на менее обработанных данных (лемматизация без учета части речи). При этом логистическая регрессия значительно быстрее. Увеличение метрик возможно за счет подбора более результативных вариантов предобработки, перебора гиперпараметров и использования более серьезных специализированных инструментов, но такие мероприятия более ресурсоёмки (требуют использования более произодительных вычислительных мощностей или увеличения времени обработки задачи).

Установленное значение метрики f1 (0.75) было достигнуто.

## Чек-лист проверки

- [x]  Jupyter Notebook открыт
- [x]  Весь код выполняется без ошибок
- [x]  Ячейки с кодом расположены в порядке исполнения
- [x]  Данные загружены и подготовлены
- [x]  Модели обучены
- [x]  Значение метрики *F1* не меньше 0.75
- [x]  Выводы написаны