|  |  |  |
| ---: | :--- | :--- |
| Курс:| Машинное обучение для текстов | 12 |
| Срок обучения на момент сдачи: | 6 месяцев |


# Поиск токсичных комментариев

Интернет-магазин «Викишоп» запускает новый сервис. Теперь пользователи могут редактировать и дополнять описания товаров, как в вики-сообществах. То есть клиенты предлагают свои правки и комментируют изменения других. Магазину нужен инструмент, который будет искать токсичные комментарии и отправлять их на модерацию. 

# Содержание

1  [Описание проекта и постановка задачи](#1)

2  [Изучение и подготовка данных](#2)

*    2.1  [Очистка](#21)
*    2.2  [Лемматизация WordNetLemmatizer](#22)
*    2.3  [Лемматизация WordNetLemmatizer + pos_tag](#23)

3  [Обучение](#3)

*    3.1  [LogisticRegression](#31)
*    3.2  [DecisionTreeClassifier](#32)
*    3.3  [LGBMClassifier](#33)
*    3.4  [Сравнение](#34)

4  [Тестирование](#4)

5  [Выводы](#5)

<a name="1"></a>
## Описание проекта и постановка задачи

Обучите модель классифицировать комментарии на позитивные и негативные. В вашем распоряжении набор данных с разметкой о токсичности правок.

Постройте модель со значением метрики качества *F1* не меньше 0.75. 

**Инструкция по выполнению проекта**

1. Загрузите и подготовьте данные.
2. Обучите разные модели. 
3. Сделайте выводы.

**Описание данных**

Данные находятся в файле `toxic_comments.csv`. Столбец *text* в нём содержит текст комментария, а *toxic* — целевой признак.

<a name="2"></a>
## Изучение и подготовка данных

In [1]:
import pandas as pd
import numpy as np
import datetime

from IPython.display import display

import nltk
from nltk.corpus import stopwords as nltk_stopwords
from nltk.stem import WordNetLemmatizer
from nltk.corpus import wordnet

from sklearn.model_selection import GridSearchCV, KFold, cross_val_score, train_test_split
from sklearn.utils import shuffle
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.feature_extraction.text import TfidfVectorizer 
from sklearn.metrics import f1_score

from lightgbm import LGBMClassifier

import re

In [2]:
data = pd.read_csv('toxic_comments.csv')

In [3]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 159571 entries, 0 to 159570
Data columns (total 2 columns):
 #   Column  Non-Null Count   Dtype 
---  ------  --------------   ----- 
 0   text    159571 non-null  object
 1   toxic   159571 non-null  int64 
dtypes: int64(1), object(1)
memory usage: 2.4+ MB


In [4]:
display(data.sample(5))

Unnamed: 0,text,toxic
47291,"""\n\n Speedy deletion declined: SDK carbine \n...",0
16511,Chicago Style seems to be one of the few edito...,0
50702,Wait a Minute \n\nSorry if I sounded accusing!...,0
71467,"""\n \nCustom500\n\nIts my user page, ill edit ...",0
93263,"""\n\n Name \n\nIsn't """"woodrat"""" a more common...",0


In [5]:
data.describe()

Unnamed: 0,toxic
count,159571.0
mean,0.101679
std,0.302226
min,0.0
25%,0.0
50%,0.0
75%,0.0
max,1.0


Признак "токсичный" установлен для 10% комментариев.

<a name="21"></a>
### Очистка

In [6]:
def clear_text(text):
    
    '''переводит в нижний регистр, оставляет только латиницу, удаляет stop_words'''
    
    stop_words = set(nltk_stopwords.words('english'))
    text = text.lower()
    word_list = re.sub(r"[^a-z ]", ' ', text).split()
    word_notstop_list = [w for w in word_list if not w in stop_words]
    return ' '.join(word_notstop_list)

In [7]:
data['clean_text'] = data['text'].apply(clear_text)

In [8]:
display(data.sample(5))

Unnamed: 0,text,toxic,clean_text
94351,"""\n\n next steps in a ArbCom \n\nHello. I than...",0,next steps arbcom hello thank welcome subscrib...
81572,"""\n\n Pro-life/Pro-choice celebrities \n\nI se...",0,pro life pro choice celebrities see told choos...
54470,And you might want to check the spelling of do...,1,might want check spelling douchebag
31289,Please:)? \n\nDo you mind if I steal the cool ...,0,please mind steal cool shadowing use signature...
87209,"""\n\nok. I understand and it is your page. duc...",0,ok understand page duck talk


<a name="22"></a>
### Лемматизация WordNetLemmatizer

In [9]:
def lemm_text(text):
    
    '''Лемматизирует строку WordNetLemmatizer'''
    
    lemmatizer = WordNetLemmatizer()
    word_list = text.split()
    lemmatized_text = ' '.join([lemmatizer.lemmatize(w) for w in word_list])
    return lemmatized_text

In [10]:
beg_time = datetime.datetime.now()
data['wnl_text'] = data['clean_text'].apply(lemm_text)
data_lemm_time = (datetime.datetime.now()-beg_time).seconds

print(data_lemm_time)

48


<a name="23"></a>
### Лемматизация WordNetLemmatizer + pos_tag

In [11]:
def get_wordnet_pos(word):
    """Map POS tag to first character lemmatize() accepts"""
    tag = nltk.pos_tag([word])[0][1][0].upper()
    tag_dict = {"J": wordnet.ADJ,
                "N": wordnet.NOUN,
                "V": wordnet.VERB,
                "R": wordnet.ADV}
    return tag_dict.get(tag, wordnet.NOUN)

In [12]:
def postag_lemm_text(text):
    
    '''Лемматизирует строку WordNetLemmatizer с учетом nltk.pos_tag'''
    
    lemmatizer = WordNetLemmatizer()
    word_list = text.split()
    lemmatized_text = ' '.join([lemmatizer.lemmatize(w, get_wordnet_pos(w)) for w in word_list])
    return lemmatized_text

In [13]:
beg_time = datetime.datetime.now()
data['wnlpostag_text'] = data['clean_text'].apply(postag_lemm_text)
data_lemm_time = (datetime.datetime.now()-beg_time).seconds

print(data_lemm_time)

4175


In [14]:
#промежуточно сохраняю файл с очищенными и лемматизированными комментариями
'''
data.to_csv('data_lemm2.csv', index=False)
data = pd.read_csv('data_lemm2.csv')'''
display(data.sample(3).T)

Unnamed: 0,37737,33766,25234
text,Absolutely. I really mostly thought that that...,Its also interesting to note that this film ha...,"THERE YOU ARE, HIDING LIKE PILLBUG UNDER THE R..."
toxic,0,0,1
clean_text,absolutely really mostly thought one paragraph...,also interesting note film never released th u...,hiding like pillbug rock man worm
wnl_text,absolutely really mostly thought one paragraph...,also interesting note film never released th u...,hiding like pillbug rock man worm
wnlpostag_text,absolutely really mostly thought one paragraph...,also interest note film never release th uk ei...,hiding like pillbug rock man worm


<a name="3"></a>
## Обучение

In [15]:
kfold = KFold(n_splits=5, random_state=123, shuffle=True)

In [16]:
corpus = data['wnl_text'].astype('U').values
corpus_2 = data['wnlpostag_text'].astype('U').values

In [17]:
count_tf_idf = TfidfVectorizer()
tf_idf = count_tf_idf.fit_transform(corpus)

In [18]:
count_tf_idf_2 = TfidfVectorizer()
tf_idf_2 = count_tf_idf_2.fit_transform(corpus_2)

In [19]:
features_train, features_test, target_train, target_test = train_test_split(
    tf_idf, 
    data['toxic'].values, 
    test_size=0.2, stratify=data['toxic'].values, shuffle=True, random_state=123)

In [20]:
features_train_2, features_test_2, target_train_2, target_test_2 = train_test_split(
    tf_idf_2, 
    data['toxic'].values, 
    test_size=0.2, stratify=data['toxic'].values, shuffle=True, random_state=123)

<a name="31"></a>
### LogisticRegression

In [21]:
beg_time = datetime.datetime.now()

model_1 = LogisticRegression(solver='liblinear', class_weight='balanced', random_state=123)

model_1.mod = 'model_1'
model_1.name = 'LogisticRegression'
model_1.data = 'wnl_text'
model_1.f1 = cross_val_score(model_1, features_train, target_train, cv=kfold, scoring='f1')
model_1.time = (datetime.datetime.now()-beg_time).seconds

print('f1: %.3f' %(model_1.f1.mean()), 
      'модель:', model_1.name, 
      'данные:', model_1.data, 
      'время работы модели:', model_1.time)

f1: 0.758 модель: LogisticRegression данные: wnl_text время работы модели: 17


In [22]:
beg_time = datetime.datetime.now()

model_2 = LogisticRegression(solver='liblinear', class_weight='balanced', random_state=123)

model_2.mod = 'model_2'
model_2.name = 'LogisticRegression'
model_2.data = 'wnlpostag_text'
model_2.f1 = cross_val_score(model_2, features_train_2, target_train_2, cv=kfold, scoring='f1')

model_2.time = (datetime.datetime.now()-beg_time).seconds

print('f1: %.3f' %(model_2.f1.mean()), 
      'модель:', model_2.name, 
      'данные:', model_2.data, 
      'время работы модели:', model_2.time)

f1: 0.757 модель: LogisticRegression данные: wnlpostag_text время работы модели: 17


<a name="32"></a>
### DecisionTreeClassifier

In [23]:
beg_time = datetime.datetime.now()

model_3 = DecisionTreeClassifier(class_weight='balanced', random_state=123)

model_3.mod = 'model_3'
model_3.name = 'DecisionTreeClassifier'
model_3.data = 'wnl_text'
model_3.f1 = cross_val_score(model_3, features_train, target_train, cv=kfold, scoring='f1')

model_3.time = (datetime.datetime.now()-beg_time).seconds

print('f1: %.3f' %(model_3.f1.mean()), 
      'модель:', model_3.name, 
      'данные:', model_3.data, 
      'время работы модели:', model_3.time)

f1: 0.659 модель: DecisionTreeClassifier данные: wnl_text время работы модели: 1077


In [24]:
beg_time = datetime.datetime.now()

model_4 = DecisionTreeClassifier(class_weight='balanced', random_state=123)

model_4.mod = 'model_4'
model_4.name = 'DecisionTreeClassifier'
model_4.data = 'wnlpostag_text'
model_4.f1 = cross_val_score(model_4, features_train_2, target_train_2, cv=kfold, scoring='f1')

model_4.time = (datetime.datetime.now()-beg_time).seconds

print('f1: %.3f' %(model_4.f1.mean()), 
      'модель:', model_4.name, 
      'данные:', model_4.data, 
      'время работы модели:', model_4.time)

f1: 0.666 модель: DecisionTreeClassifier данные: wnlpostag_text время работы модели: 955


<a name="33"></a>
### LGBMClassifier 

In [25]:
beg_time = datetime.datetime.now()

model_5 = LGBMClassifier(n_estimators=50, class_weight='balanced', boosting_type='gbdt', 
                         objective='binary', random_state=123)

model_5.mod = 'model_5'
model_5.name = 'LGBMClassifier 50'
model_5.data = 'wnl_text'
model_5.f1 = cross_val_score(model_5, features_train, target_train, cv=kfold, scoring='f1')

model_5.time = (datetime.datetime.now()-beg_time).seconds

print('f1: %.3f' %(model_5.f1.mean()), 
      'модель:', model_5.name, 
      'данные:', model_5.data, 
      'время работы модели:', model_5.time)

f1: 0.729 модель: LGBMClassifier 50 данные: wnl_text время работы модели: 229


In [26]:
beg_time = datetime.datetime.now()

model_6 = LGBMClassifier(n_estimators=50, class_weight='balanced', boosting_type='gbdt', 
                         objective='binary', random_state=123)

model_6.mod = 'model_6'
model_6.name = 'LGBMClassifier 50'
model_6.data = 'wnlpostag_text'
model_6.f1 = cross_val_score(model_6, features_train_2, target_train_2, cv=kfold, scoring='f1')

model_6.time = (datetime.datetime.now()-beg_time).seconds

print('f1: %.3f' %(model_6.f1.mean()), 
      'модель:', model_6.name, 
      'данные:', model_6.data, 
      'время работы модели:', model_6.time)

f1: 0.729 модель: LGBMClassifier 50 данные: wnlpostag_text время работы модели: 209


In [27]:
beg_time = datetime.datetime.now()

model_7 = LGBMClassifier(n_estimators=500, class_weight='balanced', boosting_type='gbdt', 
                         objective='binary', random_state=123)

model_7.mod = 'model_7'
model_7.name = 'LGBMClassifier 500'
model_7.data = 'wnl_text'
model_7.f1 = cross_val_score(model_7, features_train, target_train, cv=kfold, scoring='f1')

model_7.time = (datetime.datetime.now()-beg_time).seconds

print('f1: %.3f' %(model_7.f1.mean()), 
      'модель:', model_7.name, 
      'данные:', model_7.data, 
      'время работы модели:', model_7.time)

f1: 0.769 модель: LGBMClassifier 500 данные: wnl_text время работы модели: 1371


In [28]:
beg_time = datetime.datetime.now()

model_8 = LGBMClassifier(n_estimators=500, class_weight='balanced', boosting_type='gbdt', 
                         objective='binary', random_state=123)

model_8.mod = 'model_8'
model_8.name = 'LGBMClassifier 500'
model_8.data = 'wnlpostag_text'
model_8.f1 = cross_val_score(model_5, features_train_2, target_train_2, cv=kfold, scoring='f1')

model_8.time = (datetime.datetime.now()-beg_time).seconds

print('f1: %.3f' %(model_8.f1.mean()), 
      'модель:', model_8.name, 
      'данные:', model_8.data, 
      'время работы модели:', model_8.time)

f1: 0.729 модель: LGBMClassifier 500 данные: wnlpostag_text время работы модели: 212


<a name="34"></a>
### Сравнение

In [29]:
model_list = [model_1, model_2, model_3, model_4, model_5, model_6, model_7, model_8]

In [30]:
a={}
for i in model_list:
    b={}    
    b['model']=i.name
    b['data']=i.data
    b['f1_score']=i.f1.mean()
    b['cross_val_time']=i.time
    a[i.mod] = b

final_table = pd.DataFrame(a)

In [31]:
display(final_table.T)

Unnamed: 0,model,data,f1_score,cross_val_time
model_1,LogisticRegression,wnl_text,0.758474,17
model_2,LogisticRegression,wnlpostag_text,0.757118,17
model_3,DecisionTreeClassifier,wnl_text,0.658575,1077
model_4,DecisionTreeClassifier,wnlpostag_text,0.665997,955
model_5,LGBMClassifier 50,wnl_text,0.728778,229
model_6,LGBMClassifier 50,wnlpostag_text,0.729446,209
model_7,LGBMClassifier 500,wnl_text,0.769447,1371
model_8,LGBMClassifier 500,wnlpostag_text,0.729446,212


<a name="4"></a>
## Тестирование

In [32]:
model_1.fit(features_train, target_train)
model_1.predicted = model_1.predict(features_test)
model_1.test_f1 = f1_score(target_test, model_1.predicted)
print(model_1.test_f1)

0.7521367521367522


In [33]:
model_7.fit(features_train, target_train)
model_7.predicted = model_7.predict(features_test)
model_7.test_f1 = f1_score(target_test, model_7.predicted)
print(model_7.test_f1)

0.7665763581919293


<a name="5"></a>
## Выводы

Наилучшие результаты показала модель LGBMClassifier с n_estimators=500 и логистическая регрессия на менее обработанных данных (лемматизация без учета части речи). При этом логистическая регрессия значительно быстрее. Увеличение метрик возможно за счет подбора более результативных вариантов предобработки, перебора гиперпараметров и использования более серьезных специализированных инструментов, но такие мероприятия более ресурсоёмки (требуют использования более произодительных вычислительных мощностей или увеличения времени обработки задачи).

Установленное значение метрики f1 (0.75) было достигнуто.

**Чек-лист проверки**

- [x]  Jupyter Notebook открыт
- [x]  Весь код выполняется без ошибок
- [x]  Ячейки с кодом расположены в порядке исполнения
- [x]  Данные загружены и подготовлены
- [x]  Модели обучены
- [x]  Значение метрики *F1* не меньше 0.75
- [x]  Выводы написаны