<h1>Содержание<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Подготовка" data-toc-modified-id="Подготовка-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Подготовка</a></span><ul class="toc-item"><li><span><a href="#Начало-лемматизации" data-toc-modified-id="Начало-лемматизации-1.1"><span class="toc-item-num">1.1&nbsp;&nbsp;</span>Начало лемматизации</a></span></li><li><span><a href="#Оценка-Spacy" data-toc-modified-id="Оценка-Spacy-1.2"><span class="toc-item-num">1.2&nbsp;&nbsp;</span>Оценка Spacy</a></span></li></ul></li><li><span><a href="#Обучение" data-toc-modified-id="Обучение-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Обучение</a></span><ul class="toc-item"><li><span><a href="#С-обычной-векторизацией" data-toc-modified-id="С-обычной-векторизацией-2.1"><span class="toc-item-num">2.1&nbsp;&nbsp;</span>С обычной векторизацией</a></span></li><li><span><a href="#C-TFIDF--векторизацией" data-toc-modified-id="C-TFIDF--векторизацией-2.2"><span class="toc-item-num">2.2&nbsp;&nbsp;</span>C TFIDF  векторизацией</a></span></li></ul></li><li><span><a href="#Тестирование" data-toc-modified-id="Тестирование-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Тестирование</a></span></li><li><span><a href="#Выводы" data-toc-modified-id="Выводы-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Выводы</a></span></li><li><span><a href="#Чек-лист-проверки" data-toc-modified-id="Чек-лист-проверки-5"><span class="toc-item-num">5&nbsp;&nbsp;</span>Чек-лист проверки</a></span></li></ul></div>

# Проект для «Викишоп»

Интернет-магазин «Викишоп» запускает новый сервис. Теперь пользователи могут редактировать и дополнять описания товаров, как в вики-сообществах. То есть клиенты предлагают свои правки и комментируют изменения других. Магазину нужен инструмент, который будет искать токсичные комментарии и отправлять их на модерацию. 

Наша цель - обучить модель классифицировать комментарии на позитивные и негативные. В нашем распоряжении набор данных с разметкой о токсичности правок.

Значение метрики качества *F1* должно быть не меньше 0.75. 

**Инструкция по выполнению проекта**

1. Загрузить и подготовить данные.
2. Обучить разные модели. 
3. Сделать выводы.

**Описание данных**

Данные находятся в файле `toxic_comments.csv`. Столбец *text* в нём содержит текст комментария, а *toxic* — целевой признак.

## Подготовка

In [1]:
import numpy as np
import pandas as pd
import matplotlib as plt
import seaborn as sns

from tqdm import tqdm
from tqdm import notebook

from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import train_test_split
from sklearn.model_selection import cross_val_score
from sklearn.metrics import f1_score
from sklearn.metrics import classification_report
from sklearn.metrics import confusion_matrix
from sklearn.metrics import plot_roc_curve
from sklearn.metrics import roc_curve 
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import StandardScaler

import lightgbm as lgb

from joblib import dump

import time

import re

import nltk
from nltk.corpus import stopwords as nltk_stopwords
from nltk.stem import WordNetLemmatizer
from nltk.corpus import wordnet

import spacy

In [2]:
data = pd.read_csv('/datasets/toxic_comments.csv')

In [3]:
display(data)

Unnamed: 0.1,Unnamed: 0,text,toxic
0,0,Explanation\nWhy the edits made under my usern...,0
1,1,D'aww! He matches this background colour I'm s...,0
2,2,"Hey man, I'm really not trying to edit war. It...",0
3,3,"""\nMore\nI can't make any real suggestions on ...",0
4,4,"You, sir, are my hero. Any chance you remember...",0
...,...,...,...
159287,159446,""":::::And for the second time of asking, when ...",0
159288,159447,You should be ashamed of yourself \n\nThat is ...,0
159289,159448,"Spitzer \n\nUmm, theres no actual article for ...",0
159290,159449,And it looks like it was actually you who put ...,0


Давайте посмотрим, что за токсичные комментарии? 

In [4]:
print(data[data['toxic']==1].tail(30))

        Unnamed: 0                                               text  toxic
158989      159148  Hi Bading \nPutang ina mong bakla ka. Fuck you...      1
158995      159154  "\n\nStudy some linguistics before you say som...      1
159002      159161  LoL!! \n\nyou're GAY!! you will never know how...      1
159011      159170  Hey alabamoy boy why dont you stick your head ...      1
159019      159178           , are you dumber than you look? asshole.      1
159022      159181  The first of your links is something to agree ...      1
159033      159192  Walter Mercado \n\nAntonio, quite frankly, you...      1
159036      159195  http://www.nysun.com/article/23698 - public in...      1
159055      159214  Horse's ass \n\nSeriously, dude, what's that h...      1
159057      159216  Oh, fuck off. The pansy Jew would just whine a...      1
159063      159222  Fuck off turd. Don't ever ban me again you cun...      1
159079      159238  Goethean and me\n\nI would like you to know I ...      1

Теперь мы можем продемонстрировать, от чего защищаем наш толерантный мир.

Также сразу можем лишнюю колоночку убрать.

In [5]:
data = data.drop('Unnamed: 0', axis =1)
display(data)

Unnamed: 0,text,toxic
0,Explanation\nWhy the edits made under my usern...,0
1,D'aww! He matches this background colour I'm s...,0
2,"Hey man, I'm really not trying to edit war. It...",0
3,"""\nMore\nI can't make any real suggestions on ...",0
4,"You, sir, are my hero. Any chance you remember...",0
...,...,...
159287,""":::::And for the second time of asking, when ...",0
159288,You should be ashamed of yourself \n\nThat is ...,0
159289,"Spitzer \n\nUmm, theres no actual article for ...",0
159290,And it looks like it was actually you who put ...,0


теперь загрузим лемматизатор и стоп-слова

### Начало лемматизации

In [6]:
nltk.download('stopwords')
nltk.download('wordnet')
nltk.download('averaged_perceptron_tagger')

[nltk_data] Downloading package stopwords to /home/jovyan/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package wordnet to /home/jovyan/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /home/jovyan/nltk_data...
[nltk_data]   Unzipping taggers/averaged_perceptron_tagger.zip.


True

In [7]:
lemmatizer = WordNetLemmatizer()
stop_words = set(nltk_stopwords.words('english'))

Теперь напишем функцию для лемматизации текста, и запустим ее. 

In [8]:
#def lemmatize_comment(comment):
#    words = nltk.word_tokenize(comment.lower())
#    words = [word for word in words if word not in stop_words]
#    words = [lemmatizer.lemmatize(word) for word in words]
#    return ' '.join(words)

Так я пока и не совсем понял, как это работает. Тогда будем выяснять на практике. 

In [9]:
test_text = ['beer', 'beautiful', 'shiny', 'average', 'replace', 'normally']

In [10]:
new = nltk.pos_tag(test_text)
print(new)

[('beer', 'NN'), ('beautiful', 'NN'), ('shiny', 'JJ'), ('average', 'JJ'), ('replace', 'VB'), ('normally', 'RB')]


Такое интересное существительное 'beautiful'...

In [11]:
print(new[1])
print(new[1][1])

('beautiful', 'NN')
NN


Ну а теперь уже понятней. Нам надо В какой-то wordnet. формат это все перевести. Пробуем дальше

In [12]:
def get_wordnet_pos(pos_tag):
    if pos_tag.startswith('J'):
        return wordnet.ADJ
    elif pos_tag.startswith('V'):
        return wordnet.VERB
    elif pos_tag.startswith('N'):
        return wordnet.NOUN
    elif pos_tag.startswith('R'):
        return wordnet.ADV
    else:
        return None

In [13]:
new_tagged = [(word, get_wordnet_pos(pos_tag)) for word, pos_tag in new]
print(new_tagged)

[('beer', 'n'), ('beautiful', 'n'), ('shiny', 'a'), ('average', 'a'), ('replace', 'v'), ('normally', 'r')]


Вот как-то оно не так работает

In [14]:
def get_wordnet_pos2(word):
    tag = nltk.pos_tag([word])[0][1][0].upper()
    tag_dict = {"J": wordnet.ADJ,
                "N": wordnet.NOUN,
                "V": wordnet.VERB,
                "R": wordnet.ADV}
    return tag_dict.get(tag, wordnet.NOUN)

In [15]:
new_tagged2 = [(word, get_wordnet_pos(pos_tag)) for word, pos_tag in new]
print(new_tagged2)

[('beer', 'n'), ('beautiful', 'n'), ('shiny', 'a'), ('average', 'a'), ('replace', 'v'), ('normally', 'r')]


In [16]:
def lemmatize_comment_with_pos(comment):
    words = nltk.word_tokenize(comment.lower())
    words = [word for word in words if word not in stop_words]
    pos_tags = nltk.pos_tag(words)
    words = [(word, get_wordnet_pos(pos_tag)) for word, pos_tag in pos_tags]
    words = [lemmatizer.lemmatize(word, pos=pos) if pos is not None else lemmatizer.lemmatize(word) for word, pos in words]
    return ' '.join(words)

In [17]:
start_time = time.time()
data['lemmatized'] = data['text'].apply(lemmatize_comment_with_pos)
end_time = time.time()
print('Execution time:', end_time - start_time, 'seconds')

Execution time: 433.42681312561035 seconds


In [18]:
data

Unnamed: 0,text,toxic,lemmatized
0,Explanation\nWhy the edits made under my usern...,0,explanation edits make username hardcore metal...
1,D'aww! He matches this background colour I'm s...,0,d'aww ! match background colour 'm seemingly s...
2,"Hey man, I'm really not trying to edit war. It...",0,"hey man , 'm really try edit war . 's guy cons..."
3,"""\nMore\nI can't make any real suggestions on ...",0,`` ca n't make real suggestion improvement - w...
4,"You, sir, are my hero. Any chance you remember...",0,", sir , hero . chance remember page 's ?"
...,...,...,...
159287,""":::::And for the second time of asking, when ...",0,"`` : : : : : second time ask , view completely..."
159288,You should be ashamed of yourself \n\nThat is ...,0,ashamed horrible thing put talk page . 128.61....
159289,"Spitzer \n\nUmm, theres no actual article for ...",0,"spitzer umm , theres actual article prostituti..."
159290,And it looks like it was actually you who put ...,0,look like actually put speedy first version de...


как минимум не ожидал, что это лемматизация с POS будет занимать настьлько больше времени

In [8]:
nlp = spacy.load("en_core_web_sm")

In [9]:
nlp.pipe_names

['tok2vec', 'tagger', 'parser', 'attribute_ruler', 'lemmatizer', 'ner']

In [23]:
def spacy_lemmatize(text):
    doc = nlp(text)
    lemmatized_text = " ".join([token.lemma_ for token in doc])
    return lemmatized_text

In [21]:
alt_text = data['text'].str.lower().copy()

In [22]:
start_time = time.time()
alt_lemmatizated = alt_text.apply(spacy_lemmatize)
end_time = time.time()
print('Execution time:', end_time - start_time, 'seconds')

Execution time: 2226.2917981147766 seconds


In [23]:
print(alt_lemmatizated)

0         explanation \n why the edit make under my user...
1         d'aww ! he match this background colour I be s...
2         hey man , I be really not try to edit war . it...
3         " \n more \n I can not make any real suggestio...
4         you , sir , be my hero . any chance you rememb...
                                ...                        
159287    " : : : : : and for the second time of asking ...
159288    you should be ashamed of yourself \n\n that be...
159289    spitzer \n\n umm , there s no actual article f...
159290    and it look like it be actually you who put on...
159291    " \n and ... I really do not think you underst...
Name: text, Length: 159292, dtype: object


In [24]:
#alt_lemmatizated = alt_lemmatizated.str.lower()

Насчет работет быстрее - я не заметил

Чтобы хотя бы от некоторых проблем избавиться давайте  попробуем сделать функцию для очистки текстов и тоже ее применим.

In [25]:
def clear_comment(comment):
    comment = re.sub(r'[^\w\s+]', '', comment)
    comment = re.sub(r'\d+', '', comment)
    return ' '.join(comment.split())

In [26]:
start_time = time.time()
data['cleared'] = data['lemmatized'].apply(clear_comment)
end_time = time.time()
print('Execution time:', end_time - start_time, 'seconds')

Execution time: 2.4627511501312256 seconds


In [27]:
data

Unnamed: 0,text,toxic,lemmatized,cleared
0,Explanation\nWhy the edits made under my usern...,0,explanation edits make username hardcore metal...,explanation edits make username hardcore metal...
1,D'aww! He matches this background colour I'm s...,0,d'aww ! match background colour 'm seemingly s...,daww match background colour m seemingly stick...
2,"Hey man, I'm really not trying to edit war. It...",0,"hey man , 'm really try edit war . 's guy cons...",hey man m really try edit war s guy constantly...
3,"""\nMore\nI can't make any real suggestions on ...",0,`` ca n't make real suggestion improvement - w...,ca nt make real suggestion improvement wondere...
4,"You, sir, are my hero. Any chance you remember...",0,", sir , hero . chance remember page 's ?",sir hero chance remember page s
...,...,...,...,...
159287,""":::::And for the second time of asking, when ...",0,"`` : : : : : second time ask , view completely...",second time ask view completely contradict cov...
159288,You should be ashamed of yourself \n\nThat is ...,0,ashamed horrible thing put talk page . 128.61....,ashamed horrible thing put talk page
159289,"Spitzer \n\nUmm, theres no actual article for ...",0,"spitzer umm , theres actual article prostituti...",spitzer umm theres actual article prostitution...
159290,And it looks like it was actually you who put ...,0,look like actually put speedy first version de...,look like actually put speedy first version de...


вроде и неплохо, только пробелы бы убрать.

In [28]:
alt_corpus = alt_lemmatizated.apply(clear_comment)

In [29]:
print(alt_corpus)

0         explanation why the edit make under my usernam...
1         daww he match this background colour i be seem...
2         hey man i be really not try to edit war it be ...
3         more i can not make any real suggestion on imp...
4         you sir be my hero any chance you remember wha...
                                ...                        
159287    and for the second time of asking when your vi...
159288    you should be ashamed of yourself that be a ho...
159289    spitzer umm there s no actual article for pros...
159290    and it look like it be actually you who put on...
159291    and i really do not think you understand i com...
Name: text, Length: 159292, dtype: object


In [30]:
data['cleared'] = data['cleared'].str.strip()
print(data['cleared'][159288])

ashamed horrible thing put talk page


Может, с отображением проблемы? выводится отдельно все без пробела. 

In [31]:
corpus = data['cleared']

Привет из будущего... Вспомнил важный момент, что мы не можем обучать трансформеров на тестовой и валидационной выборках. Поэтому именно сейчас мы разобьем датасет на выборки. перед тем, как делать векторизацию.

In [32]:
y = data['toxic']
x = corpus

In [33]:
x_train, x_test, y_train, y_test = train_test_split(
    x, y, test_size=0.2, random_state=1984, stratify=y)
x_train, x_valid, y_train, y_valid = train_test_split(
    x_train, y_train, test_size=0.25, random_state=1984, stratify=y_train)

In [34]:
x_train2, x_test2, y_train2, y_test2 = train_test_split(
    alt_corpus, y, test_size=0.2, random_state=1984, stratify=y)
x_train2, x_valid2, y_train2, y_valid2 = train_test_split(
    x_train2, y_train2, test_size=0.25, random_state=1984, stratify=y_train2)

In [35]:
count_vect = CountVectorizer()
bow = count_vect.fit_transform(x_train)

In [36]:
display(bow)

<95574x141430 sparse matrix of type '<class 'numpy.int64'>'
	with 2523367 stored elements in Compressed Sparse Row format>

ну мешок у нас есть, он представляет собой матрицу 159292 на 198696, можем еще внутрь заглянуть:

In [37]:
count_vect.get_feature_names() 

['__',
 '___',
 '____',
 '_____',
 '______',
 '_______',
 '________',
 '___________',
 '_____________',
 '_______________',
 '________________',
 '__________________',
 '____________________',
 '________________________',
 '_________________________',
 '____________________________',
 '_____________________________',
 '________________________________________',
 '_________________________________________________',
 '__________________________________________________',
 '_____________________________________________________',
 '_______________________________________________________________',
 '________________________________________________________________',
 '_________________________________________________________________',
 '_____________________________________________________________________',
 '____________________________________________________________________________',
 '_____________________________________________________________________________',
 '_______________________

Вот это слово из нашего словаря точно все описывает - 'abracadabra'. Похоже, есть деффекты при чистке слов? Ладно, пока оставим и хотя бы одну модель протестируем, а потом уже посмотрим, насколько большие у нас проблемы с качеством из-за этого.

В принципе результат уже довольно неплох уже на самой первой модели регрессии. Так что вместо того, чтобы отсеять 50-100 слов из 200 000, давайте попробуем сделать другую модель для кодирования слов, а именно - используем веторизатор TFIDF.

In [38]:
print(x_train)

84872     arrival celt though may literally correct ref ...
117136    hi shirahadasha look nt problem sorry nt get b...
56289     belated welcome s wishing belated welcome wiki...
22348     could find source sept th live chat believe ex...
133257    grand boucle hi maybe answer question talk gra...
                                ...                        
64680     wp bn friendly poke hello raul sorry bother se...
144484    use fact nt time especially since vandal rever...
52979     digg troll vandalize volume_license_key fckgw ...
59089     image copyright problem image pjpg thanks uplo...
115270    thanks ok tco need rm hit stats give convince ...
Name: cleared, Length: 95574, dtype: object


In [39]:
tfidf_vect = TfidfVectorizer()
x_train_tfidf = tfidf_vect.fit_transform(x_train)

In [40]:
x_train_tfidf.shape

(95574, 141430)

In [41]:
print(x_train_tfidf)

  (0, 97502)	0.16961894096501304
  (0, 132487)	0.05885341706526875
  (0, 67633)	0.08477835934164034
  (0, 128405)	0.05133440699413286
  (0, 4225)	0.07457883624977993
  (0, 12618)	0.07175384728538492
  (0, 113703)	0.13333122262229258
  (0, 73005)	0.0667679939253027
  (0, 28148)	0.10125238332219824
  (0, 73799)	0.08213425316072874
  (0, 116212)	0.08552817914349645
  (0, 125604)	0.19445915871191194
  (0, 67187)	0.11511953891067822
  (0, 41463)	0.09214014687449916
  (0, 86426)	0.0495900834328368
  (0, 22368)	0.09919388188730485
  (0, 128115)	0.12711759889933683
  (0, 57938)	0.1409715668257616
  (0, 77090)	0.12282770765440137
  (0, 25426)	0.09474219687205253
  (0, 60771)	0.235511742092451
  (0, 90631)	0.05805212242295185
  (0, 113665)	0.08914590406303474
  (0, 19879)	0.4165422551270981
  (0, 50584)	0.08244018575228369
  :	:
  (95572, 98100)	0.08381959055958083
  (95572, 4268)	0.034172158669471764
  (95572, 43878)	0.07595864978030815
  (95572, 120703)	0.0404159897808577
  (95572, 107695)	0.0

### Оценка Spacy

Я здесь налепил все в кучу. я не хотел переделывать весь проект, только одним глазком оценить эффективность **SPACY** относительно ворднета. Но немножко затянулось. Целиком не буду все переделывать, если не будет прямо радикальных отличий по качеству. Скорее просто для личной информации, чтобы понимать, чем лучше пользоваться в будущем и заодно продемонстрировать, что я в спэйси тоже научился.

In [42]:
count_vect2 = CountVectorizer()
bow2 = count_vect2.fit_transform(x_train2)

In [43]:
display(bow2)

<95574x123556 sparse matrix of type '<class 'numpy.int64'>'
	with 3831330 stored elements in Compressed Sparse Row format>

In [44]:
count_vect2.get_feature_names() 

['__',
 '___',
 '_____',
 '________',
 '____________________',
 '_accepted',
 '_itm',
 '_n__w_region',
 '_not_using_byte',
 '_o',
 '_pound_man_in_drag_eating_steakpng',
 '_simple_rules_for_buying_my_teenage_daughter',
 'a_cardboard_microwave',
 'a_hero_sits_next_door',
 'a_picture_is_worth_a__buck',
 'a_rticle',
 'a_smoky_mountain_christmasjpg',
 'a_to_z_butterfingerjpg',
 'aa',
 'aaa',
 'aaaa',
 'aaaaaaaa',
 'aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaany',
 'aaaaaaaaaah',
 'aaaaaaaaaahhhhhhhhhhhhhh',
 'aaaaaaaayui',
 'aaaaaaahhhhhhhhhhhhhhhhhhhhhhhh',
 'aaaaaaw',
 'aaaaah',
 'aaaaajpg',
 'aaaannnnyyyywwwwhhhheeeerrrreeee',
 'aaaawwww',
 'aaaboyzhotmailcom',
 'aaage',
 'aaaghh',
 'aaah',
 'aaahhh',
 'aaai',
 'aaan',
 'aaand',
 'aaba',
 'aabove',
 'aac',
 'aacd',
 'aachen',
 'aachi',
 'aad_dira',
 'aadd',
 'aadil',
 'aadmi',
 'aaf',
 'aaffect',
 'aafia',
 'aafs',
 'aage',
 'aagf',
 'aagin',
 'aah',
 'aahahahahahaha',
 'aahh',
 'aahil',
 'aahoa',
 'aai',
 'aajo

In [45]:
x_train2_cv = bow2
print(x_train2_cv.shape, y_train.shape)

(95574, 123556) (95574,)


In [46]:
x_valid2_cv = count_vect2.transform(x_valid2)

In [47]:
print(x_valid2_cv.shape, y_valid2.shape)

(31859, 123556) (31859,)


In [48]:
clf_alt = LogisticRegression()
clf_alt.fit(x_train2_cv, y_train2)

STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


LogisticRegression()

In [49]:
print(classification_report(
    y_valid2, clf_alt.predict(x_valid2_cv), target_names=['0', '1']))

              precision    recall  f1-score   support

           0       0.96      0.99      0.98     28622
           1       0.87      0.68      0.76      3237

    accuracy                           0.96     31859
   macro avg       0.92      0.83      0.87     31859
weighted avg       0.96      0.96      0.95     31859



In [50]:
train_data2_cv = lgb.Dataset(x_train2_cv.astype(float), label=y_train2, free_raw_data=False)
valid_data2_cv = lgb.Dataset(x_valid2_cv.astype(float), label=y_valid2, free_raw_data=False)

In [51]:
%%time
params = {
    'boosting_type': 'gbdt',
    'objective': 'binary',
    'metric': 'binary_logloss',
    'num_leaves': 31,
    'learning_rate': 0.1,
    'feature_fraction': 0.9,
    'bagging_fraction': 0.8,    
    'bagging_freq': 5,          
    'verbose': -1,              
    'n_jobs': -1               
}

lgbm_model_alt = lgb.train(
    params, train_data2_cv, num_boost_round=1000, valid_sets=[train_data2_cv, valid_data2_cv], early_stopping_rounds=50)



[1]	training's binary_logloss: 0.295066	valid_1's binary_logloss: 0.29608
Training until validation scores don't improve for 50 rounds
[2]	training's binary_logloss: 0.27052	valid_1's binary_logloss: 0.271838
[3]	training's binary_logloss: 0.254921	valid_1's binary_logloss: 0.256695
[4]	training's binary_logloss: 0.242731	valid_1's binary_logloss: 0.244894
[5]	training's binary_logloss: 0.233877	valid_1's binary_logloss: 0.23617
[6]	training's binary_logloss: 0.225027	valid_1's binary_logloss: 0.227425
[7]	training's binary_logloss: 0.218962	valid_1's binary_logloss: 0.22183
[8]	training's binary_logloss: 0.213392	valid_1's binary_logloss: 0.216255
[9]	training's binary_logloss: 0.208623	valid_1's binary_logloss: 0.211735
[10]	training's binary_logloss: 0.204513	valid_1's binary_logloss: 0.207812
[11]	training's binary_logloss: 0.200083	valid_1's binary_logloss: 0.203606
[12]	training's binary_logloss: 0.196387	valid_1's binary_logloss: 0.200235
[13]	training's binary_logloss: 0.191212

In [52]:
y_predicted_alt = (lgbm_model_alt.predict(x_valid2_cv.astype(float)) >= 0.5).astype(int)

In [53]:
print(classification_report(
    y_valid2, y_predicted_alt, target_names=['0', '1']))

              precision    recall  f1-score   support

           0       0.97      0.99      0.98     28622
           1       0.89      0.71      0.79      3237

    accuracy                           0.96     31859
   macro avg       0.93      0.85      0.88     31859
weighted avg       0.96      0.96      0.96     31859



Со Спэйси получилось лучше, чем с Ворднет, хоть и не радикально.

## Обучение

### С обычной векторизацией

В этом разделе мы обучим и протестируем несколько разных моделей. Ключевой метрикой будет показатель f1 по классу 1 (токсичные комментарии)

In [54]:
x_train_cv = bow
print(x_train_cv.shape, y_train.shape)

(95574, 141430) (95574,)


In [55]:
x_valid_cv = count_vect.transform(x_valid)

In [56]:
clf = LogisticRegression()
clf.fit(x_train_cv, y_train)

STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


LogisticRegression()

нам сразу сообщают, что можно добавить больше итераций. думаю, мы это сделаем в отдельной модели ниже.

In [57]:
print('accuracy =', clf.score(x_train_cv, y_train))

accuracy = 0.9798690020298407


In [58]:
print(classification_report(
    y_valid, clf.predict(x_valid_cv), target_names=['0', '1']))

              precision    recall  f1-score   support

           0       0.96      0.99      0.98     28622
           1       0.87      0.68      0.76      3237

    accuracy                           0.96     31859
   macro avg       0.92      0.83      0.87     31859
weighted avg       0.95      0.96      0.95     31859



 Вот оно, ничего не надо, простенькая регрессия и f1 уже 0.77
 
 Конечно, мы еще кое что попробуем как с точки зрения модели, так и с точки зрения кодировки - tfidf, но в любом случае результат уже радует.

In [59]:
%time
start_time = time.time()
rfc = RandomForestClassifier(n_estimators=50, random_state=42)
rfc.fit(x_train_cv, y_train)
end_time = time.time()
print('Execution time:', end_time - start_time, 'seconds')

CPU times: user 2 µs, sys: 0 ns, total: 2 µs
Wall time: 5.25 µs
Execution time: 183.48734593391418 seconds


In [60]:
print(classification_report(
    y_valid, rfc.predict(x_valid_cv), target_names=['0', '1']))

              precision    recall  f1-score   support

           0       0.95      1.00      0.97     28622
           1       0.93      0.55      0.69      3237

    accuracy                           0.95     31859
   macro avg       0.94      0.77      0.83     31859
weighted avg       0.95      0.95      0.94     31859



ну в принципе ожидаемо, что древесные истории с бОльшим трудом будут обрабатывать такие огромные матрицы числовых данных.
У меня, кстати, есть еще идея.

In [61]:
pipe = make_pipeline(StandardScaler(with_mean=False), LogisticRegression())
pipe.fit(x_train_cv, y_train)

print(pipe.score(x_train_cv, y_train))

0.994705673091008


STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


In [62]:
print(classification_report(
    y_valid, pipe.predict(x_valid_cv), target_names=['0', '1']))

              precision    recall  f1-score   support

           0       0.95      0.95      0.95     28622
           1       0.55      0.55      0.55      3237

    accuracy                           0.91     31859
   macro avg       0.75      0.75      0.75     31859
weighted avg       0.91      0.91      0.91     31859



скейлер тут не нужен. Вообще. Совсем. Нужен просто вектор длиной 150 000 знаков. Кстати, у нас там была какая-то проблемка с количеством итераций у регрессии. Мне кажется, если ее решить, это может на пользу пойти.

In [63]:
start_time = time.time()
clf2 = LogisticRegression(max_iter=1000)
clf2.fit(x_train_cv, y_train)
end_time = time.time()
print('Execution time:', end_time - start_time, 'seconds')

Execution time: 187.13575720787048 seconds


In [64]:
print(classification_report(
    y_valid, clf2.predict(x_valid_cv), target_names=['0', '1']))

              precision    recall  f1-score   support

           0       0.96      0.99      0.98     28622
           1       0.87      0.68      0.76      3237

    accuracy                           0.96     31859
   macro avg       0.92      0.83      0.87     31859
weighted avg       0.95      0.96      0.95     31859



Небольшая польза от увеличения количества итераций и правда есть, но тут скорее по нулю модель стала качественней. Тем не менее это все равно хорошо.

Давайте еще бустинг lightgbm сделаем для полного разнообразия.

In [65]:
train_data_cv = lgb.Dataset(x_train_cv.astype(float), label=y_train, free_raw_data=False)
valid_data_cv = lgb.Dataset(x_valid_cv.astype(float), label=y_valid, free_raw_data=False)

In [66]:
%%time
params = {
    'boosting_type': 'gbdt',
    'objective': 'binary',
    'metric': 'binary_logloss',
    'num_leaves': 31,
    'learning_rate': 0.1,
    'feature_fraction': 0.9,
    'bagging_fraction': 0.8,    
    'bagging_freq': 5,          
    'verbose': -1,              
    'n_jobs': -1               
}

lgbm_model = lgb.train(
    params, train_data_cv, num_boost_round=1000, valid_sets=[train_data_cv, valid_data_cv], early_stopping_rounds=100)



[1]	training's binary_logloss: 0.285295	valid_1's binary_logloss: 0.285957
Training until validation scores don't improve for 100 rounds
[2]	training's binary_logloss: 0.263464	valid_1's binary_logloss: 0.264726
[3]	training's binary_logloss: 0.249103	valid_1's binary_logloss: 0.250701
[4]	training's binary_logloss: 0.237856	valid_1's binary_logloss: 0.239481
[5]	training's binary_logloss: 0.228892	valid_1's binary_logloss: 0.230635
[6]	training's binary_logloss: 0.221129	valid_1's binary_logloss: 0.223323
[7]	training's binary_logloss: 0.21473	valid_1's binary_logloss: 0.217238
[8]	training's binary_logloss: 0.20931	valid_1's binary_logloss: 0.21218
[9]	training's binary_logloss: 0.204495	valid_1's binary_logloss: 0.207658
[10]	training's binary_logloss: 0.200407	valid_1's binary_logloss: 0.203755
[11]	training's binary_logloss: 0.196497	valid_1's binary_logloss: 0.200027
[12]	training's binary_logloss: 0.193558	valid_1's binary_logloss: 0.197279
[13]	training's binary_logloss: 0.1902

In [67]:
y_predicted = (lgbm_model.predict(x_valid_cv.astype(float)) >= 0.5).astype(int)

In [68]:
print(classification_report(
    y_valid, y_predicted, target_names=['0', '1']))

              precision    recall  f1-score   support

           0       0.97      0.99      0.98     28622
           1       0.88      0.69      0.77      3237

    accuracy                           0.96     31859
   macro avg       0.92      0.84      0.88     31859
weighted avg       0.96      0.96      0.96     31859



В прошлый раз регрессия дала лучший результат, а в этот раз lightgbm! 

### C TFIDF  векторизацией

Теперь мы обучим еще ряд моделей, но в этот раз для кодировки будем использовать векторизатор tfidf

И начнем мы снова с модели регресии

In [69]:
x_valid_tfidf = tfidf_vect.transform(x_valid)

In [70]:
clf3 = LogisticRegression()
clf3.fit(x_train_tfidf, y_train)

LogisticRegression()

In [71]:
print(classification_report(
    y_valid, clf3.predict(x_valid_tfidf), target_names=['0', '1']))

              precision    recall  f1-score   support

           0       0.96      1.00      0.98     28622
           1       0.93      0.59      0.72      3237

    accuracy                           0.95     31859
   macro avg       0.94      0.79      0.85     31859
weighted avg       0.95      0.95      0.95     31859



А здесь нам и увеличение числа итераций не потребуется. 

Радостного мало. модель на ifidf обладает худшим качеством, чем обычная векторизированная, хотя, может, это отностится только к регрессии?

In [72]:
start_time = time.time()
rfc2 = RandomForestClassifier(n_estimators=50, random_state=12345)
rfc2.fit(x_train_tfidf, y_train)
end_time = time.time()
print('Execution time:', end_time - start_time, 'seconds')

Execution time: 152.0334496498108 seconds


In [73]:
print(classification_report(
    y_valid, rfc2.predict(x_valid_tfidf), target_names=['0', '1']))

              precision    recall  f1-score   support

           0       0.95      1.00      0.97     28622
           1       0.94      0.53      0.68      3237

    accuracy                           0.95     31859
   macro avg       0.94      0.76      0.82     31859
weighted avg       0.95      0.95      0.94     31859



Нет, это относится не только к регрессии

In [74]:
train_data = lgb.Dataset(x_train_tfidf, label=y_train, free_raw_data=False)
valid_data = lgb.Dataset(x_valid_tfidf, label=y_valid, free_raw_data=False)

In [75]:
%%time
params = {
    'boosting_type': 'gbdt',
    'objective': 'binary',
    'metric': 'binary_logloss',
    'num_leaves': 31,
    'learning_rate': 0.1,
    'feature_fraction': 0.9,
    'bagging_fraction': 0.8,    
    'bagging_freq': 5,          
    'verbose': -1,              
    'n_jobs': -1               
}

lgbm_model1 = lgb.train(
    params, train_data, num_boost_round=1000, valid_sets=[train_data, valid_data], early_stopping_rounds=100)



[1]	training's binary_logloss: 0.283143	valid_1's binary_logloss: 0.284189
Training until validation scores don't improve for 100 rounds
[2]	training's binary_logloss: 0.260497	valid_1's binary_logloss: 0.262309
[3]	training's binary_logloss: 0.245734	valid_1's binary_logloss: 0.247994
[4]	training's binary_logloss: 0.233834	valid_1's binary_logloss: 0.236658
[5]	training's binary_logloss: 0.224557	valid_1's binary_logloss: 0.22757
[6]	training's binary_logloss: 0.216536	valid_1's binary_logloss: 0.21999
[7]	training's binary_logloss: 0.210221	valid_1's binary_logloss: 0.214013
[8]	training's binary_logloss: 0.204612	valid_1's binary_logloss: 0.208733
[9]	training's binary_logloss: 0.199477	valid_1's binary_logloss: 0.203765
[10]	training's binary_logloss: 0.195068	valid_1's binary_logloss: 0.199607
[11]	training's binary_logloss: 0.191138	valid_1's binary_logloss: 0.195971
[12]	training's binary_logloss: 0.188188	valid_1's binary_logloss: 0.193204
[13]	training's binary_logloss: 0.184

In [76]:
print(lgbm_model1.predict(x_valid_tfidf))

[0.04418984 0.04567854 0.00110065 ... 0.006036   0.00363593 0.0131143 ]


In [77]:
y_pred = (lgbm_model1.predict(x_valid_tfidf) >= 0.5).astype(int)

In [78]:
print(classification_report(
    y_valid, y_pred, target_names=['0', '1']))

              precision    recall  f1-score   support

           0       0.97      0.99      0.98     28622
           1       0.89      0.69      0.78      3237

    accuracy                           0.96     31859
   macro avg       0.93      0.84      0.88     31859
weighted avg       0.96      0.96      0.96     31859



Очень любопытно! Отстающая по всем моделям векторизация tfidf дала наилучший из всех моделей результат в сочетании с бустингом lightgb и отправляется на тестирование! 

Исходя из полученных результатов можно сделать вывод, что с помощью векторизации tfidf можно найти больше взаимосвязей в текстах, но для этого придется осуществить больше высилений. 

## Тестирование

На данном этапе мы берем нашу лучшую модель (lightgbm на tfidf), дообучаем ее на валидационной выборке и тестируем. Если f1 на тестовой выборке больше 0.75, то задача выполнена, можно делать выводы. Иначе придется возвращаться назад и дополнительно опробатывать данные/ тюнить модели.

In [79]:
x_train = pd.concat([x_train, x_valid], axis=0)

In [80]:
y_train = pd.concat([y_train, y_valid], axis=0)

In [81]:
print(x_train.shape, y_train.shape)

(127433,) (127433,)


In [82]:
x_train_tfidf2 = tfidf_vect.fit_transform(x_train)

In [83]:
x_test_tfidf2 = tfidf_vect.transform(x_test)

In [84]:
train_data2 = lgb.Dataset(x_train_tfidf2, label=y_train)
test_data2 = lgb.Dataset(x_test_tfidf2, label=y_test)

In [85]:
%%time
params = {
    'boosting_type': 'gbdt',
    'objective': 'binary',
    'metric': 'binary_logloss',
    'num_leaves': 31,
    'learning_rate': 0.1,
    'feature_fraction': 0.9,
    'bagging_fraction': 0.8,    
    'bagging_freq': 5,          
    'verbose': -1,              
    'n_jobs': -1               
}

lgbm_model2 = lgb.train(
    params, train_data2, num_boost_round=1000, valid_sets=[train_data2, test_data2], early_stopping_rounds=100)



[1]	training's binary_logloss: 0.282895	valid_1's binary_logloss: 0.283447
Training until validation scores don't improve for 100 rounds
[2]	training's binary_logloss: 0.262216	valid_1's binary_logloss: 0.263151
[3]	training's binary_logloss: 0.249175	valid_1's binary_logloss: 0.250073
[4]	training's binary_logloss: 0.236421	valid_1's binary_logloss: 0.23744
[5]	training's binary_logloss: 0.226764	valid_1's binary_logloss: 0.228168
[6]	training's binary_logloss: 0.2183	valid_1's binary_logloss: 0.219811
[7]	training's binary_logloss: 0.211705	valid_1's binary_logloss: 0.213426
[8]	training's binary_logloss: 0.20704	valid_1's binary_logloss: 0.208719
[9]	training's binary_logloss: 0.201612	valid_1's binary_logloss: 0.20363
[10]	training's binary_logloss: 0.197207	valid_1's binary_logloss: 0.199458
[11]	training's binary_logloss: 0.192855	valid_1's binary_logloss: 0.195305
[12]	training's binary_logloss: 0.189121	valid_1's binary_logloss: 0.191649
[13]	training's binary_logloss: 0.185907

In [86]:
y_pred2 = (lgbm_model2.predict(x_test_tfidf2) >= 0.5).astype(int)

In [87]:
print(classification_report(
    y_test, y_pred2, target_names=['0', '1']))

              precision    recall  f1-score   support

           0       0.97      0.99      0.98     28622
           1       0.88      0.70      0.78      3237

    accuracy                           0.96     31859
   macro avg       0.92      0.85      0.88     31859
weighted avg       0.96      0.96      0.96     31859



У нас получилось! целевой показатель достигнут. Ниже можно посмотреть, как рапределялись предсказания относительно категорий.

In [88]:
print(confusion_matrix(y_test, y_pred2))

[[28300   322]
 [  958  2279]]


## Выводы

В рамках проекта была проделана обширная работа созданию модели, определяющей токсичные комментарии. 

Сначала мы лемматизировали и очистили данные, удалили все ненужное, потом преобраовали даные в числа двумя способами - независимым count_vectorizer в мешок слов и в TFIDF, который отражает частоту употребления каждого слова в отдельном тексте и в корпусе в целом. 

После этого мы обучили ряд моделей - регрессии, случайный лес, бустинг для определения класса токсичных комментариев. ЛУчше всех справилась модель градиентного бустинга lightgbm и ее мы выбрали для проверки на тестовой выборке. При этом я ожидал, что tfidf даст лучший результат, поскольку этот показатель более информативен а отдельные слова могут быть лучшими индикаторами определнных классов, если показатель высокий.

На тестовой выборке модель показала результат целевой метрики f1 - 0.78, что означает, что цель по качеству достигнута и мы можем отчитатья перед заказчиком. 
Было очень интересно.