<h1>Содержание<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Подготовка" data-toc-modified-id="Подготовка-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Подготовка</a></span></li><li><span><a href="#Обучение" data-toc-modified-id="Обучение-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Обучение</a></span></li><li><span><a href="#Выводы" data-toc-modified-id="Выводы-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Выводы</a></span></li><li><span><a href="#Чек-лист-проверки" data-toc-modified-id="Чек-лист-проверки-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Чек-лист проверки</a></span></li></ul></div>

# Проект для «Викишоп»

Интернет-магазин «Викишоп» запускает новый сервис. Теперь пользователи могут редактировать и дополнять описания товаров, как в вики-сообществах. То есть клиенты предлагают свои правки и комментируют изменения других. Магазину нужен инструмент, который будет искать токсичные комментарии и отправлять их на модерацию. 

Обучите модель классифицировать комментарии на позитивные и негативные. В вашем распоряжении набор данных с разметкой о токсичности правок.

Постройте модель со значением метрики качества *F1* не меньше 0.75. 

**Инструкция по выполнению проекта**

1. Загрузите и подготовьте данные.
2. Обучите разные модели. 
3. Сделайте выводы.

Для выполнения проекта применять *BERT* необязательно, но вы можете попробовать.

**Описание данных**

Данные находятся в файле `toxic_comments.csv`. Столбец *text* в нём содержит текст комментария, а *toxic* — целевой признак.

In [1]:
import re
import numpy as np
import pandas as pd

import nltk
from nltk.corpus import stopwords as nltk_stopwords
from nltk.stem import PorterStemmer,SnowballStemmer,LancasterStemmer

from pymystem3 import Mystem 

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.model_selection import train_test_split,GridSearchCV
from sklearn.linear_model import LogisticRegression

from catboost import CatBoostClassifier,Pool
from catboost.text_processing import Tokenizer

from sklearn.metrics import accuracy_score,precision_score,recall_score,f1_score,confusion_matrix

## Подготовка

In [2]:
df = pd.read_csv('/datasets/toxic_comments.csv',index_col=0,encoding='utf-8')
df.head()

Unnamed: 0,text,toxic
0,Explanation\nWhy the edits made under my usern...,0
1,D'aww! He matches this background colour I'm s...,0
2,"Hey man, I'm really not trying to edit war. It...",0
3,"""\nMore\nI can't make any real suggestions on ...",0
4,"You, sir, are my hero. Any chance you remember...",0


In [3]:
%%time
mst = Mystem()
def lemmatize(text):
    text = ''.join( re.sub(r"([^a-z\'])+",' ',text.lower()) )
#     print(text)
#     text = re.sub('( )+',' ',text)
    return ''.join( mst.lemmatize(text)).strip('\n')                

# lemmatize(df.text[2])                    
df['lemmas'] = df.text.apply(lemmatize)



CPU times: user 14.9 s, sys: 3.16 s, total: 18 s
Wall time: 45.5 s


In [4]:
%%time

tr,te = train_test_split(df, test_size = .25, shuffle = True)
X = [ 'lemmas' ] 
y = 'toxic'


CPU times: user 42.4 ms, sys: 769 µs, total: 43.2 ms
Wall time: 41.3 ms


## Обучение

In [5]:
text_options =  {
    "tokenizers" : [{
        "tokenizer_id" : "Space",
        "delimiter" : " ,",
        "lowercasing" : "true",
#        "lemmatizing" : "true",
        "split_by_set": "true"                    
    },{
    'tokenizer_id': 'Sense',
    'separator_type': 'BySense'
    }],

    "dictionaries" : [{"dictionary_id" : "BiGram",
            "max_dictionary_size" : "100000",
            "occurrence_lower_bound" : "10",
            "gram_order" : "2"
        },{
        "dictionary_id" : "Word",
        "occurrence_lower_bound" : "20",
        "gram_order" : "1"
    }],

    "feature_processing" : {
        "default" : [{
            "dictionaries_names" : ["Word","BiGram"],
            "feature_calcers" : ["BoW"],
            "tokenizers_names" : ["Sense"]
        }]
        
    }
}
cbm = CatBoostClassifier(learning_rate = .1,n_estimators =2048 ,
                         bootstrap_type='Bernoulli',subsample=.2,
                         text_processing = text_options,
                         verbose= 128, eval_metric='F1')

In [6]:
%%time
p_tr = Pool(tr[X],tr[y], text_features = X ) 
p_te = Pool( te[X], text_features = X )
cbm.fit(p_tr)    
pr = cbm.predict(p_te)
for metric in [f1_score,accuracy_score,precision_score,recall_score]:
    print( f"{metric.__name__}:{round( metric(te[y],pr), 4)}\t" )
confusion_matrix(te[y],pr)

0:	learn: 0.3708287	total: 204ms	remaining: 6m 58s
128:	learn: 0.6737659	total: 12.3s	remaining: 3m 2s
256:	learn: 0.7175710	total: 25.7s	remaining: 2m 58s
384:	learn: 0.7363346	total: 38.3s	remaining: 2m 45s
512:	learn: 0.7488202	total: 50.5s	remaining: 2m 31s
640:	learn: 0.7581945	total: 1m 3s	remaining: 2m 18s
768:	learn: 0.7670983	total: 1m 16s	remaining: 2m 6s
896:	learn: 0.7746432	total: 1m 29s	remaining: 1m 54s
1024:	learn: 0.7811028	total: 1m 42s	remaining: 1m 42s
1152:	learn: 0.7874686	total: 1m 56s	remaining: 1m 30s
1280:	learn: 0.7940774	total: 2m 9s	remaining: 1m 17s
1408:	learn: 0.7998683	total: 2m 25s	remaining: 1m 5s
1536:	learn: 0.8053408	total: 2m 41s	remaining: 53.6s
1664:	learn: 0.8104453	total: 2m 55s	remaining: 40.4s
1792:	learn: 0.8144944	total: 3m 9s	remaining: 26.9s
1920:	learn: 0.8196858	total: 3m 22s	remaining: 13.4s
2047:	learn: 0.8235783	total: 3m 36s	remaining: 0us
f1_score:0.7416	
accuracy_score:0.9562	
precision_score:0.8811	
recall_score:0.6402	


array([[35574,   338],
       [ 1407,  2504]])

In [None]:
%%time
cbm.fit(tr[X],tr[y],verbose=128)

In [None]:
pr = cbm.predict(p_te)
confusion_matrix(te[y],pr)

In [None]:
for t in np.arange(.2,.6,.025):
    cbm.set_probability_threshold(t)
    pr = cbm.predict(te[X])
    #confusion_matrix(te[y],pr)
    
    s = f"{round(t,2)} -->\t"
    for metric in [f1_score,accuracy_score,precision_score,recall_score]:
        s+=f"{metric.__name__}:{round( metric(te[y],pr), 4)}\t"
    print(s)        

In [None]:
cbm.set_probability_threshold(.36)
pr = cbm.predict(te[X])
for metric in [f1_score,accuracy_score,precision_score,recall_score]:
    print( f"{metric.__name__}:{round( metric(te[y],pr), 4)}\t" )
"confusion_matrix:",confusion_matrix(te[y],pr)


In [None]:
# %%time
# params_grid ={
#     'learning_rate':[0.3,.1,.03,.01],
#     'auto_class_weights':['Balanced']
# }
# cbc = GridSearchCV( 
#     CatBoostClassifier( eval_metric='F1',text_features = X,tokenizers=verbose= 100  ),
#     params_grid,
#     scoring='f1_weighted',
#     cv= 4)  
# cbc.fit(tr[X],tr[y])

In [None]:
cbc.cv_results_

In [None]:
pr = cbc.predict(te[X])

In [None]:
model =  CatBoostClassifier( eval_metric='F1',eval_period=50,text_features = X,verbose= 100,n_estimators=500 , learning_rate=.03 )

## Выводы

## Чек-лист проверки

- [x]  Jupyter Notebook открыт
- [ ]  Весь код выполняется без ошибок
- [ ]  Ячейки с кодом расположены в порядке исполнения
- [ ]  Данные загружены и подготовлены
- [ ]  Модели обучены
- [ ]  Значение метрики *F1* не меньше 0.75
- [ ]  Выводы написаны