Интернет-магазин запускает новый сервис. Теперь пользователи могут редактировать и дополнять описания товаров, как в вики-сообществах. То есть клиенты предлагают свои правки и комментируют изменения других. Магазину нужен инструмент, который будет искать токсичные комментарии и отправлять их на модерацию. 

Обучите модель классифицировать комментарии на позитивные и негативные. В вашем распоряжении набор данных с разметкой о токсичности правок.

Постройте модель со значением метрики качества *F1* не меньше 0.75. 



# 1. Подготовка

In [31]:
import pandas as pd
import numpy as np

import xgboost as xgb
import nltk
nltk.download('stopwords')
#nltk.download('wordnet')
from nltk.corpus import stopwords as nltk_stopwords
from sklearn.feature_extraction.text import TfidfVectorizer 
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import cross_val_score
from sklearn.feature_selection import SelectKBest , chi2

from sklearn.model_selection import RandomizedSearchCV , GridSearchCV

from sklearn.metrics import f1_score
from sklearn.pipeline import Pipeline

import os
import re
import spacy
from spacy.lemmatizer import Lemmatizer
from spacy.lookups import Lookups
from joblib import dump, load


[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\ivan\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [2]:
# Места расположения папок с моделью BERT и исходными данными
DATA_PATH = "C:\\Users\ivan\\YandexDisk\\DS\\Project_11"

In [3]:
df_text = pd.read_csv(os.path.join(DATA_PATH,'toxic_comments.csv'))


In [4]:
df_text.head()

Unnamed: 0,text,toxic
0,Explanation\nWhy the edits made under my usern...,0
1,D'aww! He matches this background colour I'm s...,0
2,"Hey man, I'm really not trying to edit war. It...",0
3,"""\nMore\nI can't make any real suggestions on ...",0
4,"You, sir, are my hero. Any chance you remember...",0


In [5]:
print('Количество строк датасета', len(df_text))

Количество строк датасета 159571


In [6]:
# Проверим по некоторым сторокам какой там текст
print(df_text['text'][0],'\n')
print(df_text['text'][2],'\n')


Explanation
Why the edits made under my username Hardcore Metallica Fan were reverted? They weren't vandalisms, just closure on some GAs after I voted at New York Dolls FAC. And please don't remove the template from the talk page since I'm retired now.89.205.38.27 

Hey man, I'm really not trying to edit war. It's just that this guy is constantly removing relevant information and talking to me through edits instead of my talk page. He seems to care more about the formatting than the actual info. 



In [7]:
# Загружаем библиотеку
nlp = spacy.load('en_core_web_sm', disable=['parser', 'ner'])

# Делаем из текста леммы
def text_prepare(row):
    # выделяем текст из строки, преобразуем, выделяем лемму, удаляем лишние символы
    text = row['text']   
    doc = nlp(text)   
    out_text= " ".join([token.lemma_ for token in doc ])      
    return re.sub('[^a-zA-Z]', ' ', out_text)

In [8]:
# Векторизуем токены
def vectorizer_func(data):
    # Выделяем корпус с леммами
    corpus = np.array(data.apply(text_prepare , axis=1)).astype('U')
    
    stopwords = set(nltk_stopwords.words('english'))
    target = data['toxic']
    
    # Делим корпус текста на train и test
    X_train , X_test , y_train , y_test  = train_test_split(corpus , target , test_size = 0.4 , random_state = 12)    
    
    
    vectorizer = TfidfVectorizer(stop_words = stopwords , ngram_range=(1,3))
    vect_tf_idf_train = vectorizer.fit_transform(X_train)
    vect_tf_idf_test = vectorizer.transform(X_test)
    
    # Возвращаем словарь с признаками и таргетами
    return {'X_train':vect_tf_idf_train, 
            'X_test': vect_tf_idf_test , 
            'y_train': y_train , 
            'y_test': y_test }


# 2. Обучение

In [9]:
%%time
# Записываем признаки и таргеты в переменные
train_dict = vectorizer_func(df_text)



Wall time: 16min 11s


In [10]:
X_train = train_dict['X_train']
X_test = train_dict['X_test']
y_train = train_dict['y_train']
y_test = train_dict['y_test']

In [11]:
X_train.shape, X_test.shape, y_train.shape, y_test.shape

((95742, 4077383), (63829, 4077383), (95742,), (63829,))

### Logistic regression CV

#### default parameters

In [12]:
%%time
# Загружаем модель и считаем f1 на кроссвалидации
lr_model = LogisticRegression(class_weight = 'balanced' ,  random_state = 12, C=1 , max_iter = 500)

# Выбираем лучшие признаки
selector = SelectKBest(chi2, k=50000)


clf_selected = Pipeline([('selector' , selector) , ('lr_model' , lr_model)])
scores = cross_val_score(clf_selected , X_train , y_train , scoring ='f1' , cv = 5)

Wall time: 1min 43s


In [13]:
print('Logistic regression Cross validation F1, default parameters:', scores.mean())

Logistic regression Cross validation F1, default parameters: 0.7358689911305563


#### Parameters tuning

In [14]:
%%time
lr_model = LogisticRegression(solver='lbfgs', 
                             # tol=1e-2, 
                              max_iter=500,
                              class_weight = 'balanced' ,
                              random_state = 12)
# параметры для поиска
distributions = {'lr_model__C':range(10,32,2) ,
                'selector__k':[50000 , 75000 , 100000]}

# Выбираем лучшие признаки
selector = SelectKBest(chi2)

clf_selected = Pipeline([('selector' , selector) , ('lr_model' , lr_model)])

clf = RandomizedSearchCV(clf_selected, distributions , random_state=12 , cv = 5 , scoring ='f1')
search = clf.fit(X_train, y_train)


Wall time: 19min 1s


In [15]:
print("Лучшие параметры:")
print(search.best_params_ )
print()

print("Лучший F1:")
print(search.best_score_)

Лучшие параметры:
{'selector__k': 50000, 'lr_model__C': 16}

Лучший F1:
0.7685908376712342


In [32]:
# Сохраняем лучшую модель  и параметры
best_lr_model = search.best_estimator_

best_lr_params = search.best_params_ 

dump(best_lr_model , 'logistic_tuned.joblib')

['logistic_tuned.joblib']

### XGBoost CV

#### default parameters

In [17]:
# Записываем данные
dtrain = xgb.DMatrix(X_train, label= y_train)
dtest  = xgb.DMatrix(X_test, label= y_test)


In [18]:
param = {'max_depth': 5, 'learning_rate': 1 }


In [19]:
# Загружаем модель , отбираем признаки
xgb_model = xgb.XGBClassifier( random_state=12)
selector = SelectKBest(chi2, k=10000)

clf_selected = Pipeline([('selector', selector) , ('xgb_model' , xgb_model)])

scores = cross_val_score(clf_selected , X_train , y_train , scoring ='f1' , cv = 5)

In [20]:
print('XGBoost Cross validation F1, default parameters:', scores.mean())

XGBoost Cross validation F1, default parameters: 0.7241948138006886


#### Parameters search

In [21]:
%%time 
xgb_model = xgb.XGBClassifier(random_state=12)

# Параметры для поиска
param_grid = {'xgb_model__max_depth': [ 20 , 30, 40],
              'xgb_model__learning_rate': [0.2, 0.3, 0.4 ],
             #'subsample': [0.5, 0.6, 0.7, 0.8, 0.9, 1.0],
             #'colsample_bytree': [0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1.0],
             #'colsample_bylevel': [0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1.0],
             #'min_child_weight': [0.5, 1.0, 3.0, 5.0, 7.0, 10.0],
             'xgb_model__gamma': [ 0.5, 1.0 , 1.5],
             #'reg_lambda': [0.1, 1.0, 5.0, 10.0, 50.0, 100.0],
              'xgb_model__n_estimators': [150 , 200, 230] , 
             'selector__k': [ 85000 , 100000]}

# Выбираем признаки, 
selector = SelectKBest(chi2)
xgb_selected =Pipeline([('selector' , selector) , ('xgb_model' , xgb_model)])

xgb_search = RandomizedSearchCV(xgb_selected, param_grid, n_iter=10,
                            n_jobs=1, cv=4,
                            scoring='f1', refit=True, random_state=12 , verbose = 2)
xgb_search.fit(X_train , y_train)

Fitting 4 folds for each of 10 candidates, totalling 40 fits
[CV] xgb_model__n_estimators=200, xgb_model__max_depth=40, xgb_model__learning_rate=0.3, xgb_model__gamma=1.5, selector__k=85000 


[Parallel(n_jobs=1)]: Using backend SequentialBackend with 1 concurrent workers.


[CV]  xgb_model__n_estimators=200, xgb_model__max_depth=40, xgb_model__learning_rate=0.3, xgb_model__gamma=1.5, selector__k=85000, total= 2.8min
[CV] xgb_model__n_estimators=200, xgb_model__max_depth=40, xgb_model__learning_rate=0.3, xgb_model__gamma=1.5, selector__k=85000 


[Parallel(n_jobs=1)]: Done   1 out of   1 | elapsed:  2.8min remaining:    0.0s


[CV]  xgb_model__n_estimators=200, xgb_model__max_depth=40, xgb_model__learning_rate=0.3, xgb_model__gamma=1.5, selector__k=85000, total= 2.9min
[CV] xgb_model__n_estimators=200, xgb_model__max_depth=40, xgb_model__learning_rate=0.3, xgb_model__gamma=1.5, selector__k=85000 
[CV]  xgb_model__n_estimators=200, xgb_model__max_depth=40, xgb_model__learning_rate=0.3, xgb_model__gamma=1.5, selector__k=85000, total= 2.8min
[CV] xgb_model__n_estimators=200, xgb_model__max_depth=40, xgb_model__learning_rate=0.3, xgb_model__gamma=1.5, selector__k=85000 
[CV]  xgb_model__n_estimators=200, xgb_model__max_depth=40, xgb_model__learning_rate=0.3, xgb_model__gamma=1.5, selector__k=85000, total= 2.8min
[CV] xgb_model__n_estimators=200, xgb_model__max_depth=30, xgb_model__learning_rate=0.2, xgb_model__gamma=1.0, selector__k=75000 
[CV]  xgb_model__n_estimators=200, xgb_model__max_depth=30, xgb_model__learning_rate=0.2, xgb_model__gamma=1.0, selector__k=75000, total= 2.2min
[CV] xgb_model__n_estimators=2

[CV]  xgb_model__n_estimators=150, xgb_model__max_depth=30, xgb_model__learning_rate=0.3, xgb_model__gamma=1.5, selector__k=85000, total= 1.8min
[CV] xgb_model__n_estimators=230, xgb_model__max_depth=30, xgb_model__learning_rate=0.2, xgb_model__gamma=1.0, selector__k=100000 
[CV]  xgb_model__n_estimators=230, xgb_model__max_depth=30, xgb_model__learning_rate=0.2, xgb_model__gamma=1.0, selector__k=100000, total= 2.7min
[CV] xgb_model__n_estimators=230, xgb_model__max_depth=30, xgb_model__learning_rate=0.2, xgb_model__gamma=1.0, selector__k=100000 
[CV]  xgb_model__n_estimators=230, xgb_model__max_depth=30, xgb_model__learning_rate=0.2, xgb_model__gamma=1.0, selector__k=100000, total= 2.7min
[CV] xgb_model__n_estimators=230, xgb_model__max_depth=30, xgb_model__learning_rate=0.2, xgb_model__gamma=1.0, selector__k=100000 
[CV]  xgb_model__n_estimators=230, xgb_model__max_depth=30, xgb_model__learning_rate=0.2, xgb_model__gamma=1.0, selector__k=100000, total= 2.7min
[CV] xgb_model__n_estima

[Parallel(n_jobs=1)]: Done  40 out of  40 | elapsed: 94.9min finished


Wall time: 1h 37min


RandomizedSearchCV(cv=4, error_score=nan,
                   estimator=Pipeline(memory=None,
                                      steps=[('selector',
                                              SelectKBest(k=10,
                                                          score_func=<function chi2 at 0x00000057F2A03948>)),
                                             ('xgb_model',
                                              XGBClassifier(base_score=None,
                                                            booster=None,
                                                            colsample_bylevel=None,
                                                            colsample_bynode=None,
                                                            colsample_bytree=None,
                                                            gamma=None,
                                                            gpu_id=None,
                                                            importance

In [22]:
xgb_search.cv_results_

{'mean_fit_time': array([169.28530133, 133.48721755, 104.02987111, 166.25915956,
        141.1141153 , 159.71778071, 109.76142687, 108.26111525,
        160.37599659, 161.30915689]),
 'std_fit_time': array([2.19791864, 0.6869647 , 0.66620717, 0.56689652, 1.23047244,
        0.81389509, 0.82858863, 0.93497469, 0.6289265 , 0.99589152]),
 'mean_score_time': array([0.95517582, 1.03648371, 0.94541901, 1.00946444, 0.97268838,
        1.007213  , 1.00321007, 0.96193087, 1.07726264, 1.06375259]),
 'std_score_time': array([0.02143385, 0.02605096, 0.00826352, 0.00414866, 0.0251275 ,
        0.01605028, 0.01352834, 0.01461127, 0.01262836, 0.02845417]),
 'param_xgb_model__n_estimators': masked_array(data=[200, 200, 150, 200, 200, 230, 230, 150, 230, 200],
              mask=[False, False, False, False, False, False, False, False,
                    False, False],
        fill_value='?',
             dtype=object),
 'param_xgb_model__max_depth': masked_array(data=[40, 30, 30, 40, 30, 30, 20, 30, 3

In [23]:
print("Лучшие параметры:")
print(xgb_search.best_params_ )
print()

print("Лучший F1:")
print(xgb_search .best_score_)

Лучшие параметры:
{'xgb_model__n_estimators': 150, 'xgb_model__max_depth': 30, 'xgb_model__learning_rate': 0.3, 'xgb_model__gamma': 1.5, 'selector__k': 85000}

Лучший F1:
0.7628535543127094


In [33]:
# Сохраняем лучшую модель и лучшие параметры
best_xgb_model = xgb_search.best_estimator_

best_xgb_params = xgb_search.best_params_

dump(best_xgb_model , 'xgboost_tuned.joblib')

['xgboost_tuned.joblib']

### Logistic regression TEST

In [25]:
# Определяем значения на тестовых данных на лучшей модели
y_pred = best_lr_model.predict(X_test)


In [26]:
print('Logistic regression Test, F1:', f1_score(y_test , y_pred))

Logistic regression Test, F1: 0.7433995053806564


### XGBoost TEST

In [27]:
# Определяем значения на тестовых данных на лучшей модели
y_pred = best_xgb_model.predict(X_test)

In [28]:
print('XGBoost Test, F1-score:', f1_score(y_test , y_pred))

XGBoost Test, F1-score: 0.7727005952880021


# 3. Выводы

- Текст датасета лемматизирован библотекой spacy. С помощью регульрных выражений в строках оставлены только буквы и слова.
- После лемматизации корпус текста преобразован в матрицу со значениями TfIdf. Для создания признаков были ипользованы униграммы, биграммы и триграммы. В дальнейшем будут отобраны лучшие признаки.
- Для моделирования применены Logistic Regression и XFBoost. Рандомизированным поиском были определены оптимальные параметры моделей, а также оптимальное количество признаков. 
- На кроссвалидации с поиском параметров лучшие значения показала модель XGBoost с результатом F1-score 0.763
- На тесте лучшие значения также показала модель XGBoost F1-score 0.773

# Чек-лист проверки

- [x]  Jupyter Notebook открыт
- [x]  Весь код выполняется без ошибок
- [x]  Ячейки с кодом расположены в порядке исполнения
- [x]  Данные загружены и подготовлены
- [x]  Модели обучены
- [x]  Значение метрики *F1* не меньше 0.75
- [x]  Выводы написаны