# Проект для «Викишоп»

Интернет-магазин «Викишоп» запускает новый сервис. Теперь пользователи могут редактировать и дополнять описания товаров, как в вики-сообществах. То есть клиенты предлагают свои правки и комментируют изменения других. Магазину нужен инструмент, который будет искать токсичные комментарии и отправлять их на модерацию. 

Обучите модель классифицировать комментарии на позитивные и негативные. В вашем распоряжении набор данных с разметкой о токсичности правок.

Постройте модель со значением метрики качества *F1* не меньше 0.75. 

## Подготовка

Для начала импортируем всевозможные необходимые пакеты 

In [1]:
import numpy as np
import pandas as pd
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import r2_score
from sklearn.model_selection import train_test_split
import matplotlib.pyplot as plt
import lightgbm as lgb
import sklearn
import spacy
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.metrics import accuracy_score
from sklearn.metrics import mean_squared_error
from sklearn.model_selection import GridSearchCV
from sklearn.preprocessing import LabelEncoder 
from sklearn.preprocessing import OneHotEncoder 
import lightgbm as lgb
from pymystem3 import Mystem
import re
import torch
from sklearn.metrics import f1_score, make_scorer
from sklearn.feature_extraction.text import TfidfVectorizer 
from nltk.corpus import stopwords as nltk_stopwords
import nltk
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer
from sklearn.metrics import f1_score
import transformers
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import OneHotEncoder
from lightgbm import LGBMRegressor
from catboost import CatBoostRegressor
from catboost import CatBoostClassifier
from sklearn.model_selection import TimeSeriesSplit
import time 
from statsmodels.tsa.seasonal import seasonal_decompose
import warnings
warnings.filterwarnings("ignore")

from sklearn.ensemble import RandomForestClassifier

Теперь импортируем файл с данными и проанализируем ео на наличие ошибок и аутлаеров

In [2]:
data = pd.read_csv('/datasets/toxic_comments.csv', index_col=[0])

In [3]:
data.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 159292 entries, 0 to 159450
Data columns (total 2 columns):
 #   Column  Non-Null Count   Dtype 
---  ------  --------------   ----- 
 0   text    159292 non-null  object
 1   toxic   159292 non-null  int64 
dtypes: int64(1), object(1)
memory usage: 3.6+ MB


In [4]:
data.head(5)

Unnamed: 0,text,toxic
0,Explanation\nWhy the edits made under my usern...,0
1,D'aww! He matches this background colour I'm s...,0
2,"Hey man, I'm really not trying to edit war. It...",0
3,"""\nMore\nI can't make any real suggestions on ...",0
4,"You, sir, are my hero. Any chance you remember...",0


In [5]:
data.describe()

Unnamed: 0,toxic
count,159292.0
mean,0.101612
std,0.302139
min,0.0
25%,0.0
50%,0.0
75%,0.0
max,1.0


Никаких странных значений нету, аутлаеров тоже не выявлено, данные понятный, ровные, ничего выбивающегося. А значит время делать сэмплирование

Единсвтенное замечание - это что у таргета очень мало негативный комментариев, всего 10%

Также стоит сделать лемматизацию и очистку текста

In [6]:
text = list(data['text'])

In [7]:
corpus = []
for i in range(len(text)):
    r = re.sub('[^a-zA-Z]', ' ', text[i])
    r = r.lower()
    r = r.split()
    r = [word for word in r if word not in stopwords.words('english')]
    r = ' '.join(r)
    r = r.lower()
    corpus.append(r)
    
data['text'] = corpus

In [8]:
%%time

nlp = spacy.load('en_core_web_sm', disable=['parser', 'ner'])
data['text'] = data['text'].apply(lambda x: ' '.join([y.lemma_ for y in nlp(x)]))

CPU times: user 13min 51s, sys: 1.69 s, total: 13min 53s
Wall time: 13min 57s


In [9]:
data

Unnamed: 0,text,toxic
0,explanation edit make username hardcore metall...,0
1,aww match background colour seemingly stick th...,0
2,hey man really try edit war guy constantly rem...,0
3,make real suggestion improvement wonder sectio...,0
4,sir hero chance remember page,0
...,...,...
159446,second time ask view completely contradict cov...,0
159447,ashamed horrible thing put talk page,0
159448,spitzer umm there s actual article prostitutio...,0
159449,look like actually put speedy first version de...,0


Теперь наши данные готовы к обучению

## Обучение

In [10]:
features = data['text']
target = data['toxic']
train_features, test_features, train_target, test_target = train_test_split(features, target, test_size=0.25, random_state=1)

In [11]:
cv = CountVectorizer()
train_features = cv.fit_transform(train_features)
test_features = cv.transform(test_features)

In [13]:
grid = {
    'class_weight': ['balanced', None]
}
model_lr = LogisticRegression(random_state=12345)
lr_grid = GridSearchCV(model_lr,  param_grid=grid, scoring='f1')

lr_grid.fit(train_features, train_target)

best_score = lr_grid.best_score_
best_params = lr_grid.best_params_

print(best_score)
print(best_params)

0.7636424274650186
{'class_weight': None}


Точность получилась хорошая, 0.76. Можно попробовать сделать ее лучше с помощью catboost'а

In [14]:
grid = {
    'depth': [6,12]
}
model_cat = CatBoostClassifier(random_state=12345, verbose = 25, iterations = 100)
model_cat = GridSearchCV(model_cat,  param_grid=grid,  scoring='f1')
model_cat.fit(train_features, train_target)
best_score = model_cat.best_score_ 
best_params = model_cat.best_params_
print(best_score)
print(best_params)

Learning rate set to 0.5
0:	learn: 0.3424968	total: 1.03s	remaining: 1m 41s
25:	learn: 0.1546922	total: 29.2s	remaining: 1m 22s
50:	learn: 0.1378414	total: 54.6s	remaining: 52.5s
75:	learn: 0.1288637	total: 1m 19s	remaining: 25.2s
99:	learn: 0.1217898	total: 1m 42s	remaining: 0us
Learning rate set to 0.5
0:	learn: 0.3351465	total: 1.37s	remaining: 2m 15s
25:	learn: 0.1550014	total: 29.4s	remaining: 1m 23s
50:	learn: 0.1369883	total: 54.2s	remaining: 52s
75:	learn: 0.1275838	total: 1m 17s	remaining: 24.5s
99:	learn: 0.1221900	total: 1m 39s	remaining: 0us
Learning rate set to 0.5
0:	learn: 0.3362582	total: 983ms	remaining: 1m 37s
25:	learn: 0.1550819	total: 26.3s	remaining: 1m 14s
50:	learn: 0.1364546	total: 50.7s	remaining: 48.8s
75:	learn: 0.1292381	total: 1m 15s	remaining: 23.7s
99:	learn: 0.1218034	total: 1m 38s	remaining: 0us
Learning rate set to 0.5
0:	learn: 0.3437178	total: 1.36s	remaining: 2m 14s
25:	learn: 0.1557519	total: 28.1s	remaining: 1m 19s
50:	learn: 0.1381969	total: 53.

Точность получилась равно 0.74, хороший результат, но недостаточный, посмотрим на результаты тестовой выборки для линейной регрессии, так как она выдает результаты

In [19]:
predictions_test = lr_grid.best_estimator_.predict(test_features)
print(f1_score(test_target, predictions_test))

0.7594971303634873


Точность получилась выше 0.75, отличный результат!

## Выводы

По итогам было сделано следующее:

1. Импортированы и обработаны данные
2. Данные лемматизированы и очищены
3. Обучена и проверена модель обычной логистической регрессии, результат которой равен 0.76, результат неплохой
4. Обучена модель градиентного бустинга, результат неудовлетворительный

Модель линейной регрессии оказалось лучшей и равна 0.76 по результат ф1 тестирования