# Определение негативные комментариев

Пользователи интернет магазина могут редактировать и дополнять описания товаров. То есть клиенты предлагают свои правки и комментируют изменения других. Магазину нужен инструмент, который будет искать токсичные комментарии и отправлять их на модерацию.

Необходимо обучить модель классифицировать комментарии на позитивные и негативные. В вашем распоряжении набор данных с разметкой о токсичности правок.

Постройте модель со значением метрики качества F1 не меньше 0.75.

### Описание данных

Данные находятся в файле toxic_comments.csv.

Столбец text в нём содержит текст комментария, столбец toxic — целевой признак.

<h1>Содержание<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Подготовка" data-toc-modified-id="Подготовка-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Подготовка</a></span></li><li><span><a href="#Обучение" data-toc-modified-id="Обучение-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Обучение</a></span></li><li><span><a href="#Выводы" data-toc-modified-id="Выводы-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Выводы</a></span></li><li><span><a href="#Чек-лист-проверки" data-toc-modified-id="Чек-лист-проверки-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Чек-лист проверки</a></span></li></ul></div>

### 0. подключение библиотек, задание констант

In [1]:
import pandas as pd
from datetime import datetime
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
import time

import os
import re
from sklearn.model_selection import train_test_split
from sklearn.utils import shuffle
from tqdm import tqdm

from pymystem3 import Mystem
from sklearn.feature_extraction.text import TfidfVectorizer 
from sklearn.feature_extraction.text import CountVectorizer 

from sklearn.model_selection import cross_val_score
from sklearn.model_selection import GridSearchCV
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.dummy import DummyClassifier
import lightgbm as lgb
from sklearn.metrics import r2_score, f1_score

import nltk
nltk.download('stopwords')
nltk.download('punkt')
nltk.download('wordnet')
nltk.download('averaged_perceptron_tagger')

from nltk.corpus import stopwords as nltk_sw
from nltk.stem import WordNetLemmatizer
from textblob import TextBlob, Word


[nltk_data] Error loading stopwords: <urlopen error [Errno 8] nodename
[nltk_data]     nor servname provided, or not known>
[nltk_data] Error loading punkt: <urlopen error [Errno 8] nodename nor
[nltk_data]     servname provided, or not known>
[nltk_data] Error loading wordnet: <urlopen error [Errno 8] nodename
[nltk_data]     nor servname provided, or not known>
[nltk_data] Error loading averaged_perceptron_tagger: <urlopen error
[nltk_data]     [Errno 8] nodename nor servname provided, or not
[nltk_data]     known>


In [2]:
rs = 12345

### 1. Загрузка и подготовка данных

In [3]:
path1 = '/Users/dmitry/Desktop/yandex_python/12. Машинное обучение для текстов/toxic_comments.csv'
path2 = '/datasets/toxic_comments.csv'

if os.path.exists(path1):
    data = pd.read_csv(path1)
elif os.path.exists(path2):
    data = pd.read_csv(path2)
else:
    print('file not found')

#data['text'] = data['text'].values.astype('U') 

In [4]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 159292 entries, 0 to 159291
Data columns (total 3 columns):
 #   Column      Non-Null Count   Dtype 
---  ------      --------------   ----- 
 0   Unnamed: 0  159292 non-null  int64 
 1   text        159292 non-null  object
 2   toxic       159292 non-null  int64 
dtypes: int64(2), object(1)
memory usage: 3.6+ MB


In [5]:
data.head()

Unnamed: 0.1,Unnamed: 0,text,toxic
0,0,Explanation\nWhy the edits made under my usern...,0
1,1,D'aww! He matches this background colour I'm s...,0
2,2,"Hey man, I'm really not trying to edit war. It...",0
3,3,"""\nMore\nI can't make any real suggestions on ...",0
4,4,"You, sir, are my hero. Any chance you remember...",0


удалим лишний столбец "Unnamed: 0"

In [6]:
data = data.drop('Unnamed: 0', axis =1)

Посмотрим кол-во дубликатов, пропусков и долю негативных комментариев

In [7]:
print('кол-во дубликатов \t\t', data['text'].duplicated().sum())
print('кол-во пропусков "text" \t', data['text'].isna().sum())
print('кол-во пропусков "toxic"\t', data['toxic'].isna().sum())

share_neg_com = data['toxic'].sum() / len(data)
print(f'доля негативных комментариев \t {100 * round(share_neg_com,3)}%')

кол-во дубликатов 		 0
кол-во пропусков "text" 	 0
кол-во пропусков "toxic"	 0
доля негативных комментариев 	 10.2%


#### Промежуточные выводы:
1. Загружены данные, содержащие 159292 строки
2. Дубликатов не обнаружено
3. Пропусков не обнаружено
4. Выборка не сбалансирована, содержит 10.2% негативных комментария
5. Удален неинформативных столбец, дублирующий номера строк


#### Разобьём данные на тренировочную и тестовую выборки, выполнил предобработку данных

In [8]:
train, test = train_test_split(data, test_size = 0.2, random_state = rs) 
train, valid = train_test_split(train, test_size = 0.25, random_state = rs) 

print('train:', train.shape)
print('valid:', valid.shape)
print('test:', test.shape)

train: (95574, 2)
valid: (31859, 2)
test: (31859, 2)


предобработаем данные:

In [9]:
def cleaning(text):
    text = re.sub(r"(?:\n|\r)", " ", text)
    text = re.sub(r"[^a-zA-Z ]+", "", text).strip()
    text = text.lower()
    
    return text


def lemmatize_with_postag(sentence):
    sent = TextBlob(sentence)
    tag_dict = {"J": 'a', 
                "N": 'n', 
                "V": 'v', 
                "R": 'r'}
    words_and_tags = [(w, tag_dict.get(pos[0], 'n')) for w, pos in sent.tags]    
    lemmatized_list = [wd.lemmatize(tag) for wd, tag in words_and_tags]
    return " ".join(lemmatized_list)



def clean_and_lem (df_lc, column):
    
    print(df_lc.shape)
    df_lc = df_lc.copy()
    
    df_lc[column] = df_lc[column].apply(cleaning)
    
    #m = Mystem()
    lemm_text = []
    for text in tqdm(df_lc['text']):
        lemm = lemmatize_with_postag(text)
        lemm_text.append("".join(lemm))
        
        #lemm = m.lemmatize(text)
        #lemm_text.append("".join(lemm))
        
    df_lc[f'lemm_{column}'] = lemm_text
    df_lc = df_lc.drop('text', axis = 1)
    
    return df_lc

In [10]:
# нормализацию обучающей выборки закомментил, т.к. при её применении результаты метрики f1 для моделей ухудшаются
# нормализуем обучающую выборку

data_1 = train.loc[data['toxic'] == 1]
data_0 = train.loc[data['toxic'] == 0]

data_0 = shuffle(data_0).head(len(data_1))

print(len(data_1))
print(len(data_0))

train_b = pd.concat([data_0, data_1])
train_b = shuffle(train_b)
print('train_b:', len(train_b))


9697
9697
train_b: 19394


In [11]:
train_lemm = clean_and_lem (train, 'text')
test_lemm = clean_and_lem (test, 'text')
train_b_lemm = clean_and_lem (train_b, 'text')
valid_lemm = clean_and_lem (valid, 'text')

t_train = train_lemm['toxic']
f_train = train_lemm['lemm_text']

t_test = test_lemm['toxic']
f_test = test_lemm['lemm_text']

t_train_b = train_b_lemm['toxic']
f_train_b = train_b_lemm['lemm_text']

t_valid = valid_lemm['toxic']
f_valid = valid_lemm['lemm_text']

(95574, 2)


100%|████████████████████████████████████| 95574/95574 [03:56<00:00, 403.68it/s]


(31859, 2)


100%|████████████████████████████████████| 31859/31859 [01:17<00:00, 410.14it/s]


(19394, 2)


100%|████████████████████████████████████| 19394/19394 [00:43<00:00, 443.20it/s]


(31859, 2)


100%|████████████████████████████████████| 31859/31859 [01:17<00:00, 409.31it/s]


выделим features и train для каждой части выборки

In [12]:
display(f_train.head())

16581     shameful advert hi there i notice youre intere...
146310    the left hand can anyone point to an article t...
98430     please stop if you continue to delete or blank...
19003     song move you give me some good advice about m...
118084    i do not do that why be i suffering consequenc...
Name: lemm_text, dtype: object

удалим стопслова и векторизуем отзывы

In [13]:
stopwords = list(set(nltk_sw.words('english')))

count_tf_idf = TfidfVectorizer(stop_words=stopwords)
f_train_idf = count_tf_idf.fit_transform(f_train)
f_test_idf = count_tf_idf.transform(f_test) 
f_train_b_idf = count_tf_idf.transform(f_train_b) 
f_valid_idf = count_tf_idf.transform(f_valid) 


### 2. Обучение разных моделей.

In [14]:
def model_f1 (model_f, features, target):
    
    t1 = time.time()
    predict = model_f.predict(features)

    t2 = time.time()
    dt = t2-t1
    f1 = f1_score(target, predict)
    
    #print('r2 =\t', round(r2_score(target, predict),3))
    print('f1 =\t', round(f1,3))
    print('время предсказания модели составило', round(dt,3),'сек\n')
    
    return(round(f1,3), round(dt,3))

#### Модель LogisticRegression

In [15]:
grid_space = {'solver' : ['lbfgs', 'liblinear', 'saga'],
              'C': [5,10,20]}

model = LogisticRegression(max_iter = 1000, random_state = rs)

model_lr_opt = GridSearchCV(estimator=model,
                            param_grid=grid_space,
                            cv=5,
                            scoring='f1'
                           )
model_b_lr_opt = model_lr_opt

#обучение на несбалансированной выборке
t1 = time.time()
model_lr_opt.fit(f_train_idf, t_train)
t2 = time.time()
display(model_lr_opt.best_params_)
dt_t_lr = round(t2-t1)
print('время обучения моделей составило:')
print('несбалансированная выборка:\t', dt_t_lr,'сек\n')


#обучение на сбалансированной выборке
t3 = time.time()
model_b_lr_opt.fit(f_train_b_idf, t_train_b)
t4 = time.time()
display(model_lr_opt.best_params_)

dt_t_lr_b = round(t4-t3)
print('сбалансированная выборка:\t', dt_t_lr_b, 'сек\n')

{'C': 20, 'solver': 'saga'}

время обучения моделей составило:
несбалансированная выборка:	 136 сек



{'C': 5, 'solver': 'lbfgs'}

сбалансированная выборка:	 49 сек



для двух обученных моделей сравним значения f1, рассчитанные на несбалансированной выборке

In [16]:
print('LogisticRegression')
print('несбалансированная выборка')
C = model_lr_opt.best_params_['C']
solver = model_lr_opt.best_params_['solver']

model_lr = LogisticRegression(C=C, solver=solver, max_iter = 1000, random_state = rs)
model_lr.fit(f_train_idf, t_train)
f1_lr, dt_lr = model_f1 (model_lr, f_valid_idf, t_valid)

LogisticRegression
несбалансированная выборка
f1 =	 0.754
время предсказания модели составило 0.005 сек



In [17]:
print('LogisticRegression')
print('сбалансированная выборка')
C = model_b_lr_opt.best_params_['C']
solver = model_b_lr_opt.best_params_['solver']

model_b_lr = LogisticRegression(C=C, solver=solver, max_iter = 1000, random_state = rs)
model_b_lr.fit(f_train_b_idf, t_train_b)
f1_b_lr, dt_b_lr = model_f1 (model_b_lr, f_valid_idf, t_valid)

LogisticRegression
сбалансированная выборка
f1 =	 0.683
время предсказания модели составило 0.002 сек



#### Модель LGBMClassifier

In [18]:
grid_space = {
              'n_estimators': [10,20],
              'max_depth' : [5,10],
              'num_leaves': [10,20]
             }

model = lgb.LGBMClassifier(random_state = rs, n_jobs = -1)

model_lgb_opt = GridSearchCV(estimator=model,
                             param_grid=grid_space,
                             cv=5,
                             scoring='f1'
                            )
model_b_lgb_opt = model_lgb_opt

#обучение на несбалансированной выборке
t1 = time.time()
model_lgb_opt.fit(f_train_idf, t_train)
t2 = time.time()

display(model_lgb_opt.best_params_)
dt_t_lgb = round(t2-t1)
print('время обучения моделей составило:')
print('несбалансированная выборка:\t', dt_t_lr,'сек\n')


#обучение на сбалансированной выборке
t3 = time.time()
model_b_lgb_opt.fit(f_train_b_idf, t_train_b)
t4 = time.time()
display(model_b_lgb_opt.best_params_)

dt_t_lgb_b = round(t4-t3)
print('сбалансированная выборка:\t', dt_t_lgb_b,'сек\n')


{'max_depth': 10, 'n_estimators': 20, 'num_leaves': 20}

время обучения моделей составило:
несбалансированная выборка:	 136 сек



{'max_depth': 10, 'n_estimators': 20, 'num_leaves': 20}

сбалансированная выборка:	 25 сек



для двух обученных моделей сравним значения f1, рассчитанные на несбалансированной выборке

In [19]:
print('LGBMClassifier')
print('несбалансированная выборка')

max_depth = model_lgb_opt.best_params_['max_depth']
n_estimators = model_lgb_opt.best_params_['n_estimators']
num_leaves = model_lgb_opt.best_params_['num_leaves']

model_lgb = lgb.LGBMClassifier(max_depth=max_depth, n_estimators=n_estimators, num_leaves=num_leaves,
                               random_state = rs, n_jobs = -1)

model_lgb.fit(f_train_idf, t_train)
f1_lgb, dt_lgb = model_f1 (model_lgb, f_valid_idf, t_valid)

LGBMClassifier
несбалансированная выборка
f1 =	 0.544
время предсказания модели составило 0.067 сек



In [20]:
print('LGBMClassifier')
print('сбалансированная выборка')

max_depth = model_b_lgb_opt.best_params_['max_depth']
n_estimators = model_b_lgb_opt.best_params_['n_estimators']
num_leaves = model_b_lgb_opt.best_params_['num_leaves']

model_b_lgb = lgb.LGBMClassifier(max_depth=max_depth, n_estimators=n_estimators, num_leaves=num_leaves,
                                 random_state = rs, n_jobs = -1)

model_b_lgb.fit(f_train_b_idf, t_train_b)
f1_b_lgb, dt_b_lgb = model_f1 (model_b_lgb, f_valid_idf, t_valid)

LGBMClassifier
сбалансированная выборка
f1 =	 0.633
время предсказания модели составило 0.052 сек



#### Сравнение с константной моделью

In [25]:
#сравним с результатами модели, предсказывающей всем 1

t1 = time.time()
 
p_valid = list([1]*len(t_valid))
    
t2 = time.time()
dt_dm_t = round(t2-t1,3)
f1_dm_t = round(f1_score(t_valid, p_valid),3)

print('Результат предсказания модели = toxic')
#print('r2 =\t', round(r2_score(t_valid, p_valid),3))
print('f1 =\t', f1_dm_t)

print('время предсказания модели составило', dt_dm_t,'секунд\n')

Результат предсказания модели = toxic
f1 =	 0.186
время предсказания модели составило 0.002 секунд



#### Соберем результаты вместе

In [26]:
result_dif_mod = pd.DataFrame(data = [[f1_lr   , dt_lr   ],
                                      [f1_b_lr , dt_b_lr ],
                                      [f1_lgb  , dt_lgb  ],
                                      [f1_b_lgb, dt_b_lgb],
                                      [f1_dm_t , dt_dm_t ]],
                              
                              columns = ['f1', 'time_predict'],
                              
                              index = ['LogisticRegression',
                                       'LogisticRegression balanced',
                                       'LGBMClassifier ',
                                       'LGBMClassifier balanced',
                                       'default = toxic'])

display (result_dif_mod)

Unnamed: 0,f1,time_predict
LogisticRegression,0.766,0.005
LogisticRegression balanced,0.683,0.002
LGBMClassifier,0.544,0.067
LGBMClassifier balanced,0.633,0.052
default = toxic,0.186,0.002


С точки зрения максимизации  f1 лучше моделью является LogisticRegression, обученная на несбалансированой выборке.

Рассчитаем значение метрики f1 на тестовой выборке. 

In [23]:
print('LogisticRegression')
print('тестовая выборка')

model_lr.fit(f_train_idf, t_train)
f1_lr, dt_lr = model_f1 (model_lr, f_test_idf, t_test)

LogisticRegression
тестовая выборка
f1 =	 0.766
время предсказания модели составило 0.005 сек



###### 3. Выводы

1. Исследованы исходные данные. Дубликаты, пропуски, не обнаружены, выборка является несбалансированной (около 10% сообщений являются негативными)
2. Проведена подготовка исходных данных для обучения моделей
3. Обучены модели LogisticRegression, LGBMClassifier, константная модель
4. При обучении моделей на сбалансированной и несбалансированной выборке получены следующие значения метрики f1:
   - для LogisticRegression значение f1 составило 0.766 и 0.683 для несбалансированной и сбалансированной выборки
   - для LGBMClassifier значение f1 составило 0.544 и 0.633 для несбалансированной и сбалансированной выборки
4. Лучшее значение метрики f1 достигнуто на моделе LogisticRegression, обученная на несбалансированой выборке. Значение f1 составило 0.766 на тестовой выборке. 
