Интернет-магазин «Викишоп» запускает новый сервис. Теперь пользователи могут редактировать и дополнять описания товаров, как в вики-сообществах. То есть клиенты предлагают свои правки и комментируют изменения других. Магазину нужен инструмент, который будет искать токсичные комментарии и отправлять их на модерацию. 

Обучите модель классифицировать комментарии на позитивные и негативные. В вашем распоряжении набор данных с разметкой о токсичности правок.

Постройте модель со значением метрики качества *F1* не меньше 0.75. 

### Инструкция по выполнению проекта

1. Загрузите и подготовьте данные.
2. Обучите разные модели. 
3. Сделайте выводы.

Для выполнения проекта применять *BERT* необязательно, но вы можете попробовать.

### Описание данных

Данные находятся в файле `toxic_comments.csv`. Столбец *text* в нём содержит текст комментария, а *toxic* — целевой признак.

# Содержание проекта  <a class="anchor" id="0-bullet">
* [Шаг 1. Подготовка](#1-bullet)
* [Шаг 2. Обучение](#2-bullet)    
* [Шаг 3. Выводы](#3-bullet)

In [1]:
# Импортируем библиотеки, необходимые для выполнения проекта

import pandas as pd
import scipy.sparse as sp

import nltk
import re

from pymystem3 import Mystem

from tqdm import notebook

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics import f1_score
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import AdaBoostClassifier

# 1. Подготовка<a class="anchor" id="1-bullet"></a>
👈[назад к оглавлению](#0-bullet)

### <span style="color:green">План подготовки данных<span>

<span style="color:blue">
    
1. Уберем символы, не относящиеся к английскому алфавиту (регулярные выражения).
2. Лемматизируем тексты.
3. Разобъем выборку на тренировочно-валидационную и тестовую в пропорции (4:1).
4. Разобъем тренировочно-валидационную выборку на тренировочную и валидационную в пропорции (3:1).
5. Подготовим массивы признаков для обеих выборок методом TF-IDF, попутно уберем стоп-слова.

<span>

In [2]:
# Уберем предупреждения об изменениях в будущих релизах
from warnings import simplefilter
simplefilter(action='ignore', category=FutureWarning)

In [3]:
datasets_path = ''
#datasets_path = 'C:/Users/Venik/OneDrive/Документы/Yandex_Praktikum/Texts_Project'

In [4]:
# Прочитаем файл
toxic_comments = pd.read_csv(datasets_path + '/datasets/toxic_comments.csv')
toxic_comments.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 159571 entries, 0 to 159570
Data columns (total 2 columns):
text     159571 non-null object
toxic    159571 non-null int64
dtypes: int64(1), object(1)
memory usage: 2.4+ MB


In [5]:
toxic_comments.sample(10)

Unnamed: 0,text,toxic
119573,"Just an FYI, I added more details to the artic...",0
10875,""" Please refrain from creating inappropriate...",0
97424,"""\n\n Lede is (deliberately?) misleading \n\nG...",0
108551,Thanks for contacting CBD. To make it easier f...,0
69872,Pardon my impertinence but I completely re-wro...,0
104829,"""\nIf so, then they do a pretty good job they...",0
10035,""":And A """"SINGLE TOPIC"""" poster who has never ...",0
33747,Hector\nIts missing the piece from The Aeneid,0
139332,"""\n\n GA review of Schindler's List \n\nHello,...",0
55473,"""\nBe WP:CIVIL. I have explained my edits on t...",0


In [6]:
# Посмотрим, как сбалансирована выборка
toxic_comments['toxic'].value_counts()

0    143346
1     16225
Name: toxic, dtype: int64

In [7]:
# Преобразуем тексты в unicode
toxic_comments['text'] = toxic_comments['text'].astype('U')
toxic_comments.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 159571 entries, 0 to 159570
Data columns (total 2 columns):
text     159571 non-null object
toxic    159571 non-null int64
dtypes: int64(1), object(1)
memory usage: 2.4+ MB


In [8]:
# Сформируем корпус для преобразования
corpus = toxic_comments['text'].values

m = Mystem()
pattern = r'[^a-zA-Z ]'

corpus[0]

"Explanation\nWhy the edits made under my username Hardcore Metallica Fan were reverted? They weren't vandalisms, just closure on some GAs after I voted at New York Dolls FAC. And please don't remove the template from the talk page since I'm retired now.89.205.38.27"

In [9]:
# Функция для исключения из текста регулярных выражений
def resub(text):
    text = re.sub(pattern,' ', text)
    return " ".join(text.split())

# Функция для лемматизации текста
def lemmatize(text):
    lemm = m.lemmatize(text)
    return "".join(lemm)


In [10]:
# Удалим из корпуса регулярные выражения
for i in notebook.tqdm(range(len(corpus))):
    corpus[i] = resub(corpus[i])

corpus[0:5]

HBox(children=(FloatProgress(value=0.0, max=159571.0), HTML(value='')))




array(['Explanation Why the edits made under my username Hardcore Metallica Fan were reverted They weren t vandalisms just closure on some GAs after I voted at New York Dolls FAC And please don t remove the template from the talk page since I m retired now',
       'D aww He matches this background colour I m seemingly stuck with Thanks talk January UTC',
       'Hey man I m really not trying to edit war It s just that this guy is constantly removing relevant information and talking to me through edits instead of my talk page He seems to care more about the formatting than the actual info',
       'More I can t make any real suggestions on improvement I wondered if the section statistics should be later on or a subsection of types of accidents I think the references may need tidying so that they are all in the exact same format ie date format etc I can do that later on if no one else does first if you have any preferences for formatting style on references or want to do it yourself ple

In [10]:
# Лемматизируем тексты корпуса
for i in notebook.tqdm(range(len(corpus))):
    corpus[i] = lemmatize(corpus[i])

corpus[0:5]

HBox(children=(FloatProgress(value=0.0, max=159571.0), HTML(value='')))




array(["Explanation\nWhy the edits made under my username Hardcore Metallica Fan were reverted? They weren't vandalisms, just closure on some GAs after I voted at New York Dolls FAC. And please don't remove the template from the talk page since I'm retired now.89.205.38.27\n",
       "D'aww! He matches this background colour I'm seemingly stuck with. Thanks.  (talk) 21:51, January 11, 2016 (UTC)\n",
       "Hey man, I'm really not trying to edit war. It's just that this guy is constantly removing relevant information and talking to me through edits instead of my talk page. He seems to care more about the formatting than the actual info.\n",
       '"\nMore\nI can\'t make any real suggestions on improvement - I wondered if the section statistics should be later on, or a subsection of ""types of accidents""  -I think the references may need tidying so that they are all in the exact same format ie date format etc. I can do that later on, if no-one else does first - if you have any prefere

In [11]:
# Заменим тексты в датесете
toxic_comments['text'] = corpus

del corpus

toxic_comments.sample(10)

Unnamed: 0,text,toxic
91597,Austin Bourke was a meteorologist. He was invo...,0
99945,"""\nThe problem is that there is no """"generally...",0
105110,"Djehuty\nHey, thought I'd let you know I start...",0
4959,""" cannot decipher, and punitive actions. As t...",0
16266,Sounds good to me. What do you think of the fi...,0
81714,"""\n\n Re: Reverting \n\nIs reverting where you...",0
73965,"""\n\n That userbox.... \n\nHello Chavatshimsho...",0
75573,"""Please do not add nonsense to Wikipedia. It i...",0
8536,And then there's Henry IV style - don't look n...,0
124632,"""::: Honestly, They aren't really """"experiment...",0


In [12]:
toxic_comments.to_csv(datasets_path + 'toxic_comments_lemmatized.csv')

In [13]:
# Разделим выборки
train_valid, test = train_test_split(toxic_comments, 
                                     test_size = 0.2,
                                     stratify = toxic_comments['toxic'])

train, valid = train_test_split(train_valid, 
                                test_size = 0.25,
                                stratify = train_valid['toxic'])

In [14]:
# Выделим целевой признак и корпус из тренировочной выборки
corpus_train = train['text'].values
target_train = train['toxic']
corpus_train.shape

(95742,)

In [15]:
# Выделим целевой признак и корпус из валидационной выборки
corpus_valid = valid['text'].values
target_valid = valid['toxic']
corpus_valid.shape

(31914,)

In [16]:
# Выделим целевой признак и корпус из тестовой выборки
corpus_test = test['text'].values
target_test = test['toxic']
corpus_test.shape

(31915,)

In [17]:
# Загрузим массив слов без смысловой нагрузки
nltk.download('stopwords')
stop_words = set(nltk.corpus.stopwords.words('english'))

# Сформируем массивы признаков методом TF-IDF
count_tf_idf = TfidfVectorizer(stop_words=stop_words, ngram_range = (1, 1))

tf_idf_train = count_tf_idf.fit_transform(corpus_train)
tf_idf_train.shape

[nltk_data] Downloading package stopwords to /home/jovyan/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


(95742, 139459)

In [18]:
tf_idf_valid = count_tf_idf.transform(corpus_valid)
tf_idf_valid.shape

(31914, 139459)

In [19]:
tf_idf_test = count_tf_idf.transform(corpus_test)
tf_idf_test.shape

(31915, 139459)

### <span style="color:green">Выводы по результатам подготовки данных<span>

 <span style="color:blue">
Из текста были убраны регулярные выражения и слова не имеющие смысловой нагрузки. Проведена лемматизация. На основании преобразованного текста были сформированы тренировочно-валидационная и тестовая выборки. Эти выборки мы преобразовали в массивы признаков.

<b>Приступим к обучению моделей.</b>
<span>

# 2. Обучение<a class="anchor" id="2-bullet"></a>
👈[назад к оглавлению](#0-bullet)

### <span style="color:green">План обучения моделей<span>

<span style="color:blue">
    
1. Проведем анализ метрики f1 для различных моделей с различными гиперпараметрами. Подберем лучшие гиперпараметры для каждой модели.
2. Сравним значения метрики различных моделей.
3. Обучим каждую модель с лучшими для нее гиперпараметрами на выборке, сформированной из тестовой и валидационной выборки и выведем показатель f1 для тестовой выборки.
4. Выберем лучшую модель.
    
<span>

In [20]:
# Создадим сравнительный датасет в который будем писать параметры модели
compare = {'model_name' : [],
           'param1_name' : [],
           'param1_value' : [],
           'param2_name' : [],
           'param2_value' : [],
           'param3_name' : [],
           'param3_value' : [],
           'f1' : []
           }

compare_data_models = pd.DataFrame(compare)

In [21]:
# Функция для добавления строки в сравнительную таблицу
def add_model_params(model_name,
                     param1_name,
                     param1_value,
                     param2_name,
                     param2_value,
                     param3_name,
                     param3_value,
                     f1,
                     compare_data):
    
    compare_data = compare_data.append(pd.DataFrame([[model_name,
                                                      param1_name,
                                                      param1_value,
                                                      param2_name,
                                                      param2_value,
                                                      param3_name,
                                                      param3_value,
                                                      f1]], 
                                                      columns = ['model_name',
                                                                 'param1_name',
                                                                 'param1_value',
                                                                 'param2_name',
                                                                 'param2_value',
                                                                 'param3_name',
                                                                 'param3_value',
                                                                 'f1']),
                                                      ignore_index=True)
    
    return compare_data

In [22]:
def check_f1(model,
             train_features,
             train_target,
             valid_features,
             valid_target):
    
    model.fit(train_features,train_target)
    predictions = model.predict(valid_features)
    return f1_score(valid_target, predictions)
    

<span style="color:blue">Начнем анализ с Логистической регрессии.<span>

In [23]:
model = LogisticRegression(random_state=12345)

current_f1 = check_f1(model,
                     tf_idf_train,
                     target_train,
                     tf_idf_valid,
                     target_valid)

compare_data_models = add_model_params('LogisticRegression',
                                        'None', 
                                        0,
                                        'None',
                                        0,
                                        'None',
                                        0,
                                         current_f1,
                                        compare_data_models) 

compare_data_models

Unnamed: 0,model_name,param1_name,param1_value,param2_name,param2_value,param3_name,param3_value,f1
0,LogisticRegression,,0.0,,0.0,,0.0,0.703939


<span style="color:blue">

Логистическая регрессия немного не дотягивает до необходимого результата F1 = 0,75.

Теперь возьмем модель AdaBoost и подберем для нее параметр "Количество оценщиков". Для начала переберем значения от 1000 до 1200 с шагом 100.
    
<span>

In [25]:
# AdaBoost (подбор количества оценщиков)

best_f1 = 0
best_n_estimators = 0

for n_estimators in notebook.tqdm(range(1000, 1201, 100)):
    
    model = AdaBoostClassifier(random_state=12345,
                               n_estimators = n_estimators)

    current_f1 = check_f1(model,
                         tf_idf_train,
                         target_train,
                         tf_idf_valid,
                         target_valid)
       
    if best_f1 < current_f1:
        best_f1 = current_f1
        best_n_estimators = n_estimators
        
print('Лучшее значение количества оценщиков для AdaBoost:', 
      best_n_estimators)

HBox(children=(FloatProgress(value=0.0, max=3.0), HTML(value='')))




KeyboardInterrupt: 

In [24]:
compare_data_models = add_model_params('AdaBoost', 
                                        'n_estimators', 
                                        best_n_estimators,
                                        'None',
                                        0,
                                        'None',
                                        0,
                                        best_f1,
                                        compare_data_models) 

compare_data_models

NameError: name 'best_n_estimators' is not defined

<span style="color:blue">

Модель AdaBoost показала необходимый нам результат на валидационном датасете. 
Теперь проверим как себя поведут модели при обучении на группировочном датасете, состоящем из тренировочной и валидационной выборок.
    
Проверку будем осуществлять на тестовой выборке.
    
<span>


In [27]:
# Создадим сравнительный датасет в который будем писать параметры модели
compare = {'model_name' : [],
           'f1' : []
           }

compare_best_models = pd.DataFrame(compare)

In [28]:
# Функция для добавления строки в сравнительную таблицу
def add_best_model_f1(model_name,
                      f1,
                      compare_data):
    
    compare_data = compare_data.append(pd.DataFrame([[model_name,
                                                      f1]], 
                                                      columns = ['model_name',
                                                                  'f1']),
                                                      ignore_index=True)
    
    return compare_data

In [30]:
# Сформируем общий массив признаков из тренировочной и валидационной выборки
tf_idf_train_valid = sp.vstack((tf_idf_train,tf_idf_valid))
tf_idf_train_valid

<127656x125435 sparse matrix of type '<class 'numpy.float64'>'
	with 3454591 stored elements in Compressed Sparse Row format>

In [31]:
# Сформируем общий массив целевых признаков из тренировочной и валидационной выборки
target_train_valid = pd.concat([target_train,target_valid])
target_train_valid.shape

(127656,)

In [33]:
# Вычислим и сравним f1 для каждой модели с лучшими гиперпараметрами
for i in notebook.tqdm(range(compare_data_models.shape[0])):
    
    model_name = compare_data_models.iloc[i]['model_name']
    param1 = int(compare_data_models.iloc[i]['param1_value'])
    param2 = int(compare_data_models.iloc[i]['param2_value'])
    param3 = int(compare_data_models.iloc[i]['param3_value'])

    if model_name == 'LogisticRegression':
        model = LogisticRegression(random_state = 12345)
    
    elif model_name == 'AdaBoost':
        model = AdaBoostClassifier(random_state=12345,
                                   n_estimators = param1)
        
    f1 = check_f1(model,
                  tf_idf_train_valid,
                  target_train_valid,
                  tf_idf_test,
                  target_test)
    
    compare_best_models = add_best_model_f1(model_name, 
                                           f1,
                                           compare_best_models) 


compare_best_models

HBox(children=(FloatProgress(value=0.0, max=2.0), HTML(value='')))




Unnamed: 0,model_name,f1
0,LogisticRegression,0.735179
1,AdaBoost,0.76995


# 3. Выводы<a class="anchor" id="3-bullet"></a>
👈[назад к оглавлению](#0-bullet)

<span style="color:blue">

Для классификации тональности текста мы обошлись без "тяжелых" моделей, вроде градиентного бустинга. Если бы целевое значение метрики было немного меньше (всего на 2%), можно было бы взять для дальнейшей обработки текстов модель логистической регрессии. Она показала F1 = 0,735.

Первая модель из базового списка "ансамблевых" моделей AdaBoostClassifier показала себя достаточно хорошо и на тестовом датасете значение метрики F1 = 0,77. Этого вполне достаточно для решения задачи.
    
<span>
    
<span style="color:red"><b>
    Модель AdaBoostClassifier мы и рекомендуем для дальнейшего использования.
</b><span>

# Чек-лист проверки

- [x]  Jupyter Notebook открыт
- [x]  Весь код выполняется без ошибок
- [x]  Ячейки с кодом расположены в порядке исполнения
- [x]  Данные загружены и подготовлены
- [x]  Модели обучены
- [x]  Значение метрики *F1* не меньше 0.75
- [x]  Выводы написаны