# Построение модели классификации комментариев.

## Постановка задачи:

Заказчик - Интернет-магазин «Викишоп».

Задача - Обучить модель классифицировать комментарии на позитивные и негативные. Метрики качества модели F1 должна быть не меньше 0.75.

## Описание исходных данных:

Набор данных с разметкой о токсичности комментария.

Путь к файлу /datasets/toxic_comments.csv

<br>text - текст комментария.
<br>toxic - целевой признак.

## Оглавление:

<br> [1. Предварительный анализ исходных данных.](#step1)
<br>  - [1.1 Вывод.](#step1.1)
<br> [2. Анализ целевого признака.](#step2)
<br>  - [2.1 Формирование гипотез.](#step2.1)
<br>  - [2.2 Обогащение исходных данных.](#step2.2)
<br>  - [2.3 Проверка гипотез.](#step2.3)
<br>  --- [2.3.1 Среднее количество букв в верхнем регистре в токсичных и обычных комментариях одинаково.](#step2.3.1)
<br>  --- [2.3.2 Среднее количество восклицательных знаков в токсичных и обычных комментариях одинаково.](#step2.3.2)
<br>  --- [2.3.3 Среднее количество вопросительных знаков в токсичных и обычных комментариях одинаково.](#step2.3.3)
<br>  --- [2.3.4 Среднее количество уникальных слов к общему количеству слов в токсичных и обычных комментариях одинаково.
](#step2.3.4)
<br>  --- [2.3.5 Среднее количество слов в токсичных и обычных комментариях одинаково.](#step2.3.5)
<br>  - [2.4 Вывод.](#step2.4)
<br> [3. Предварительная обработка данных.](#step3)
<br>  - [3.1 Подготовка текста.](#step3.1)
<br>  - [3.2 Поиск токсичных словосочетаний.](#step3.2)
<br>  - [3.3 Получение обучающего и тестового наборов данных.](#step3.3)
<br>  - [3.4 Масштабирование количественных признаков.](#step3.4)
<br>  - [3.5 Токенизация текста и расчет Tfidf.](#step3.5)
<br>  - [3.6 Обогащение дополнительными признаками.](#step3.6)
<br> [4. Построение моделей.](#step4)
<br>  - [4.1 Выбор моделей.](#step4.1)
<br>  - [4.2 Получение оптимальных гиперпараметров.](#step4.2)
<br>  - [4.3 Оценка качества предсказаний на тестовом наборе данных.](#step4.3)
<br>  - [4.4 Вывод.](#step4.4)
<br> [5. Общий вывод.](#step5)

### 1. Предварительный анализ исходных данных.<a id='step1'></a>

Импорт библиотек необходимых для проведения анализа.

In [1]:
import pandas as pd # <библиотека "pandas" для работы с таблицами>
import numpy as np # <библиотека "numpy" для работы с числовыми значениями>
import time # <библиотека "time" для замера времени выполнения операций>
from sklearn.model_selection import train_test_split # <библиотека "sklearn" метод для разделения наборов данных>
from sklearn.dummy import DummyClassifier # < модель простых правил >
from sklearn.linear_model import LogisticRegression #< логистическая регрессия >
from lightgbm import LGBMClassifier #< модель градиентного бустинга >
from sklearn.model_selection import GridSearchCV # < метод для поиска оптимальных гиперпараметров >
import nltk #< библиотеки для символьной и статистической обработки естественного языка>
from nltk.corpus import stopwords as nltk_stopwords #< метод для обработки стоп слов>
from sklearn.feature_extraction.text import TfidfVectorizer #< метод для расчета TF-IDF и токенизации>
import re #< библиотека для работы с регулярными выражениями>
from nltk.stem import WordNetLemmatizer #< лемматизатор>
from sklearn.metrics import f1_score #< метрика качества f1>
from nltk.tokenize import word_tokenize #< метод токенизации>
from sklearn.preprocessing import StandardScaler # <библиотека "sklearn" методы стандартизации>
from scipy import sparse #< методы работы с разряженными матрицами>
from scipy.sparse import csr_matrix #< метод преобразования в разряженные матрицы>
from scipy import stats as st #<импорт библиотеки "scipy" для работы со статистическими методами>
from scipy.stats import levene #<импорт статистического метода levene>
from sklearn.feature_extraction.text import CountVectorizer #< метод токенизации>

Загрузка файла с данными в переменную.

In [2]:
try: # <для работы в веб форме практикума>
    data = pd.read_csv('/datasets/toxic_comments.csv')
    
except: # <для работы с данными на локальной машине>  
    data = pd.read_csv('c:/Job/yandex ds/DS_3/project3_4/toxic_comments.csv')

Рассмотрим структуру таблицы с исходными данными.

In [3]:
print(f'Размер таблицы: {data.shape}')

Размер таблицы: (159571, 2)


In [4]:
print(f'Первые 5 строк:')
display(data.head())
print(f'Последние 5 строк:')
display(data.tail())

Первые 5 строк:


Unnamed: 0,text,toxic
0,Explanation\nWhy the edits made under my usern...,0
1,D'aww! He matches this background colour I'm s...,0
2,"Hey man, I'm really not trying to edit war. It...",0
3,"""\nMore\nI can't make any real suggestions on ...",0
4,"You, sir, are my hero. Any chance you remember...",0


Последние 5 строк:


Unnamed: 0,text,toxic
159566,""":::::And for the second time of asking, when ...",0
159567,You should be ashamed of yourself \n\nThat is ...,0
159568,"Spitzer \n\nUmm, theres no actual article for ...",0
159569,And it looks like it was actually you who put ...,0
159570,"""\nAnd ... I really don't think you understand...",0


In [5]:
print(f'Общая информация по типам данных:\n')
data.info()

Общая информация по типам данных:

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 159571 entries, 0 to 159570
Data columns (total 2 columns):
 #   Column  Non-Null Count   Dtype 
---  ------  --------------   ----- 
 0   text    159571 non-null  object
 1   toxic   159571 non-null  int64 
dtypes: int64(1), object(1)
memory usage: 2.4+ MB


In [6]:
print(f'Распределение значений целевого признака')
display(data['toxic'].value_counts())

Распределение значений целевого признака


0    143346
1     16225
Name: toxic, dtype: int64

Категории распределены неравномерно. Необходима балансировка классов.

Оценим количество пропущенных значений. Напишем небольшую функцию для удобства вывода информации.

In [7]:
def na_values (data):
    report = data.isna().sum().to_frame()
    report = report.rename(columns = {0: 'missing_values'})
    report['% of total'] = (report['missing_values'] / data.shape[0]).round(2)
    return report.sort_values(by = 'missing_values', ascending = False)

In [8]:
na_values(data)

Unnamed: 0,missing_values,% of total
text,0,0.0
toxic,0,0.0


Оценим количество полных дубликатов.

In [9]:
print(f'Количество полных дубликатов:\n{data.duplicated().sum()}')

Количество полных дубликатов:
0


#### 1.1 Вывод. <a id='step1.1'></a>

- Заказчиком предоставлены данные высокого качества. Отсутствуют пропущенные значения и дубликаты. Названия признаков корректное.
- Необходимо провести анализ наличия зависимостей среди токсичных комментариев.
- Необходимо преобразовать текст в подходящий для обучения модели вид:
    - Привести слова к исходной форме - лемме
    - Оставить только буквы и убрать все знаки
    - Очистить текст от "стоп слов"
    - Привести все слова к нижнему регистру
- Категории распределены неравномерно. Необходима балансировка классов.

### 2. Анализ целевого признака.<a id='step2'></a>

#### 2.1 Формирование гипотез.<a id='step2.1'></a>

Перед токенизацией текста попробуем найти признаки которые характерны для токсичных комментариев. Уберем ограничение по количеству выводимых символов в строке и оценим первые 10 токсичных и обычных комментариев.

In [10]:
pd.set_option('display.max_colwidth', None)

In [11]:
data.query('toxic == 1').head(5)['text']

6                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                               COCKSUCKER BEFORE YOU PISS AROUND ON MY WORK
16                                                                                                                                                                                                                                                                                                                                         

In [12]:
data.query('toxic == 0').head(5)['text']

0                                                                                                                                                                                                                                                                                                                                                                             Explanation\nWhy the edits made under my username Hardcore Metallica Fan were reverted? They weren't vandalisms, just closure on some GAs after I voted at New York Dolls FAC. And please don't remove the template from the talk page since I'm retired now.89.205.38.27
1                                                                                                                                                                                                                                                                                                                                                                               

Выдвинем несколько гипотез для проверки:

- Токсичные комментарии содержат значительно больше букв в верхнем регистре по отношению к общему количеству букв в комментарии.
- Токсичные комментарии короче по сравнению в обычными комментариями или содержат меньше слов.
- Токсичные комментарии беднее лексически и имеют меньшее количество уникальных слов.
- Токсичные комментарии имеют большее количество восклицательных или вопросительных знаков по отношению к обычным в связи с большей эмоциональностью комментария.

#### 2.2 Обогащение исходных данных.<a id='step2.2'></a>

Добавим в исходную таблицу параметры которые необходимо для проверки гипотез.

Количество слов в комментарии.

In [13]:
data['word_count'] = data['text'].apply(lambda x : len(x.split()))

Общее количество символов в комментарии.

In [14]:
data['total_length'] = data['text'].apply(len)

Количество букв в верхнем регистре.

In [15]:
data['capitals'] = data['text'].apply(
    lambda comment: sum(1 for c in comment if c.isupper()))

Отношение количества букв в верхнем регистре к общему количеству символов.

In [16]:
data['caps_length'] = data.apply(lambda row: float(row['capitals'])/float(row['total_length']),axis=1)

Количество восклицательных знаков.

In [17]:
data['exclamation_marks'] =data['text'].apply(lambda x: x.count('!'))

Количество восклицательных знаков относительно длинны комментария.

In [18]:
data['exclamation_marks_length'] = data.apply(lambda row: float(row['exclamation_marks'])/float(row['total_length']),axis=1)

Количество вопросительных знаков.

In [19]:
data['question_marks'] = data['text'].apply(lambda x: x.count('?'))

Количество уникальных слов.

In [20]:
data['unique_words'] = data['text'].apply(lambda x: len(set(w for w in x.split())))

Отношение количества уникальных слов к общему количеству слов

In [21]:
data['unique_words_phrase'] = data['unique_words'] / data['word_count']

Сформируем сводную таблицу для анализа среднего значения полученных признаков в токсичных и обычных комментариях.

In [22]:
data.pivot_table(index = ['toxic'], values=['unique_words_phrase',
                                            'question_marks',
                                            'exclamation_marks',
                                            'exclamation_marks_length',
                                            'caps_length',
                                            'word_count'], aggfunc='mean')

Unnamed: 0_level_0,caps_length,exclamation_marks,exclamation_marks_length,question_marks,unique_words_phrase,word_count
toxic,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
0,0.044897,0.343442,0.001544,0.433573,0.852687,68.921065
1,0.111038,3.472727,0.008898,0.588043,0.87562,52.71772


#### 2.3 Проверка гипотез.<a id='step2.3'></a>

Все представленные выше гипотезы сводятся к расчету достоверности гипотезы "Средние двух генеральных совокупностей равны между собой".

Напишем функцию для проверки этой гипотезы. Функция будет принимать две серии и значение коэффициента статистической значимости "alpha".
Проверка гипотезы выполняется функцией "ttest_ind" расчета доверительного интервала для проверки равенства средних двух генеральных совокупностей. У функции есть параметр "equal_var", который задает считать ли равными дисперсии выборок. Чтобы понять какое значение задать параметру, воспользуемся критерием Левана. Критерий проверяет нулевую гипотезу о том, что дисперсии совокупности равны. Альтернативная гипотеза дисперсии совокупностей не равны. Для проверки используется специальный тест который производится функцией levene()

Данный тест будет включен в тело функции.

In [23]:
def ttest_levene(alpha,series_a,series_b):
    levene_check = levene(series_a,series_b)
    if (levene_check.pvalue < alpha):
        ttest_check = st.ttest_ind(series_a,series_b,equal_var = False)
        print('p-значение:', ttest_check.pvalue)
        if (ttest_check.pvalue < alpha):
            print("Отвергаем нулевую гипотезу")
        else:
            print("Не получилось отвергнуть нулевую гипотезу") 
    else:
        ttest_check = st.ttest_ind(series_a,series_b,equal_var = True)
        print('p-значение:', ttest_check.pvalue)
        if (ttest_check.pvalue < alpha):
            print("Отвергаем нулевую гипотезу")
        else:
            print("Не получилось отвергнуть нулевую гипотезу")       

#### 2.3.1 Среднее количество букв в верхнем регистре в токсичных и обычных комментариях одинаково.<a id='step2.3.1'></a>

<br>Сформируем нулевую гипотезу: 

    - Среднее количество букв в верхнем регистре в токсичных и обычных комментариях - одинаково
<br>Альтернативная гипотеза: 

    - Среднее количество букв в верхнем регистре в токсичных и обычных комментариях - не одинаково

In [24]:
caps_length_toxic = data.query('toxic == 1')['caps_length']
caps_length_regular = data.query('toxic == 0')['caps_length']

ttest_levene(.05,caps_length_toxic,caps_length_regular)

p-значение: 0.0
Отвергаем нулевую гипотезу


#### 2.3.2 Среднее количество восклицательных знаков в токсичных и обычных комментариях одинаково.<a id='step2.3.2'></a>

<br>Сформируем нулевую гипотезу: 

    -  Среднее количество восклицательных знаков в токсичных и обычных комментариях - одинаково
<br>Альтернативная гипотеза: 

    -  Среднее количество восклицательных знаков в токсичных и обычных комментариях - не одинаково

In [25]:
exclamation_marks_toxic = data.query('toxic == 1')['exclamation_marks']
exclamation_marks_regular = data.query('toxic == 0')['exclamation_marks']

ttest_levene(.05,exclamation_marks_toxic,exclamation_marks_regular)

p-значение: 1.1141480575159621e-07
Отвергаем нулевую гипотезу


#### 2.3.3 Среднее количество вопросительных знаков в токсичных и обычных комментариях одинаково.<a id='step2.3.3'></a>

<br>Сформируем нулевую гипотезу: 

    - Среднее количество вопросительных знаков в токсичных и обычных комментариях - одинаково
<br>Альтернативная гипотеза: 

    - Среднее количество вопросительных знаков в токсичных и обычных комментариях - не одинаково

In [26]:
question_marks_toxic = data.query('toxic == 1')['question_marks']
question_marks_regular = data.query('toxic == 0')['question_marks']

ttest_levene(.05,question_marks_toxic,question_marks_regular)

p-значение: 5.74485563005134e-10
Отвергаем нулевую гипотезу


#### 2.3.4 Среднее количество уникальных слов к общему количеству слов в токсичных и обычных комментариях одинаково.<a id='step2.3.4'></a>

<br>Сформируем нулевую гипотезу: 

    - Среднее количество уникальных слов к общему количеству слов в токсичных и обычных комментариях одинаково - одинаково
<br>Альтернативная гипотеза: 

    - Среднее количество уникальных слов к общему количеству слов в токсичных и обычных комментариях одинаково - не одинаково

In [27]:
unique_words_phrase_toxic = data.query('toxic == 1')['unique_words_phrase']
unique_words_phrase_regular = data.query('toxic == 0')['unique_words_phrase']

ttest_levene(.05,unique_words_phrase_toxic,unique_words_phrase_regular)

p-значение: 4.2993069183285413e-66
Отвергаем нулевую гипотезу


#### 2.3.5 Среднее количество слов в токсичных и обычных комментариях одинаково.<a id='step2.3.5'></a>

<br>Сформируем нулевую гипотезу: 

    - Среднее количество слов в токсичных и обычных комментариях - одинаково
<br>Альтернативная гипотеза: 

    - Среднее количество слов в токсичных и обычных комментариях - не одинаково

In [28]:
word_count_toxic = data.query('toxic == 1')['word_count']
word_count_regular = data.query('toxic == 0')['word_count']

ttest_levene(.05,word_count_toxic,word_count_regular)

p-значение: 2.1483593430866275e-75
Отвергаем нулевую гипотезу


#### 2.4 Вывод.<a id='step2.4'></a>

Средние значения дополнительных признаков в токсичных и обычных комментариях отличаются. Все гипотезы подтвердились. В качестве дополнительных признаков будут использоваться:
- Количество символов в верхнем регистре относительно общего количества символов "caps_length"
- Количество восклицательных знаков
- Количество вопросительных знаков
- Количество слов в комментарии
- Отношение количества уникальных слов к общему количеству слов.

### 3. Предварительная обработка данных.<a id='step3'></a>

#### 3.1 Подготовка текста.<a id='step3.1'></a>

Для дальнейшей токенизации и обучения модели необходимо преобразовать текст комментариев. Необходимо:

1. Привести слова к исходной форме - лемме
2. Убрать все символы кроме букв
3. Убрать слова, которые не несут информации (предлоги, артикли и т.п.)
4. Привести все буквы к нижнему регистру.

Напишем функцию для реализации первых двух преобразований. Оставшиеся преобразования можно выполнить на этапе расчета "Tfidf" за счет дополнительных параметров.

In [29]:
def lem_cleaning(text):
    lemmatizer = WordNetLemmatizer() #<инициализируем лемматизатор>
    lemm_list = nltk.word_tokenize(text) #<разбиваем предложение на список>
    lemm_text = ' '.join([lemmatizer.lemmatize(w) for w in lemm_list]) #<проводим лемматизацию и соединяем слова в предложения>
    first_cleaning = re.sub(r'[^[A-Za-z]', ' ', lemm_text) #<оставляем только буквы>
    second_cleaning = first_cleaning.split() #<повторно соединяем в предложения без лишних пробелов>
    final_text = " ".join(second_cleaning)
    return(final_text)

Добавим в исходную таблицу столбец с подготовленным текстом.

In [30]:
%%time
data['lemm_text'] = data['text'].apply(lambda x: lem_cleaning(x))

Wall time: 2min 46s


#### 3.2 Поиск токсичных словосочетаний.<a id='step3.2'></a>

В токсичных комментариях часто присутствует обсессивная лексика, которая складывается не из единичных слов, а из нескольких. Составим список самых часто встречаемых биграмм среди токсичных комментариев. Сформируем массив лемматизированного текста токсичных комментариев.

In [31]:
corpus_toxic = list(data.query('toxic == 1')['lemm_text'])

Перед разделением текста на биграммы загрузим список "стоп слов". Данный список позволит избавиться от предлогов, артиклей и т.п. в биграммах.

In [32]:
nltk.download('stopwords')
stopwords = set(nltk_stopwords.words('english'))

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\bazoo\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


Зададим параметры токенизатору используя который мы получим биграммы. В параметрах укажем размер n-грамм, необходимость удаления стоп-слов и приведение букв к нижнему регистру.

In [33]:
ngram_count_vect = CountVectorizer(ngram_range=(2, 2), stop_words=stopwords,lowercase=True) 

Применим токенизатор к массиву лемматизированного текста.

In [34]:
n_gramm = ngram_count_vect.fit_transform(corpus_toxic)

Зададим сколько чаще всего встречаемых биграмм необходимо выбрать через переменную "N".
В переменной "idx" будут содержаться индексы самых часто встречаемых биграмм.

In [35]:
N = 50
idx = np.ravel(n_gramm.sum(axis=0).argsort(axis=1))[::-1][:N]

Используя индекс получим список биграмм.

In [36]:
top_toxic_bigrams = np.array(ngram_count_vect.get_feature_names())[idx].tolist()

Оценим получившийся список.

In [37]:
top_toxic_bigrams

['fuck fuck',
 'nigger nigger',
 'hate hate',
 'moron hi',
 'hi moron',
 'faggot faggot',
 'pig pig',
 'jew fat',
 'fat jew',
 'go fuck',
 'shit shit',
 'suck suck',
 'bark bark',
 'wanker wanker',
 'fuck go',
 'bullshit bullshit',
 'balls balls',
 'talk page',
 'nipple nipple',
 'suck cock',
 'die die',
 'dickhead dickhead',
 'die fag',
 'fag die',
 'fucksex fucksex',
 'fuck yourselfgo',
 'yourselfgo fuck',
 'aids aids',
 'freedom freedom',
 'super gay',
 'gay super',
 'buttsecks buttsecks',
 'twat twat',
 'fucker cocksucker',
 'mothjer fucker',
 'cocksucker mothjer',
 'suck dick',
 'piece shit',
 'know fggt',
 'fggt know',
 'noobs wiki',
 'wiki noobs',
 'shut fuck',
 'ass ass',
 'poop poop',
 'bastered bastered',
 'penis penis',
 'huge faggot',
 'gay gay',
 'faggot huge']

Напишем функцию, которая будет осуществлять поиск самых популярных биграмм в комментариях. Функция раскладывает комментарий на список биграмм после чего составляет список пересечения с самыми популярными биграммами. Если длинна получившегося списка больше нуля, то функция возвращает единицу. В других случаях возвращает ноль.

In [38]:
def bigrams_search(string,toxic_bigrams):
    count_vect = CountVectorizer(ngram_range=(2, 2), stop_words=stopwords,lowercase=True)
    try:
        count_vect.fit_transform([string])
        bigrams = count_vect.get_feature_names()
        bigrams_match = list(set(toxic_bigrams) & set(bigrams))
        if len(bigrams_match) > 0:
            return(1)
        else:
            return(0)
    except:
        return(0)

Применим функцию и сформируем новый категорийный признак наличия токсичной биграммы в комментарии.

In [39]:
%%time
data['toxic_bigrams'] = data['lemm_text'].apply(lambda x: bigrams_search(x,top_toxic_bigrams))

Wall time: 1min 44s


#### 3.3 Получение обучающего и тестового наборов данных.<a id='step3.3'></a>

Разделим общий набор данных на обучающий и тестовый. Оставим в списке признаков только важные признаки:
- Пред обработанный текст комментария
- Количество символов в верхнем регистре относительно общего количества символов "caps_length"
- Количество восклицательных знаков
- Количество вопросительных знаков
- Количество слов в комментарии
- Отношение количества уникальных слов к общему количеству слов.
- Наличие токсичных биграмм в комментарии.

In [40]:
features_train, features_test, target_train, target_test = train_test_split(
    data[['caps_length',
          'exclamation_marks',
          'lemm_text',
          'question_marks',
          'unique_words_phrase',
          'word_count',
          'toxic_bigrams']],
    data['toxic'], test_size=0.2)

#### 3.4 Масштабирование количественных признаков.<a id='step3.4'></a>

В наборах данных присутствуют количественные признаки. Для дальнейшей категоризации необходимо выполнить масштабирование.
Создадим объект структуры StandardScaler() и настроим его используя обучающий набор данных. Настройка — это вычисление среднего и дисперсии. Настроена будет выполняться только по численным признакам поэтому сначала создадим список с численными признаками.

In [41]:
column_list_additional_features = ['caps_length',
                       'exclamation_marks',
                       'question_marks',
                       'unique_words_phrase',
                       'word_count']

In [42]:
scaler = StandardScaler()

In [43]:
scaler.fit(features_train[column_list_additional_features])

StandardScaler()

Выполним масштабирование признаков функцией transform().

In [44]:
features_train[column_list_additional_features] = scaler.transform(features_train[column_list_additional_features])
features_test[column_list_additional_features] = scaler.transform(features_test[column_list_additional_features]) 

#### 3.5 Токенизация текста и расчет Tfidf.<a id='step3.5'></a>

Приведем текст к типу "unicode".

In [45]:
features_train['lemm_text'] = features_train['lemm_text'].values.astype('U')

In [46]:
features_test['lemm_text'] = features_test['lemm_text'].values.astype('U')

Инициализируем токенизатор с дополнительными параметрами:
- stop_words - уберет слова, которые не несут информации
- lowercase - приведет все знаки к нижнему регистру
- min_df позволит отсечь слова с низким значением Tfidf.

In [47]:
count_tf_idf = TfidfVectorizer(stop_words=stopwords,
                               lowercase=True, 
                               min_df=0.0001)

Подготовим разряженные матрицы с рассчитанным значением Tfidf для обучающего и тестового наборов данных. Изменим тип данных на "float32" чтобы уменьшить потребление памяти.

In [48]:
tf_idf_train = count_tf_idf.fit_transform(features_train['lemm_text']).astype(np.float32)

In [49]:
tf_idf_test = count_tf_idf.transform(features_test['lemm_text']).astype(np.float32)

#### 3.6 Обогащение дополнительными признаками. <a id='step3.6'></a>

Сформируем массивы с дополнительными признаками. Приведем тип данных к "float32".

In [50]:
train_additional_features = np.array(features_train.drop('lemm_text', axis=1)).astype(np.float32)

In [51]:
test_additional_features = np.array(features_test.drop('lemm_text', axis=1)).astype(np.float32)

Преобразуем разряженные матрицы Tfidf в массивы и объединим с дополнительными признаками.

In [52]:
%%time
tf_idf_train_temporary = np.column_stack((tf_idf_train.todense(),train_additional_features))

Wall time: 1min 3s


In [53]:
%%time
tf_idf_test_temporary = np.column_stack((tf_idf_test.todense(),test_additional_features))

Wall time: 6.28 s


Преобразуем полученные массивы обратно в разряженные матрицы и очистим переменные. Данное преобразование необходимо для очистки памяти.

In [54]:
%%time
tf_idf_train_enriched = sparse.csr_matrix(tf_idf_train_temporary)

Wall time: 1min 51s


In [55]:
tf_idf_train_temporary = None

In [56]:
%%time
tf_idf_test_enriched = sparse.csr_matrix(tf_idf_test_temporary)

Wall time: 9.5 s


In [57]:
tf_idf_test_temporary = None

In [58]:
tf_idf_train_enriched

<127656x15119 sparse matrix of type '<class 'numpy.float32'>'
	with 3872313 stored elements in Compressed Sparse Row format>

### 4. Построение моделей.<a id='step4'></a>

#### 4.1 Выбор моделей.<a id='step4.1'></a>

В текущем проекте необходимо решить задачу классификации. Для этого будет использоваться три вида моделей:

"LogisticRegression" - Логистическая регрессия
"LGBMClassifier" - Классификатор с применением градиентного бустинга
"DummyClassifier" - Модель простых правил.
При первичном анализе был обнаружен значительный дисбаланс классов целевого признака. Построение моделей будет выполняться с автоматической балансировкой классов.

Сформируем список моделей которые не требуют подбора гиперпараметров.

In [59]:
models_list = [LogisticRegression(class_weight='balanced',random_state=123),
               DummyClassifier(strategy="stratified")]

#### 4.2 Получение оптимальных гиперпараметров.<a id='step4.2'></a>

Подбор гиперпараметров модели градиентного бустинга будет выполняться с использованием "GridSearchCV".  Заказчиком заявлено требование к значению метрики "F1". Функцией качества указана метрика "F1".

<div class="alert alert-info" role="alert">
<h2> Комментарий от автора</h2>
Подбор параметров выполнял в следующих диапазонах:
parametrs_LightGBM = {'n_estimators': [10, 50, 100, 200, 500], 'max_depth': [1, 10, 25, 50]}
подбиралось 1h 24min 14s.
    
    Лучшие гиперпараметры для модели LGBMClassifier(class_weight='balanced') - {'max_depth': 25, 'n_estimators': 500}
    
Чтобы не тратить время поправил параметры и добавил ниже вручную заполненный список моделей.
</div>

In [60]:
parametrs_LightGBM = {'n_estimators': [1, 5], 'max_depth': [1, 2]}

In [61]:
%%time
model = LGBMClassifier(class_weight='balanced') 
grid = GridSearchCV(model,parametrs_LightGBM,scoring='f1',cv=5)
grid.fit(tf_idf_train_enriched,target_train)
print(f'Лучшие гиперпараметры для модели {model} - {grid.best_params_}')
models_list.append(grid.best_estimator_)

Лучшие гиперпараметры для модели LGBMClassifier(class_weight='balanced') - {'max_depth': 2, 'n_estimators': 5}
Wall time: 2min 48s


#### 4.3 Оценка качества предсказаний на тестовом наборе данных.<a id='step4.3'></a>

Оценим получившийся список моделей.

In [62]:
models_list

[LogisticRegression(class_weight='balanced', random_state=123),
 DummyClassifier(strategy='stratified'),
 LGBMClassifier(class_weight='balanced', max_depth=2, n_estimators=5)]

In [63]:
models_list = [LogisticRegression(class_weight='balanced',random_state=123),
               DummyClassifier(strategy="stratified"),LGBMClassifier(class_weight='balanced', max_depth = 25,n_estimators = 500)]

Напишем функцию для расчета метрики "F1" на тестовом наборе данных используя полученный список моделей. Функция выдает значение метрики и длительность обучения модели.

In [64]:
def f1_calculation(model,features_train,target_train,features_test,target_test):
    start_time = time.time()
    model.fit(features_train, target_train)
    finish_time = time.time()
    predicted = model.predict(features_test)
    f1 = f1_score(target_test,predicted)
    
    print(f'--------------------------')
    print(f'Значение F1 для модели {model} на тестовом наборе данных: {f1}')
    print(f'Время обучения составляет: {finish_time - start_time} секунд\n')
    print(f'--------------------------')

Применим функцию к списку моделей.

In [65]:
for model in models_list:
    f1_calculation(model,tf_idf_train_enriched,target_train,tf_idf_test_enriched,target_test)

STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


--------------------------
Значение F1 для модели LogisticRegression(class_weight='balanced', random_state=123) на тестовом наборе данных: 0.7450369793694044
Время обучения составляет: 12.26590609550476 секунд

--------------------------
--------------------------
Значение F1 для модели DummyClassifier(strategy='stratified') на тестовом наборе данных: 0.10221944357611754
Время обучения составляет: 0.008002281188964844 секунд

--------------------------
--------------------------
Значение F1 для модели LGBMClassifier(class_weight='balanced', max_depth=25, n_estimators=500) на тестовом наборе данных: 0.7678522194651227
Время обучения составляет: 100.71230936050415 секунд

--------------------------


#### 4.4 Вывод.<a id='step4.4'></a>

- Простая модель значительно хуже предсказывает результаты чем сложные.
- Заказчиком было заявлено требование к метрике F1 не ниже 0.75. Данное требование удовлетворяет только модель градиентного бустинга "LGBMClassifier".
- Сравнительная таблица по сложным моделям представлена ниже:

| Модель | Максимальная глубина | Количество деревьев | Значение F1 | Время обучения, секунды |
| ------------- | ------------- | ------------- | ------------- | ------------- |
| "Градиентный бустинг LGBMRegressor" | 25 | 500 | 0.773| 84.37 |
| "Логистическая регрессия" | --- | --- | 0.749 | 2.614|

#### 5. Общий вывод.<a id='step5'></a>

- Заказчиком предоставлены данные высокого качества. Отсутствуют пропущенные значения и дубликаты. Названия признаков корректное.
- Категории распределены неравномерно. Необходима балансировка классов.
- Были подтверждены следующие гипотезы:
    - Среднее количество букв в верхнем регистре в токсичных и обычных комментариях отличается.
    - Среднее количество восклицательных знаков в токсичных и обычных комментариях отличается.
    - Среднее количество вопросительных знаков в токсичных и обычных комментариях отличается.
    - Среднее количество уникальных слов к общему количеству слов в токсичных и обычных комментариях отличается.
    - Среднее количество слов в токсичных и обычных комментариях отличается.


- В качестве дополнительных признаков токсичности комментария использовались:
    - Количество символов в верхнем регистре относительно общего количества символов "caps_length"
    - Количество восклицательных знаков
    - Количество вопросительных знаков
    - Количество слов в комментарии
    - Отношение количества уникальных слов к общему количеству слов.

- Простая модель значительно хуже предсказывает результаты чем сложные модели.
- Заказчиком было заявлено требование к метрике F1 не ниже 0.75. Данное требование удовлетворяет только модель градиентного бустинга "LGBMClassifier".
- Сравнительная таблица по сложным моделям представлена ниже:

| Модель | Максимальная глубина | Количество деревьев | Значение F1 | Время обучения, секунды |
| ------------- | ------------- | ------------- | ------------- | ------------- |
| "Градиентный бустинг LGBMRegressor" | 25 | 500 | 0.773| 84.37 |
| "Логистическая регрессия" | --- | --- | 0.749 | 2.614|