# Проект для «Викишоп»

Интернет-магазин «Викишоп» запускает новый сервис, в котором пользователи могут редактировать и дополнять описания товаров как в вики-сообществах. То есть клиенты предлагают свои правки и комментируют изменения других. Магазину нужен инструмент, который будет искать токсичные комментарии и отправлять их на модерацию. 

<b>Задача</b>: обучить модель классифицировать комментарии на позитивные и негативные. В нашем распоряжении набор данных с разметкой о токсичности правок. 

Метрика качества *F1* должна быть не меньше 0.75. 

<b>Данные</b> находятся в файле "toxic_comments.csv". В столбце "text" содержится текст комментариев, а в "toxic" — целевой признак (0 и 1).

Метрика F1 - это среднегармоничное значение между precision и recall. В данном проекте заказчику важны и точность, и полнота. Точность - сколько действительно негативных комментариев модель отнесла к классу 1 и нейтральных к классу 0. А полнота - сколько модель нашла негативных комментариев среди всех негативных комментариев. В случае метрики F1 модель находит оптимальный баланс между точностью и полнотой.

Если бы заказчику было важнее найти как можно больше токсичных комментариев, мы бы воспользовались метрикой Полнота(recall). В этом случае учтен был бы каждый токсичный комментарий, попавший или не попавший в класс 1.

<h1>Содержание<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Подготовка-и-изучение-данных" data-toc-modified-id="Подготовка-и-изучение-данных-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Подготовка и изучение данных</a></span><ul class="toc-item"><li><span><a href="#Загрузка-и-изучение-данных" data-toc-modified-id="Загрузка-и-изучение-данных-1.1"><span class="toc-item-num">1.1&nbsp;&nbsp;</span>Загрузка и изучение данных</a></span></li><li><span><a href="#Подготовка-данных-к-обучению" data-toc-modified-id="Подготовка-данных-к-обучению-1.2"><span class="toc-item-num">1.2&nbsp;&nbsp;</span>Подготовка данных к обучению</a></span></li></ul></li><li><span><a href="#Обучение" data-toc-modified-id="Обучение-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Обучение</a></span><ul class="toc-item"><li><span><a href="#Мешок-слов" data-toc-modified-id="Мешок-слов-2.1"><span class="toc-item-num">2.1&nbsp;&nbsp;</span>Мешок слов</a></span><ul class="toc-item"><li><span><a href="#Случайный-лес" data-toc-modified-id="Случайный-лес-2.1.1"><span class="toc-item-num">2.1.1&nbsp;&nbsp;</span>Случайный лес</a></span></li><li><span><a href="#Логистическая-регрессия" data-toc-modified-id="Логистическая-регрессия-2.1.2"><span class="toc-item-num">2.1.2&nbsp;&nbsp;</span>Логистическая регрессия</a></span></li><li><span><a href="#CatBoost" data-toc-modified-id="CatBoost-2.1.3"><span class="toc-item-num">2.1.3&nbsp;&nbsp;</span>CatBoost</a></span></li><li><span><a href="#SGDClassifier" data-toc-modified-id="SGDClassifier-2.1.4"><span class="toc-item-num">2.1.4&nbsp;&nbsp;</span>SGDClassifier</a></span></li><li><span><a href="#Наивный-Байес" data-toc-modified-id="Наивный-Байес-2.1.5"><span class="toc-item-num">2.1.5&nbsp;&nbsp;</span>Наивный Байес</a></span></li><li><span><a href="#Вывод" data-toc-modified-id="Вывод-2.1.6"><span class="toc-item-num">2.1.6&nbsp;&nbsp;</span>Вывод</a></span></li></ul></li><li><span><a href="#TF-IDF-кодирование" data-toc-modified-id="TF-IDF-кодирование-2.2"><span class="toc-item-num">2.2&nbsp;&nbsp;</span>TF-IDF кодирование</a></span><ul class="toc-item"><li><span><a href="#Случайный-лес" data-toc-modified-id="Случайный-лес-2.2.1"><span class="toc-item-num">2.2.1&nbsp;&nbsp;</span>Случайный лес</a></span></li><li><span><a href="#Логистическая-регрессия" data-toc-modified-id="Логистическая-регрессия-2.2.2"><span class="toc-item-num">2.2.2&nbsp;&nbsp;</span>Логистическая регрессия</a></span></li><li><span><a href="#CatBoost" data-toc-modified-id="CatBoost-2.2.3"><span class="toc-item-num">2.2.3&nbsp;&nbsp;</span>CatBoost</a></span></li><li><span><a href="#SGDClassifier" data-toc-modified-id="SGDClassifier-2.2.4"><span class="toc-item-num">2.2.4&nbsp;&nbsp;</span>SGDClassifier</a></span></li><li><span><a href="#Наивный-Байес" data-toc-modified-id="Наивный-Байес-2.2.5"><span class="toc-item-num">2.2.5&nbsp;&nbsp;</span>Наивный Байес</a></span></li><li><span><a href="#Вывод" data-toc-modified-id="Вывод-2.2.6"><span class="toc-item-num">2.2.6&nbsp;&nbsp;</span>Вывод</a></span></li></ul></li><li><span><a href="#Эмбеддинги-BERT" data-toc-modified-id="Эмбеддинги-BERT-2.3"><span class="toc-item-num">2.3&nbsp;&nbsp;</span>Эмбеддинги BERT</a></span></li></ul></li><li><span><a href="#Тестирование-модели" data-toc-modified-id="Тестирование-модели-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Тестирование модели</a></span></li><li><span><a href="#Вывод" data-toc-modified-id="Вывод-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Вывод</a></span></li></ul></div>

## Подготовка и изучение данных

### Загрузка и изучение данных

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import nltk
import re
import warnings
import torch
import transformers

# для лемматизации текста
from nltk.stem import WordNetLemmatizer
# для стоп-слов
from nltk.corpus import stopwords as nltk_stopwords
# для лемматизации с POS тегом
from nltk.corpus import wordnet
# для подсчета самых частовстречающихся слов в корпусе
from nltk.probability import FreqDist
# разбитие текста на слова
from nltk import word_tokenize
# для создания "облако тегов"
from wordcloud import WordCloud
# для создания мешков слов
from sklearn.feature_extraction.text import CountVectorizer
# для использования TF-IDF
from sklearn.feature_extraction.text import TfidfVectorizer
# для разделения выборок
from sklearn.model_selection import train_test_split
# для перемешивания данных в выборке
from sklearn.utils import shuffle
# для подбора параметров GridSearchCV и кросс-валидации
from sklearn.model_selection import GridSearchCV, cross_val_score
# для создания pipeline
from sklearn.pipeline import Pipeline
# для вычисления F1-меры
from sklearn.metrics import f1_score
# для построения модели Случайный лес
from sklearn.ensemble import RandomForestClassifier
# для построения модели Логистическая регрессия
from sklearn.linear_model import LogisticRegression
# для построения модели SGD
from sklearn.linear_model import SGDClassifier
# для построения модели Наивный Байес
from sklearn.naive_bayes import ComplementNB, BernoulliNB
# для построения модели Метод опорных векторов
from sklearn.svm import SVC
# библиотека CatBoost
from catboost import CatBoostClassifier
# предобученная модель BERT и ее токенизатор
from transformers import AutoTokenizer, AutoModel

# лемматизация
nltk.download('wordnet')
# делит текст на список предложений
nltk.download('punkt')
# удаление стоп-слов
nltk.download('stopwords')
nltk.download('omw-1.4')
nltk.download('averaged_perceptron_tagger')
stopwords = set(nltk_stopwords.words('english'))
# убрать вывод уведомлений
warnings.filterwarnings('ignore')

In [None]:
data = pd.read_csv('toxic_comments.csv', index_col=0)
data.sample(10)

In [None]:
data.info()

In [None]:
data['toxic'].unique()

In [None]:
# проверим на дубликаты
data.duplicated().sum()

Датасет состоит из 159292 строк и 2 столбцов. В столбце "text" тексты на английском языке. В столбце "toxic" значения только 0 и 1. 

Данные в целевом признаке сохранены типом int64, можно заменить на int8 для уменьшения занимаемой памяти. 
Пропусков и дубликатов в данных нет.

<div class="alert alert-success">
<font size="5"><b>Комментарий ревьюера</b></font>



Успех 👍:


Хорошая попытка )




</div>


In [None]:
data['toxic'] = data['toxic'].astype('int8')

Посмотрим, каким комментариям (позитивным или негативным) соответствуют единицы и нули в столбце "toxic".

In [None]:
data.query('toxic == 1').sample(10)

In [None]:
data.query('toxic == 0').sample(10)

Единицы - это токсичные (негативные) комментарии, нули - обычные или позитивные. 

In [None]:
data['toxic'].value_counts()

In [None]:
data['toxic'].value_counts(normalize=True).plot(kind='bar');

Токсичных комментариев почти в 9 раз меньше, чем обычных. Выборка несбалансирована. Позже рассмотрим несколько способов борьбы с дисбалансом, обучим модели и сравним их качество.

<b>Вывод</b>:
- изучили данные, количество столбцов и строк
- изменили тип данных в целевом признаке
- пропусков и дубликатов нет
- выборка несбалансированная
- значение 1 в целевом признаке - это токсичный/негативный комментарий, 0 - нейтральный/позитивный
- тексты с комментариями на английском языке, в текстах много мусора (спец.символы, знаки препинания)
- можно приступать к подготовке данных к обучению

<div class="alert alert-success">
<font size="5"><b>Комментарий ревьюера</b></font>

Успех:

Данные изучены. Небольшой EDA не помешает, так как это аналитический проект. 


Плюс за

    

    
-  проверку на сбалансированность 



- промужуточный вывод в конце раздела


<div class="alert alert-warning">

Совет: 



- .sample вместо .head, ведь если данные каким то образом упорядоченны, то шансы увидеть что то разнообразное через .sample чуть выше чем через .head (или .tail)     
   



</div>




<div class="alert alert-info" style="background: #00ffff">
<b>Комментарий студента</b>
    <br>Done<br>
</div>

### Подготовка данных к обучению

Подготовим признаки и целевой признак перед обучением моделей. Напишем функции лемматизации и очистки текста (оставим только буквы латинского алфавита и пробелы). Также весь текст приведем к нижнему регистру.

Для лемматизации используем библиотеку NLTK.

In [None]:
# функция для определения части речи слова - POS tag
def get_wordnet_pos(text):
    tag = nltk.pos_tag([text])[0][1][0].upper()
    tag_dict = {"J": wordnet.ADJ,
                "N": wordnet.NOUN,
                "V": wordnet.VERB,
                "R": wordnet.ADV}
    return tag_dict.get(tag, wordnet.NOUN)

In [None]:
lemmatizer = WordNetLemmatizer()

In [None]:
# функция лемматизации
def lemmatize(text):
    text = text.lower()
    word_list = nltk.word_tokenize(text)
    lemmatized_output = ' '.join([lemmatizer.lemmatize(w, get_wordnet_pos(w)) for w in word_list])  
    return lemmatized_output

# функция очистки текста от "мусора"
def clear_text(text):
    text = re.sub(r"[^a-zA-Z']", ' ', text)
    return ' '.join(text.split()) 

<div class="alert alert-danger">
<font size="5"><b>Комментарий ревьюера</b></font>

Ошибка:

- WordNetLemmatizer  рабочий вариант, но у него есть особенности, для корректной работы ему нужно передавать не просто слово, но и POS-тег (Part of Speech, части речи). Набираемся ума-разума [тут](https://webdevblog.ru/podhody-lemmatizacii-s-primerami-v-python/) ) Обрати внимание на функцию `get_wordnet_pos`




</div>

<div class="alert alert-info" style="background: #00ffff">
<b>Комментарий студента</b>
    <br>Done!<br>Очень долго происходила лемматизация (<br>
</div>

<div class="alert alert-success">
<font size="5"><b>Комментарий ревьюераV2</b></font>



Успех 👍:



Мне тоже этот проект этим не нравится  (
    




</div>


In [None]:
%%time

data['lemma'] = data['text'].apply(lambda x: lemmatize(clear_text(x)))

In [None]:
# проверим работу функций
data.head()

<div class="alert alert-success">
<font size="5"><b>Комментарий ревьюера</b></font>

Успех:



- Плюс за использование apply, неэффективные циклы нам ни к чему.


- Да, всегда лучше проверить что получилось  в итоге, так всегда будет возможность поправить ошбку

<div class="alert alert-warning">


Совет: 



    
- после очистки и лемитизации можно провести частотный анализ текста/[облако слов](https://habr.com/ru/post/517410/) - чтобы получить общее представление о тематике и о наиболее часто встерчаемых словах Кроме того графики, рисунки делают проект визуально интересней
    
    

</div>

Мы добавили столбец "lemma", в котором лемматизировали очищенные тексты из столбца "text". Создадим облако тегов - самые популярные слова в корпусе.

In [None]:
# соединим все тексты из data['lemma'] в одну строку
text = " ".join(comment for comment in data['lemma'])

In [None]:
# разобьем текст на слова
slova = word_tokenize(text)

In [None]:
# удалим стоп-слова
slova = [word for word in slova if word not in stopwords]

In [None]:
# посчитаем кол-во каждого слова
fdist = FreqDist(slova)

In [None]:
# топ-10 популярных слов
fdist.most_common(20)

In [None]:
wordcloud = WordCloud(stopwords=stopwords, background_color="white").generate(text)

In [None]:
plt.figure(figsize=[12,8])
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis("off")
plt.show();

<div class="alert alert-success">
<font size="5"><b>Комментарий ревьюераV2</b></font>



Успех 👍:



Красивое...




<div class="alert alert-warning">


Совет 🤔:



Ниже написал схему кода для облака в форме самолетика, забавно выглядит
    
    
    
    
    !/opt/conda/bin/python -m pip install wordcloud
    from wordcloud import WordCloud


    link = 'https://img2.freepng.ru/20180614/ygs/kisspng-airplane-aircraft-silhouette-clip-art-black-aircraft-5b220f2fe445a3.954015511528958767935.jpg'
    os.system('wget %s'% link)




    stop_words = stopwords.words('english') # стоп-слова
    text_cloud = ' '.join(df['lemm_text']) # соберем весь текст

    # загружаем изображение и преобразуем в матрицу
    cake_mask=np.array(Image.open('kisspng-airplane-aircraft-silhouette-clip-art-black-aircraft-5b220f2fe445a3.954015511528958767935.jpg'))

    # сгенерируем облоко слов 
    cloud = WordCloud(stopwords=stop_words, mask=cake_mask, contour_width=10, contour_color='#2e3043', background_color='#272d3b', colormap='Set3', max_words=80).generate(text_cloud)
    plt.figure(figsize=(12,8))
    plt.imshow(cloud)
    plt.axis('off')
    plt.show()    


 Теперь можно создать переменные для признаков и целевого признака и разбить датасет на обучающую и тестовую выборки.

In [None]:
features = data['lemma']
target = data['toxic']

In [None]:
features_train, features_test, target_train, target_test = train_test_split(
    features, target, test_size=0.25, random_state=2501, stratify = target)

In [None]:
# проверим размеры выборок
for i in (features_train, features_test, target_train, target_test):
    print(i.shape)

In [None]:
target_train.value_counts(normalize=True)

In [None]:
target_test.value_counts(normalize=True)

<div class="alert alert-success">
<font size="5"><b>Комментарий ревьюера</b></font>

Успех:


- random_state на месте

    
- плюс за  проверку
    
    
- здорово что используешь stratify    




<div>



Выборки пропорционально изначальному датасету несбалансированные по классам. Попробуем обучить модели на несбалансированных данных, с параметром class_weight='balanced' и с использованием ресемплирования с уменьшением класса 0 (для "тяжеловесных"). Скорее всего на oversample датасете на валидационной выборке результат метрики F1 у моделей будет завышен, а на тестовой более низкий результат. Но проверить стоит 🙃

Чтобы уменьшить выборку с нулевыми целевыми признаками, нужно:
- разделить обучающую выборку на отрицательные и положительные объекты
- случайным образом отбросить часть из отрицательных объектов
- с учётом полученных данных создать новую обучающую выборку
- перемешать данные

<div class="alert alert-info" style="background: #00ffff">
<b>Комментарий студента</b>
    <br>Выше немного изменила обоснование использования ресемплирования датасета.<br>
</div>

<div class="alert alert-success">
<font size="5"><b>Комментарий ревьюераV2</b></font>



Успех 👍:



Да теперь звучит как: "Да, я понимаю некоторые недостатки метода.." )




</div>


In [None]:
# разделили выборки на 0 и 1
features_zeros = features_train[target_train == 0]
features_ones = features_train[target_train == 1]
target_zeros = target_train[target_train == 0]
target_ones = target_train[target_train == 1]

In [None]:
# проверим размеры выборок
for i in (features_zeros, features_ones, target_zeros, target_ones):
    print(i.shape)

In [None]:
# удалили часть отрицательных ответов
features_downsampled = pd.concat([features_zeros.sample(frac=0.11, random_state=2501)] \
                                 + [features_ones])
target_downsampled = pd.concat([target_zeros.sample(frac=0.11, random_state=2501)] + \
                               [target_ones])

In [None]:
# перемешали данные
features_downsampled, target_downsampled = shuffle(features_downsampled, target_downsampled, \
                                                   random_state=2501)

In [None]:
target_downsampled.value_counts(normalize=True)

In [None]:
target_downsampled.plot(kind ='hist', bins=3);

In [None]:
print(features_downsampled.shape)
target_downsampled.shape


<div class="alert alert-success">
<font size="5"><b>Комментарий ревьюера</b></font>

Успех:


Рассмотрены разные варианты работы  с дисбалансом. Есть и критический взгляд на [oversampling](https://habr.com/ru/post/349078/), так ли он нужен?

<div>


<div class="alert alert-warning">
<font size="5"><b>Комментарий ревьюера</b></font>

Совет:

валидационный датасет должен иметь первоначальный вид (я о пропорциях нулей и единичек), а у тебя он oversample, в итоге, на валидационном будет высокая метрика, но есть большие сомнения что на test будет хороший результат.

</div>


Теперь наши выборки сбалансированы по классам.

<b>Вывод</b>:
- лемматизировали и очистили от мусора исходный текст комментариев
- создали список самых частоупотребляемых слов и вывели "облако тегов"
- создали переменные для признака и таргета
- разделили данные на 4 выборки: 2 обучающие и 2 тестовые
- сделали дополнительную разбивку выборок с ресемплированием для борьбы с дисбалансом классов

<div class="alert alert-success">
<font size="5"><b>Комментарий ревьюера</b></font>

Успех:

Промежуточный вывод всегда в тему
    
</div>

## Обучение

Для обучения моделей нам нужно закодировать признаки - сделать из слов вектора. Будем использовать 3 способа:
- мешок слов
- TF-IDF кодирование
- создание BERT-эмбеддингов

После векторизации обучим модели и найдем метрику F1 для каждой модели, выберем наилучшую модель.

### Мешок слов

In [None]:
# преобразуем корпус текстов в мешок слов, создав счетчик
count_vect = CountVectorizer(stop_words = stopwords)



</div>

<div class="alert alert-danger">
<font size="5"><b>Комментарий ревьюера</b></font>

Ошибка:

Решила стоп-слова не убирать?!


</div>


<div class="alert alert-info" style="background: #00ffff">
<b>Комментарий студента</b>
    <br>Исправила<br>
</div>

<div class="alert alert-success">
<font size="5"><b>Комментарий ревьюераV2</b></font>



Успех 👍:



👍




</div>


#### Случайный лес

<div class="alert alert-info" style="background: #00ffff">
<b>Комментарий студента</b>
    <br>Ниже убрала обучение на ресемплированной выборке для всех моделей Случайного леса, Логистической регрессии. Оставила только на CatBoost и SGD - очень долго обучаются.<br>
</div>

<div class="alert alert-success">
<font size="5"><b>Комментарий ревьюераV2</b></font>



Успех 👍:



👍




</div>


In [None]:
# для Случайного леса
pipeline_forest = Pipeline(steps=[
    ('vectorizer', count_vect),
    ('dt_estimator', RandomForestClassifier(random_state=2501))
])

In [None]:
%%time

param_grid = {'dt_estimator__max_depth': range(1, 7),
              'dt_estimator__n_estimators': range(1, 42, 10)}

grid_search_forest_bow = GridSearchCV(pipeline_forest, param_grid, cv=3, scoring='f1', n_jobs=1)
grid_search_forest_bow.fit(features_train, target_train)
f1_forest_bow = grid_search_forest_bow.best_score_

print(f'F1 Случайного леса: {f1_forest_bow}') 
print(f'Лучшие гиперпараметры: {grid_search_forest_bow.best_params_}')

С несбалансированными выборками значение метрики F1 катастрофически низкое. Также обучение модели происходит достаточно долго (более 8 минут). Попробуем использовать агрумент class_weight='balanced'.

In [None]:
# для Случайного леса с class_weight='balanced'
pipeline_forest_cwb = Pipeline(steps=[
    ('vectorizer', count_vect),
    ('dt_estimator', RandomForestClassifier(random_state=2501, class_weight='balanced'))
])

In [None]:
%%time

param_grid = {'dt_estimator__max_depth': range(1, 7),
              'dt_estimator__n_estimators': range(1, 42, 10)}

grid_search_forest_cwb_bow = GridSearchCV(pipeline_forest_cwb, param_grid, cv=3, scoring='f1', \
                                          n_jobs=1)
grid_search_forest_cwb_bow.fit(features_train, target_train)
f1_forest_cwb_bow = grid_search_forest_cwb_bow.best_score_

print(f'F1 Случайного леса с class_weight="balanced": {f1_forest_cwb_bow}') 
print(f'Лучшие гиперпараметры: {grid_search_forest_cwb_bow.best_params_}')

С аргументом class_weight='balanced' метрика улучшилась, но тоже очень низкая. Время обучения такое же.

<div class="alert alert-success">
<font size="5"><b>Комментарий ревьюера</b></font>

Успех:


GridSearch + pipeline это уже другой уровень. Pipeline мало кто использует даже после совета, хотя он позволяет избежать утечки данных (особенно важно при использовании GridSearchCV/cross_val_score с предобработкой данных), и делает наш код лаконичней.
    
    

    
<div class="alert alert-warning">


Совет:

Можно вообще все сразу подать в pipeline

https://medium.com/@vinihcampos/predicting-blood-donations-with-supervised-learning-algorithms-298ea4045cfe
    
    
    
Но по моему не очень красиво так будет    

</div>


<div class="alert alert-info" style="background: #00ffff">
<b>Комментарий студента</b>
    <br>Прочитала статью, спасибо! На мой взгляд, это очень громоздко. Python - должен легко читаться и пониматься. Мне проще несколько раз использовать pipeline.<br>
</div>

<div class="alert alert-success">
<font size="5"><b>Комментарий ревьюераV2</b></font>



Успех 👍:



Согласен




</div>


#### Логистическая регрессия

На прошлой модели явно видно, что с несбалансированными выборками модели обучаются намного хуже и медленнее. Далее будем использовать аргумент class_weight='balanced' для несбалансированных выборок.

In [None]:
# для Логистической регрессии
pipeline_logreg = Pipeline(steps=[
    ('vectorizer', count_vect),
    ('dt_estimator', LogisticRegression(class_weight='balanced'))
])

In [None]:
%%time

param_grid = {'dt_estimator__max_iter': [1000],
             'dt_estimator__solver':['newton-cg', 'lbfgs', 'liblinear'],
             'dt_estimator__C': [0.1, 1, 10]}

grid_search_log_cwb_bow = GridSearchCV(pipeline_logreg, param_grid, cv=3, scoring='f1', n_jobs=1)
grid_search_log_cwb_bow.fit(features_train, target_train)
f1_logreg_cwb_bow = grid_search_log_cwb_bow.best_score_

print(f'F1 Логистической регрессии: {f1_logreg_cwb_bow}') 
print(f'Лучшие гиперпараметры: {grid_search_log_cwb_bow.best_params_}')

Значение F1 у Логистической регрессии на обучающей выборке чуть больше, чем надо для проекта. Скорость обучения заметно увеличилась по сравнению с обучением Случайного леса.

#### CatBoost

In [None]:
# для CatBoost
pipeline_cat = Pipeline(steps=[
    ('vectorizer', count_vect),
    ('dt_estimator', CatBoostClassifier(eval_metric = 'F1', iterations=50, verbose=0, \
                                        random_state=2501, has_time=True))
])

Модель CatBoost очень долго обучалась на несбалансированной выборке, я не смогла дождаться результата. Поэтому принято решение использовать уменьшенную сбалансированную обучающую выборку. Проверим результат.

In [None]:
%%time

param_grid = [{
    'dt_estimator__learning_rate': [0.03, 0.1],
    'dt_estimator__depth': [1, 10],
    'dt_estimator__l2_leaf_reg': [3, 5, 7, 9]
}]

grid_search_cat_down_bow = GridSearchCV(pipeline_cat, param_grid, cv=3, scoring='f1', n_jobs=1)
grid_search_cat_down_bow.fit(features_downsampled, target_downsampled)

f1_catboost_down_bow = grid_search_cat_down_bow.best_score_

print(f'F1 CatBoost: {f1_catboost_down_bow}') 
print(f'Лучшие гиперпараметры: {grid_search_cat_down_bow.best_params_}')

Значение метрики F1 хорошее, но очень большое время обучения модели по сравнению с логистической регрессией.

#### SGDClassifier

In [None]:
# для SGDClassifier
pipeline_sgd = Pipeline(steps=[
    ('vectorizer', count_vect),
    ('dt_estimator', SGDClassifier(random_state=2501, class_weight='balanced'))
])

Для модели SGD также использовали уменьшенную сбалансированную обучающую выборку, так как обучение на несбалансированной очень долгое.

In [None]:
%%time

param_grid = [{
    'dt_estimator__learning_rate': ['constant', 'optimal', 'invscaling', 'adaptive'],
    'dt_estimator__loss': ['hinge', 'log', 'modified_huber'],
    'dt_estimator__eta0': [0.01, 0.05, 0.1, 0.2, 0.3, 0.5]
}]

grid_search_sgd_down_bow = GridSearchCV(pipeline_sgd, param_grid, cv=3, scoring='f1', n_jobs=1)
grid_search_sgd_down_bow.fit(features_downsampled, target_downsampled)

f1_sgd_down_bow = grid_search_sgd_down_bow.best_score_

print(f'F1 SGD: {f1_sgd_down_bow}') 
print(f'Лучшие гиперпараметры: {grid_search_sgd_down_bow.best_params_}')

Модель SGDClassifier показала хороший результат, обучалась намного быстрее модели CatBoost.

<div class="alert alert-info" style="background: #00ffff">
<b>Комментарий студента</b>
    <br>Ниже добавила новую модель: Наивный Байес. Метод опорных векторов у меня очень долго обучался - не дождалась (
</div>

<div class="alert alert-success">
<font size="5"><b>Комментарий ревьюераV2</b></font>



Успех 👍:



👍




</div>


#### Наивный Байес

In [None]:
# Наивный Байес Complement
pipeline_nbc = Pipeline(steps=[
    ('vectorizer', count_vect),
    ('dt_estimator', ComplementNB())
])

In [None]:
%%time

param_grid = [{
    'dt_estimator__alpha': [1.0, 0.0, 0.5],
    'dt_estimator__fit_prior': [True, False]
}]

grid_search_nbc_bow = GridSearchCV(pipeline_nbc, param_grid, cv=3, scoring='f1', n_jobs=1)
grid_search_nbc_bow.fit(features_train, target_train)
f1_nbc_bow = grid_search_nbc_bow.best_score_

print(f'F1 Наивного Байеса Complement: {f1_nbc_bow}') 
print(f'Лучшие гиперпараметры: {grid_search_nbc_bow.best_params_}')

Наивный Байес Complement обучился очень быстро, но метрика F1 достаточно низкая.

In [None]:
# Наивный Байес Бернулли
pipeline_nbc_ber = Pipeline(steps=[
    ('vectorizer', count_vect),
    ('dt_estimator', BernoulliNB())
])

In [None]:
%%time

param_grid = [{
    'dt_estimator__alpha': [1.0, 0.0, 0.5],
    'dt_estimator__fit_prior': [True, False]
}]

grid_search_nbc_ber_bow = GridSearchCV(pipeline_nbc_ber, param_grid, cv=3, scoring='f1', n_jobs=1)
grid_search_nbc_ber_bow.fit(features_train, target_train)
f1_nbc_ber_bow = grid_search_nbc_ber_bow.best_score_

print(f'F1 Наивного Байеса Бернулли: {f1_nbc_ber_bow}') 
print(f'Лучшие гиперпараметры: {grid_search_nbc_ber_bow.best_params_}')

Обе модели на основе Наивного Байеса (распределение Бернулли и мультиномиальное распределение) обучились мгновенно, но качество ответов не удовлетворяет нашему условию. 

#### Вывод

In [None]:
# соберем все в одной таблице
total = pd.DataFrame(columns=['F1'],
                    index=['Случайный лес несбаланс.выборки', 
                           'Случайный лес balanced', 
                           'Логистическая регрессия balanced',
                           'CatBoost',
                           'SGDClassifier',
                          'Наивный Байес Complement',
                          'Наивный Байес Бернулли'],
                    data=[f1_forest_bow, f1_forest_cwb_bow, f1_logreg_cwb_bow,
                          f1_catboost_down_bow, f1_sgd_down_bow, f1_nbc_bow, 
                          f1_nbc_ber_bow])
total

In [None]:
total.sort_values(by='F1', ascending=False).plot.barh(y='F1', figsize=(12,5), color='green')
plt.title('Сравнение F1 моделей')
plt.xlabel('F1')
plt.ylabel('Модель')
plt.axvline(x=0.75, color='r', linestyle='--')
plt.show()

В ходе обучения моделей с помощью векторизации Мешок слов можно сделать следующие выводы:
- на несбалансированных выборках модели обучаются очень медленно и показывают очень плохие результаты F1, было принято решение для обучения некоторых моделей использовать только сбалансированные выборки
- модели Случайный лес, Наивный Байес показали F1 ниже заданного уровня
- остальные модели показали на обучающей выборке метрики F1 выше требуемого 0.75
- быстрее всех обучается модель Наивный Байес (менее 2-х минут), CatBoost обучается очень долго - более 36 минут, SGD - чуть более 5 минут
- на данном этапе проекта для проверки на тестовых данных лучшая модель Логистическая регрессия, так как она показала метрику выше 0.75, обучалась на полном датасете и ее время обучения допустимое (чуть более 20 минут).

<div class="alert alert-success">
<font size="5"><b>Комментарий ревьюераV2</b></font>



Успех 👍:



👍




</div>


### TF-IDF кодирование

Воспользуемся другим способом кодирование признаков TF-IDF: TF отвечает за количество упоминаний слова в отдельном тексте, а IDF отражает частоту его употребления во всём корпусе. Вместе они дают оценку важности слова во всем корпусе.

In [None]:
# объявляем векторизатор
count_tf_idf = TfidfVectorizer(stop_words = stopwords)

<div class="alert alert-success">
<font size="5"><b>Комментарий ревьюера</b></font>

Успех:


Не забыли о стопсловах, они ни к чему и код побежит быстрей

    
<div class="alert alert-warning">


Совет:     

Вопросик:

А стопслова важней убирать  когда мы используем TF-IDF, или когда используе обычный CountVectorizer? 



</div>


<div class="alert alert-info" style="background: #00ffff">
<b>Комментарий студента</b>
    <br>На мой взгляд, убирать стоп-слова важнее при векторизации Мешок слов, так как при этом методе не учитывается ни грамматика слова, ни части речи, ни порядок слов в предложении. Чем больше "бессмысленных" слов в тексте - тем для модели будет труднее отличить неважные признаки от важных и поэтому модель хуже обучится.<br><br>
В методе TF-IDF для каждого слова назначается его вес, а для часто встречающихся "бессмысленных" слов типа "the" применяется штраф. Поэтому этому методу проще, но лучше все же использовать стоп слова 🙃<br>
</div>

<div class="alert alert-success">
<font size="5"><b>Комментарий ревьюераV2</b></font>



Успех 👍:


Всё верно




</div>


#### Случайный лес

In [None]:
# для Случайного леса
pipeline_forest = Pipeline(steps=[
    ('vectorizer', count_tf_idf),
    ('dt_estimator', RandomForestClassifier(random_state=2501))
])

In [None]:
%%time

param_grid = {'dt_estimator__max_depth': range(1, 7),
              'dt_estimator__n_estimators': range(1, 42, 10)}

grid_search_forest_tf = GridSearchCV(pipeline_forest, param_grid, cv=3, scoring='f1', n_jobs=1)
grid_search_forest_tf.fit(features_train, target_train)
f1_forest_tf = grid_search_forest_tf.best_score_

print(f'F1 Случайного леса: {f1_forest_tf}')
print(f'Лучшие гиперпараметры: {grid_search_forest_tf.best_params_}')

Как и с мешком слов, модель Случайный лес на несбалансированной выборке совсем не справилась.

In [None]:
# для Случайного леса с class_weight='balanced'
pipeline_forest_cwb_tf = Pipeline(steps=[
    ('vectorizer', count_tf_idf),
    ('dt_estimator', RandomForestClassifier(random_state=2501, class_weight='balanced'))
])

In [None]:
%%time

grid_search_forest_cwb_tf = GridSearchCV(pipeline_forest_cwb_tf, param_grid, cv=3, scoring='f1', \
                                         n_jobs=1)
grid_search_forest_cwb_tf.fit(features_train, target_train)
f1_forest_cwb_tf = grid_search_forest_cwb_tf.best_score_

print(f'F1 Случайного леса с class_weight="balanced": {f1_forest_cwb_tf}') 
print(f'Лучшие гиперпараметры: {grid_search_forest_cwb_tf.best_params_}')

Метрика F1 немного больше при TF-IDF, чем при мешке слов. Также скорость обучения моделей чуть выше.

#### Логистическая регрессия

In [None]:
# для Логистической регрессии
pipeline_logreg_tf = Pipeline(steps=[
    ('vectorizer', count_tf_idf),
    ('dt_estimator', LogisticRegression(class_weight='balanced'))
])

In [None]:
%%time

param_grid = {'dt_estimator__max_iter': [1000],
             'dt_estimator__solver':['newton-cg', 'lbfgs', 'liblinear'],
             'dt_estimator__C': [0.1, 1, 10]
             }

grid_search_logreg_cwb_tf = GridSearchCV(pipeline_logreg_tf, param_grid, cv=3, scoring='f1', n_jobs=1)
grid_search_logreg_cwb_tf.fit(features_train, target_train)
f1_logreg_cwb_tf = grid_search_logreg_cwb_tf.best_score_

print(f'F1 Логистической регрессии: {f1_logreg_cwb_tf}') 
print(f'Лучшие гиперпараметры: {grid_search_logreg_cwb_tf.best_params_}')

Модель показала хороший результат F1 и быструю скорость обучения (на мешке слов модель обучалась более 20 минут).

#### CatBoost

In [None]:
# для CatBoost
pipeline_cat_tf = Pipeline(steps=[
    ('vectorizer', count_tf_idf),
    ('dt_estimator', CatBoostClassifier(eval_metric = 'F1', iterations=50, verbose=0, \
                                        random_state=2501, has_time=True))
])

In [None]:
%%time

param_grid = [{
    'dt_estimator__learning_rate': [0.03, 0.1],
    'dt_estimator__depth': [1, 10],
    'dt_estimator__l2_leaf_reg': [3, 5, 7, 9]
}]

grid_search_cat_down_tf = GridSearchCV(pipeline_cat_tf, param_grid, cv=3, scoring='f1', n_jobs=1)
grid_search_cat_down_tf.fit(features_downsampled, target_downsampled)

f1_catboost_down_tf = grid_search_cat_down_tf.best_score_

print(f'F1 CatBoost: {f1_catboost_down_tf}') 
print(f'Лучшие гиперпараметры: {grid_search_cat_down_tf.best_params_}')

Метрика F1 хорошая, лучше, чем у CatBoost на мешке слов. Также обучение модели длилось очень долго - почти 2 часа.

#### SGDClassifier

In [None]:
# для SGDClassifier
pipeline_sgd_tf = Pipeline(steps=[
    ('vectorizer', count_tf_idf),
    ('dt_estimator', SGDClassifier(random_state=2501, class_weight='balanced'))
])

In [None]:
%%time

param_grid = [{
    'dt_estimator__learning_rate': ['constant', 'optimal', 'invscaling', 'adaptive'],
    'dt_estimator__loss': ['hinge', 'log', 'modified_huber'],
    'dt_estimator__eta0': [0.01, 0.05, 0.1, 0.2, 0.3, 0.5]
}]

grid_search_sgd_down_tf = GridSearchCV(pipeline_sgd_tf, param_grid, cv=3, scoring='f1', n_jobs=1)
grid_search_sgd_down_tf.fit(features_downsampled, target_downsampled)

f1_sgd_down_tf = grid_search_sgd_down_tf.best_score_

print(f'F1 SGD: {f1_sgd_down_tf}') 
print(f'Лучшие гиперпараметры: {grid_search_sgd_down_tf.best_params_}')

Метрика F1 чуть выше, чем при мешке слов, время на обучение затрачено такое же.

#### Наивный Байес

In [None]:
# Наивный Байес Complement
pipeline_nbc_tf = Pipeline(steps=[
    ('vectorizer', count_tf_idf),
    ('dt_estimator', ComplementNB())
])

In [None]:
%%time

param_grid = [{
    'dt_estimator__alpha': [1.0, 0.0, 0.5],
    'dt_estimator__fit_prior': [True, False]
}]

grid_search_nbc_tf = GridSearchCV(pipeline_nbc_tf, param_grid, cv=3, scoring='f1', n_jobs=1)
grid_search_nbc_tf.fit(features_train, target_train)
f1_nbc_tf = grid_search_nbc_tf.best_score_

print(f'F1 Наивного Байеса Complement: {f1_nbc_tf}') 
print(f'Лучшие гиперпараметры: {grid_search_nbc_tf.best_params_}')

In [None]:
# Наивный Байес Бернулли
pipeline_nbc_ber_tf = Pipeline(steps=[
    ('vectorizer', count_tf_idf),
    ('dt_estimator', BernoulliNB())
])

In [None]:
%%time

param_grid = [{
    'dt_estimator__alpha': [1.0, 0.0, 0.5],
    'dt_estimator__fit_prior': [True, False]
}]

grid_search_nbc_ber_tf = GridSearchCV(pipeline_nbc_ber_tf, param_grid, cv=3, scoring='f1', n_jobs=1)
grid_search_nbc_ber_tf.fit(features_train, target_train)
f1_nbc_ber_tf = grid_search_nbc_ber_tf.best_score_

print(f'F1 Наивного Байеса Бернулли: {f1_nbc_ber_tf}') 
print(f'Лучшие гиперпараметры: {grid_search_nbc_ber_tf.best_params_}')

Как и с мешком слов, Наивный Байес с TF-IDF не справился с заданным порогом метрики F1. Но скорость его обучения впечатляет.

#### Вывод

In [None]:
# соберем все в одной таблице
total_tf = pd.DataFrame(columns=['F1'],
                    index=['Случайный лес несбаланс.выборки', 
                           'Случайный лес balanced', 
                           'Логистическая регрессия balanced',
                           'CatBoost',
                           'SGDClassifier',
                          'Наивный Байес Complement',
                          'Наивный Байес Бернулли'],
                    data=[f1_forest_tf, f1_forest_cwb_tf, f1_logreg_cwb_tf,
                          f1_catboost_down_tf, f1_sgd_down_tf, f1_nbc_tf, 
                          f1_nbc_ber_tf])
total_tf

In [None]:
total_tf.sort_values(by='F1', ascending=False).plot.barh(y='F1', figsize=(12,5), color='green')
plt.title('Сравнение F1 моделей')
plt.xlabel('F1')
plt.ylabel('Модель')
plt.axvline(x=0.75, color='r', linestyle='--')
plt.show()

При использовании векторизации TF-IDF метрики F1 получились чуть лучше, также в некоторых моделях уменьшилось время обучения модели. Лучшую метрику показала модель SGD, но она обучалась на сбалансированной уменьшенной выборке. Для проверки на тестовых данных нам нужна полный датасет. Поэтому лучшая и единственная в данном случае модель - Логистическая регрессия с параметром сбалансированности классов.

### Эмбеддинги BERT

Попробуем преобразовать текст с помощью эмбеддингов модели BERT и посмотрим на результат.

In [None]:
# загрузим предобученный англоязычный токенизатор
tokenizer = AutoTokenizer.from_pretrained("distilbert-base-uncased")

In [None]:
# предобученная модель - на этой ячейке все умирает. Пробовала еще загружать так: 
# model_bert = AutoModel.from_pretrained("distilbert-base-uncased")
model_bert = AutoModelForMaskedLM.from_pretrained("distilbert-base-uncased")

In [None]:
# токенизируем все комментарии
tokenized = data['text'].progress_apply(lambda x: tokenizer.encode(x, add_special_tokens=True))

## Тестирование модели

В результате обучения с помощью векторизации Мешка слов и TF-IDF кодирования лучшими моделями оказались Логистическая регрессия. F1 метрика с TF-IDF чуть выше, также скорость обучения в 5 раз быстрее (22 минуты против 4). Будем проверять на тестовой выборке именно Логистическую регрессию с TF-IDF.

In [None]:
print(f'F1 логистической регрессии с мешком слов: {f1_logreg_cwb_bow}')
print(f'F1 логистической регрессии с TF-IDF: {f1_logreg_cwb_tf}')

<div class="alert alert-danger">
<font size="5"><b>Комментарий ревьюера</b></font>

Ошибка:



Наталья о работе с датасетами:    

1. На train мы обучаем
2. По валидации смотрим на результаты обучения (следим чтобы не было переобучения и/или делаем подбор гиперпараметров).  И выбираем лучшую модель.  Валидационную можно создать самим, но лучше использовать GridSearch где кроссвалидация осуществляется автоматически (GridSearchCV хранит оценку по валидации в best_score_). 
3. Тестовая (out-of_sample) у нас для финальной проверки, когда определена лучшая модель с конкретными гиперпараметрами. Это делается для того, чтобы мы даже незначительным образом не "подгонялись" под тестовую выборку. Ведь на train модели обучаются, по валидиации подгоняются гиперпараметры. Эти данные модели "знают". А test (out-of-sample) это уже моделирование прогноза на реальных данных и ситуации когда у нас есть уже лучшая модель (в рельности у нас же не может быть несоклько прогнозов, что то в любом случаи надо выбирать). Вот поэтому такая двухуровневая проверка на подгонку. Кроме того использование мноих моделей с разными гиперпараметрами это тоже подгонка, поэтому выбирая одну и тестируя только ее, мы тем самым боремся с подгонкой через использование многих-многих моделей, когда результат хорош не потому что мы данные почистили хорошо, моделировали правильно итд итп, а потому что из многих моделей хоть какая то случайно "сыграет". 
    
А как сделал ты может сложиться впечатление что мы на тестовой по прежнему что то выбираем, но выбор уже сделан на валидации, и если лучшая модель выбранная на валидационной покажет на test результат хуже требуемого, мы начнем процесс моделирования сначала (а не будем такие - "а давай попробуем на тесте модель которая на валидации не была лучшей, может она нам на test даст нужное качество").       



    
    

</div>

<div class="alert alert-info" style="background: #00ffff">
<b>Комментарий студента</b>
    <br>Поняла, спасибо. Просто в одном из прошлых проектов нужно было как раз выбрать лучшую модель после теста, поэтому в голове отложилось, что так можно. Исправляюсь.<br>
</div>

<div class="alert alert-success">
<font size="5"><b>Комментарий ревьюераV2</b></font>



Успех 👍:



👍



 [Вот](https://towardsdatascience.com/why-do-we-need-a-validation-set-in-addition-to-training-and-test-sets-5cf4a65550e0   ) тут можно дополнительно почитать.

</div>



<div class="alert alert-warning">
<font size="5"><b>Комментарий ревьюера</b></font>
    
    
Совет:


Только не надо воспринимать  GS как способ получить .best_params_, чтобы подставить их в модель и обучить на них. GS это сделал уже и модельку положил тут: .best_estimator_
    
Ты везде использовала одно и тоже название grid_search, а могла давать разные названия (например grid_search_sgd_downsampled), и тогда опять обучать модель на найденных лучших гиперпараметры уже не нужно было достаточно было    grid_search_sgd_downsampled.best_estimator_.predict(features_test)
    
    

<div class="alert alert-info" style="background: #00ffff">
<b>Комментарий студента</b>
    <br>Done<br>
    Везде использовала разные названия + best_estimator_
</div>

<div class="alert alert-success">
<font size="5"><b>Комментарий ревьюераV2</b></font>



Успех 👍:



Принято




</div>


In [None]:
predicted_valid = grid_search_logreg_cwb_tf.best_estimator_.predict(features_test)
f1_test = f1_score(target_test, predicted_valid)

print(f'F1 Логистической регрессии на несбалансированных выборках: {f1_test}')

Модель справилась на тестовой выборке, метрика F1 = 0.7528256650302546. 



<div class="alert alert-success">
<font size="5"><b>Комментарий ревьюераV2</b></font>

Успех:

Если студент получил на тесте accuraсy  выше 0,75, это считается приемлемым результатом. Тобой подбиралась лучшая комбинация не по одному гиперпараметру и вот он результат!






</div>



<div class="alert alert-warning">
<font size="5"><b>Комментарий ревьюера</b></font>

Совет: 

Что может помочь добиться лучшего результата (от простого)? 

- использовать stratify. Done!
    



- учесть дисбаланс класов в таргете. (но не oversampling, это скользкая дорожка, через class_weight) Done!


    

- полезно настраивать векторайзеры (тут пригодится pipeline) Done!


  
    
- подобрать лучшие гиперпараметры с использованием кроссвалидации (тут пригодится GridSearchCV) Done!
    
    
    

- сгенерировать новые фичи, например  например посчитать число слов в тексте, длину слов итп итд. Или с помощью [тематического моделирования](https://pythobyte.com/python-for-nlp-topic-modeling-8fb3d689/) / использовать ембединги слов, учитывающие семантику, например [word2vec](https://radimrehurek.com/gensim/models/word2vec.html)) 
    
    
    

- попробовать другие модели. проект своеобразный выбор между вычислительными ограничениями (много примеров, расчеты могут затянуться) и задачей получить хорошую метрику (как это и бывает на практике), поэтому советовать "тяжелые", но мощные модели, чтобы у тебя все окончательно не повисло не буду (хотя есть вариант попробовать сделать на GPU).  А вот попробовать простые модели: SVC, NBC, логистическая регрессия, которые хорошо отработают с разряженными матрицами, могу. Простые модели - зато используем весь датасет. 



</div>


<div class="alert alert-info" style="background: #00ffff">
<b>Комментарий студента</b>
    <br>Тематическое моделирование почитала, но не поняла, как его применить. Например, я добавляю новые столбцы с фичами (тематика и пр.), как потом этот столбец использовать для обучения? Мы же модели подаем только лемматизированный очищенный текст - один столбец. Или я что-то упустила?🙈 Или это нужно запускать параллельно при векторизации в pipeline и там само все сделается?<br><br>
    Добавила модель Наивного Байеса. Пыталась еще метод опорных векторов, но у меня все зависло и я так и не дождалась результата даже на уменьшенных выборках.
</div>

<div class="alert alert-success">
<font size="5"><b>Комментарий ревьюераV2</b></font>



Успех 👍:



Хороший вопрос. Это называется насоветоваk студенту )  Я бы начал [с](https://scikit-learn.org/stable/modules/generated/sklearn.pipeline.FeatureUnion.html#sklearn.pipeline.FeatureUnion)  [или](https://scikit-learn.org/stable/modules/generated/sklearn.compose.ColumnTransformer.html#sklearn.compose.ColumnTransformer), [тут](https://towardsdatascience.com/pipeline-columntransformer-and-featureunion-explained-f5491f815f) расписано. Готовых примеров реализации в коде для тематического моделирования я не нашёл. Пока только так )



</div>


## Вывод

В ходе данного проекта было сделано:
- первичная предобработка данных для дальнейшего обучения моделей
- лемматизация и очистка текстов от "мусора"
- создано "облако тегов" самых часто используемых слов
- сделаны векторизации корпуса двумя способами: Мешок слов (BOW) и TF-IDF-кодирование
- обучены пять моделей на сбалансированных и несбалансированных выборках
- подобраны лучшие гиперпараметры с помощью кросс-валидации
- выбрали лучшую модель по F1 и скорости обучения: Логистическая регрессия с TF-IDF-кодированием, обученная на несбалансированных выборках с аргументом class_weight='balanced'
- лучшая модель проверена на тестовой выборке 
- F1 лучшей модели на тестовой выборке: 0.7528256650302546



<div class="alert alert-success">
<font size="5"><b>Комментарий ревьюера</b></font>

Успех:


Наталья, здорово что в конце расписаны все этапы работы. Это важно потому что когда проект захочет посмотреть будущий работодатель (или начальник), у него может не быть времени на подробный разбор кода. Вероятнее всего он бегло просмотрит код, а из общего вывода захочет получить представление о всей работе.




<div class="alert alert-info">
<font size="5"><b>Комментарий ревьюера</b></font>



Наталья, у тебя старательно выполненная работа, все четко, осмысленно. Некоторые пункты выполнены в большем чем требуется обьеме (pipeline, поработала с дисбалансом). Отличные графики и таблички. Выводы присутствуют, они четкие и подробные. Нет проблем с комментированием кода,




Я оставил небольшие советы и вопросики (если есть время и желание можешь воспользоваться/ответить).
    



Обязательное к исправлению:





- WordNetLemmatizer используем с POS - тег 





- стопслова не убраны, а это важно, так как они не несут смысловую нагрузку и могут подпортить наши результаты 



- на test датасете тестируем только лучшую модель (нарушена логика использования датасетов при моделировании)




    
Жду исправлений, для принятия проекта. Если какие то вопросы, то сразу спрашивай ) 


</div>


<div class="alert alert-info" style="background: #00ffff">
<b>Комментарий студента</b>
    <br>Спасибо еще раз за все советы и рекоммендации.<br><br>
    Если эта часть проекта готова, не принимай ее пока, пожалуйста! Я попробую еще BERT поковырять - есть несколько дней до дедлайна 🤗
</div>

<div class="alert alert-info">
<font size="5"><b>Комментарий ревьюераV2</b></font>

Спасибо за работу!   Красное исправлено, многие желтые советы использованы, на  вопросы есть ответы  (это все было по желанию), значит стремишься развиваться, а желание и интерес это главное.  

Понял, посылаю на 3 ) Ты очень щепетильно подходишь (в хорошем смысле этого слова): выбираешь, пробуешь разные варианты - задатки самого настоящего датасаентиста )




</div>
