# Определяем, соответствует ли пост правилам модерации

В этом воркшопе мы с вами попробуем построить систему, которая будет выявлять посты, не соответствующие определённым правилам модерации сайта. В частности, на Пикабу существует правило, запрещающее публикацию постов, предполагающих какие-либо денежные отношения или просто рекламирующих какие-то товары и услуги. Другими словами, запрещена публикация разного рода спама, объявлений, предложений/просьб работы и попрошайничества.

В качестве датасета мы будем использовать данные некоторых текстовых постов, опубликованных на Пикабу за последнее время. Каждый пост состоит из заголовка и текста самого поста. Если пост был удалён модератором как нарушающий вышеописанные правила, в датасете имеется соответствующая пометка.

На примере этой задачи мы научимся работать с Keras Functional API и Tensorboard.

In [1]:
import pandas as pd
import tensorflow as tf
import numpy as np

np.random.seed(17)
tf.random.set_seed(17)

In [2]:
# загрузим датасет
# здесь он упакован в бинарный файл посредством pickle

df = pd.read_pickle('df_pikabu_spam_posts.pd')

In [3]:
df.head

<bound method NDFrame.head of                                                title  \
0          [треб, помощник, работ, оффлайн, удаленк]   
1      [хоч, прода, аккаунт, pornhubpremium, реальн]   
2                             [нужн, помощ, кумерта]   
3                 [щенок, хаск, ищет, хозяин, платн]   
4                            [песик, пройд, опросик]   
...                                              ...   
11961                                [нич, жизн, уч]   
11962                               [девушк, работа]   
11963                                  [эт, неудобн]   
11964                           [репетиторск, истор]   
11965                             [лет, скетм, джон]   

                                                    text  bad  
0      [знает, процесс, регистрац, профсоюз, https, а...    1  
1      [появ, больш, количеств, аккаунт, сайт, реальн...    1  
2      [здравств, декабр, дедушк, упа, сво, квартир, ...    1  
3                     [мам, пап, хаск, по

Датасет уже предподготовлен: все тексты в нём разбиты на слова, самые малозначимые слова выкинуты, а окончания остальных слов откинуты для унификации. Заголовок и текст поста представлены в виде списков таких слов. В столбце `bad` отмечено, является ли пост несоответствующим правилам модерации.

В начале в датасете идут "плохие" посты, поэтому имеет смысл перемешать датасет перед началом работы.

In [4]:
# перемешаем датасет

df = df.sample(frac=1)

Посмотрим на распределение классов в датасете:

In [5]:
df['bad'].mean()

0.23579201934703747

Для решения этой задачи имеет смысл попробовать анализировать отдельно заголовок и отдельно текст поста. Т.е. наша нейросеть будет иметь 2 входа. 

Данные пока представим простым образом: при помощи OHE закодируем самые популярные слова, встречающиеся в датасете. К таким данным с OHE далее будет легко подключить обычный Dense-слой.

Давайте для начала посмотрим, сколько разных слов у нас имеется во всём датасете.

In [6]:
# посчитаем количество уникальных слов, создав множество

words_set = set()

for row in df.itertuples():
    for word in row.title:
        words_set.add(word)
    for word in row.text:
        words_set.add(word)

print(f"Всего слов: {len(words_set)}")

Всего слов: 59073


Нет смысла создавать во входном слое 59к нейронов под каждое слово, т.к. многие слова используются крайне редко. Давайте посчитаем количество использований каждого слоя, отсортируем слова по этому ключу и посмотрим на наиболее и наименее популярные слова.

In [7]:
# используем словарь для хранения кол-ва вхождений каждого слова
words_counter = {w: 0 for w in words_set}

for row in df.itertuples():
    for word in row.title:
        words_counter[word] += 1
    for word in row.text:
        words_counter[word] += 1

# преобразуем словарь в список и отсортируем его
words_list = list(words_counter.items())
words_list.sort(key=(lambda x: x[1]), reverse=True)

In [8]:
# наиболее популярные слова

words_list[:10]

[('эт', 11379),
 ('котор', 6957),
 ('сво', 4743),
 ('год', 4251),
 ('так', 4122),
 ('сам', 3757),
 ('одн', 3251),
 ('работ', 3207),
 ('очен', 3167),
 ('прост', 3116)]

In [9]:
# наименее популярные слова

words_list[-10:]

[('вкуснот', 1),
 ('жертвоприношен', 1),
 ('процесса', 1),
 ('проглядел', 1),
 ('филатов', 1),
 ('осрам', 1),
 ('swc', 1),
 ('паспортм', 1),
 ('толок', 1),
 ('росм', 1)]

In [10]:
# оптимально было бы использовать около 5к слов

words_list[4990:5000]

[('комфорт', 27),
 ('нпф', 27),
 ('повлия', 27),
 ('составлен', 27),
 ('безработн', 27),
 ('трещин', 27),
 ('поржа', 27),
 ('волг', 27),
 ('пос', 27),
 ('мартин', 27)]

In [11]:
# для сравнения

words_counter['работ'], words_counter['деньг'], words_counter['прош']

(3207, 1330, 599)

In [12]:
# оставим только 5к слов
words_list = words_list[:5000]

# кол-во вхождений нам уже не нужно
words_list = [k[0] for k in words_list]

# для быстрого создания OHE полезно будет заранее пронумеровать каждое слово
# чтобы не ждать выполнения операции получения позиции в списке
words_ohe_positions = {words_list[i]: i for i in range(len(words_list))}

Вообще есть специальные инструменты для автоматического создания OHE (например, в sklearn), но полезно будет хотя бы раз произвести эту операцию "руками". Каждый текст закодируем списком из 5000 элементов. Если определённое слово отсутствует в списке, на его месте будет стоять 0. Если присутствует - 1. Более того, полезно будет знать, сколько раз каждое слово встречается в тексте, поэтому, если слово встречается несколько раз, будем не просто ставить 1, а увеличивать счётчик.

In [13]:
# списки под заголовки и тексты, которые тоже будут закодированы списками
titles = []
texts = []

# перебираем все строки
for row in df.itertuples():
    # сначала создаём шаблок с одними нулями
    title_ohe = [0] * len(words_list)
    for word in row.title:
        try:
            # если слово из заголовка присутствует в нашем словаре, увеличиваем счётчик на соответствующем месте
            title_ohe[words_ohe_positions[word]] += 1
        except:
            # если слово отсутствует, словарь выкинет исключение - в таком случае просто продолжаем цикл
            continue
    # делаем то же самое и для текста поста
    text_ohe = [0] * len(words_list)
    for word in row.text:
        try:
            text_ohe[words_ohe_positions[word]] += 1
        except:
            continue
    # добавляем получившуюся кодировку в списки заголовков и текстов
    titles.append(title_ohe)
    texts.append(text_ohe)

# для работы с Keras информацию лучше держать в Numpy
titles = np.array(titles)
texts = np.array(texts)

In [14]:
# проверим, правильно ли получилось

titles.shape, texts.shape

((7443, 5000), (7443, 5000))

In [15]:
# ответы тоже перегоним в Numpy

y = np.array(df['bad'])

Осталось уже традиционно разделить наши данные на трейн, валидацию и тест:

In [16]:
# чтобы не заниматься копипастом 3 раза, сделаем функцию,
# которая разделяет массив в нужной пропорции
def train_val_test_split(x, val_frac=0.15, test_frac=0.15):
    x_train = x[:round((1 - val_frac - test_frac) * len(x))]
    x_val = x[round((1 - val_frac - test_frac) * len(x)):round((1 - test_frac) * len(x))]
    x_test = x[round((1 - test_frac) * len(x)):]
    return x_train, x_val, x_test


titles_train, titles_val, titles_test = train_val_test_split(titles)
texts_train, texts_val, texts_test = train_val_test_split(texts)
y_train, y_val, y_test = train_val_test_split(y)

Данные подготовлены, пришло время заняться подготовкой модели.

Т.к. у нас предполагается 2 отдельных входа под заголовок и текст, нам уже не подойдёт последовательная архитектура. Посредством Functional API сделаем 2 входа в нейросети и привяжем к ним Dense-слои. Затем всё это дело объединим, а на выходе сделаем слой с 1 нейроном и сигмоидальной функцией активации (т.к. у нас задача бинарной классификации). Не забываем между делом вставлять после слоёв батчнормы - хуже не будет.

In [17]:
# строим модель

# сначала 2 входа под заголовок и текст
title_input = tf.keras.layers.Input(shape=(len(titles[0], )))
text_input = tf.keras.layers.Input(shape=(len(texts[0], )))

# к каждому входу привязываем Dense-слой
title_dense_1 = tf.keras.layers.Dense(1000, activation='relu')(title_input)
text_dense_1 = tf.keras.layers.Dense(1000, activation='relu')(text_input)

# к ним привязываем батчнормы
title_bn_1 = tf.keras.layers.BatchNormalization()(title_dense_1)
text_bn_1 = tf.keras.layers.BatchNormalization()(text_dense_1)

# потом ещё Dense
title_dense_2 = tf.keras.layers.Dense(100, activation='relu')(title_bn_1)
text_dense_2 = tf.keras.layers.Dense(100, activation='relu')(text_bn_1)

# и ещё батчнормы
title_bn_2 = tf.keras.layers.BatchNormalization()(title_dense_2)
text_bn_2 = tf.keras.layers.BatchNormalization()(text_dense_2)

# склеиваем 2 слоя в один большой при помощи слоя Concatenate
concat = tf.keras.layers.Concatenate()([title_bn_2, text_bn_2])

# после этого докинем ещё пару слоёв с батчнормами
main_dense_1 = tf.keras.layers.Dense(200, activation='relu')(concat)
main_bn_1 = tf.keras.layers.BatchNormalization()(main_dense_1)
main_dense_2 = tf.keras.layers.Dense(100, activation='relu')(main_bn_1)
main_bn_2 = tf.keras.layers.BatchNormalization()(main_dense_2)

# выодной слой под задачу бинарной классификации
output = tf.keras.layers.Dense(1, activation='sigmoid')(main_bn_2)

# теперь необходимо создать модель, указав в аргументах входные и выходные слои
# все остальные слои подтянутся автоматически, т.к. они уже связаны в единый граф
model = tf.keras.Model(inputs=[title_input, text_input], outputs=output)

In [18]:
# посмотрим, что получилось

model.summary()

Model: "model"
__________________________________________________________________________________________________
Layer (type)                    Output Shape         Param #     Connected to                     
input_1 (InputLayer)            [(None, 5000)]       0                                            
__________________________________________________________________________________________________
input_2 (InputLayer)            [(None, 5000)]       0                                            
__________________________________________________________________________________________________
dense (Dense)                   (None, 1000)         5001000     input_1[0][0]                    
__________________________________________________________________________________________________
dense_1 (Dense)                 (None, 1000)         5001000     input_2[0][0]                    
______________________________________________________________________________________________

Осталось скомпилировать модель. Т.к. у нас задача бинарной классификации, в качестве функции потерь используем Binary Crossentropy. 

В качестве базовой метрики можно было бы использовать accuracy, но она не очень хороша на нашем несбалансированном датасете: даже модель, всегда дающая отрицательный ответ, будет давать accuracy ~76%. Поэтому добавим в наш список метрик ещё Precision и Recall, чтобы следить, обнаруживает ли вообще наша модель нужные посты и с каким качеством обнаруживает. В качестве базовой метрики, за которой будет удобно следить, лучше использовать F1-метрику, которую мы напишем сами. Также можно добавить ROC-AUC.

In [19]:
accuracy = tf.keras.metrics.binary_accuracy
precision = tf.keras.metrics.Precision()
recall = tf.keras.metrics.Recall()
auc = tf.keras.metrics.AUC()

def f1_metrics(y_true, y_pred):
    prec = precision(y_true, y_pred)
    rec = recall(y_true, y_pred)
    return 2 * ((prec * rec) / (prec + rec + 1e-7))

model.compile(optimizer=tf.keras.optimizers.Adam(),
              loss=tf.keras.losses.binary_crossentropy,
              metrics=[accuracy,
                       precision,
                       recall,
                       f1_metrics,
                       auc])

Чтобы использовать Tensorboard для нашей нейросети, достаточно всего лишь добавить соответствующий коллбэк в наш цикл обучения. Но перед этим и сам TB надо запустить, указав папку, где будут храниться логи обучения.

In [20]:
# создадим папку под логи

import os

os.mkdir('logs')

In [21]:
# создадим коллбэк
# данные для разных моделей будем складывать в разные подпапки, чтоб не потерять

tb_callback = tf.keras.callbacks.TensorBoard(log_dir='logs/first', 
                                             histogram_freq=1) # данный параметр нужен, чтобы мониторить гистограммы весов

Tensorboard лучше запустим из терминала командой `tensorboard --logdir logs`, т.к. он запускается в виде демона и может блокировать выполнение следующих ячеек в Юпитере.

После этого осталось запустить наш процесс обучения.

In [22]:
# сохранять историю уже нет смысла - всё будет в Tensorboard
model.fit([titles_train, texts_train], y_train,  # данные на вход указываем в списке в нужном порядке
          validation_data=([titles_val, texts_val], y_val),
          batch_size=256,
          epochs=10,
          callbacks=[tb_callback])

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


<tensorflow.python.keras.callbacks.History at 0x18c348da550>

Наша нейросеть переобучается практически сразу, что не удивительно. Она просто научилась идентифицировать каждый конкретный пост по входящим словам. 

Но сейчас мы хотя бы можем изучить, что происходит в Tensorboard по адресу `http://localhost:6006/`

После этого давайте попробуем добавить в модель L2-регуляризацию. Мы не знаем, какое значение регуляризации может быть оптимально, но давайте хотя бы пока попробуем перебрать несколько значений, одинаковых для каждого слоя.

In [23]:
# напишем функцию для построения нашей модели с регуляризацией

def create_reg_model(l2):
    title_input = tf.keras.layers.Input(shape=(len(titles[0], )))
    text_input = tf.keras.layers.Input(shape=(len(texts[0], )))

    title_dense_1 = tf.keras.layers.Dense(1000, activation='relu',
                                          kernel_regularizer=tf.keras.regularizers.l2(l2))(title_input)
    text_dense_1 = tf.keras.layers.Dense(1000, activation='relu',
                                         kernel_regularizer=tf.keras.regularizers.l2(l2))(text_input)

    title_bn_1 = tf.keras.layers.BatchNormalization()(title_dense_1)
    text_bn_1 = tf.keras.layers.BatchNormalization()(text_dense_1)

    title_dense_2 = tf.keras.layers.Dense(100, activation='relu',
                                          kernel_regularizer=tf.keras.regularizers.l2(l2))(title_bn_1)
    text_dense_2 = tf.keras.layers.Dense(100, activation='relu',
                                         kernel_regularizer=tf.keras.regularizers.l2(l2))(text_bn_1)

    title_bn_2 = tf.keras.layers.BatchNormalization()(title_dense_2)
    text_bn_2 = tf.keras.layers.BatchNormalization()(text_dense_2)

    concat = tf.keras.layers.Concatenate()([title_bn_2, text_bn_2])

    main_dense_1 = tf.keras.layers.Dense(200, activation='relu',
                                         kernel_regularizer=tf.keras.regularizers.l2(l2))(concat)
    main_bn_1 = tf.keras.layers.BatchNormalization()(main_dense_1)
    main_dense_2 = tf.keras.layers.Dense(100, activation='relu',
                                         kernel_regularizer=tf.keras.regularizers.l2(l2))(main_bn_1)
    main_bn_2 = tf.keras.layers.BatchNormalization()(main_dense_2)

    output = tf.keras.layers.Dense(1, activation='sigmoid',
                                   kernel_regularizer=tf.keras.regularizers.l2(l2))(main_bn_2)

    model = tf.keras.Model(inputs=[title_input, text_input], outputs=output)

    return model

# определим шаги перебора значений l2-регуляризации
l2_steps = [1e-4, 1e-5, 1e-6, 1e-7, 1e-8]

# для каждого шага обучим свою модель
for l2 in l2_steps:
    model = create_reg_model(l2)

    model.compile(optimizer=tf.keras.optimizers.Adam(),
                  loss=tf.keras.losses.binary_crossentropy,
                  metrics=[accuracy,
                           precision,
                           recall,
                           f1_metrics,
                           auc])

    # логи для Tensorboard будем сохранять в отдельные подпапки с соответствующим названием
    tb_callback = tf.keras.callbacks.TensorBoard(log_dir='logs/reg_l2_'+str(l2), histogram_freq=1)

    model.fit([titles_train, texts_train], y_train,
              validation_data=([titles_val, texts_val], y_val),
              batch_size=256,
              epochs=50,
              callbacks=[tb_callback])

Epoch 1/50
Epoch 2/50
Epoch 3/50
Epoch 4/50
Epoch 5/50
Epoch 6/50
Epoch 7/50
Epoch 8/50
Epoch 9/50
Epoch 10/50
Epoch 11/50
Epoch 12/50
Epoch 13/50
Epoch 14/50
Epoch 15/50
Epoch 16/50
Epoch 17/50
Epoch 18/50
Epoch 19/50
Epoch 20/50
Epoch 21/50
Epoch 22/50
Epoch 23/50
Epoch 24/50
Epoch 25/50


Epoch 26/50
Epoch 27/50
Epoch 28/50
Epoch 29/50
Epoch 30/50
Epoch 31/50
Epoch 32/50
Epoch 33/50
Epoch 34/50
Epoch 35/50
Epoch 36/50
Epoch 37/50
Epoch 38/50
Epoch 39/50
Epoch 40/50
Epoch 41/50
Epoch 42/50
Epoch 43/50
Epoch 44/50
Epoch 45/50
Epoch 46/50
Epoch 47/50
Epoch 48/50
Epoch 49/50
Epoch 50/50
Epoch 1/50


Epoch 2/50
Epoch 3/50
Epoch 4/50
Epoch 5/50
Epoch 6/50
Epoch 7/50
Epoch 8/50
Epoch 9/50
Epoch 10/50
Epoch 11/50
Epoch 12/50
Epoch 13/50
Epoch 14/50
Epoch 15/50
Epoch 16/50
Epoch 17/50
Epoch 18/50
Epoch 19/50
Epoch 20/50
Epoch 21/50
Epoch 22/50
Epoch 23/50
Epoch 24/50
Epoch 25/50
Epoch 26/50


Epoch 27/50
Epoch 28/50
Epoch 29/50
Epoch 30/50
Epoch 31/50
Epoch 32/50
Epoch 33/50
Epoch 34/50
Epoch 35/50
Epoch 36/50
Epoch 37/50
Epoch 38/50
Epoch 39/50
Epoch 40/50
Epoch 41/50
Epoch 42/50
Epoch 43/50
Epoch 44/50
Epoch 45/50
Epoch 46/50
Epoch 47/50
Epoch 48/50
Epoch 49/50
Epoch 50/50
Epoch 1/50


Epoch 2/50
Epoch 3/50
Epoch 4/50
Epoch 5/50
Epoch 6/50
Epoch 7/50
Epoch 8/50
Epoch 9/50
Epoch 10/50
Epoch 11/50
Epoch 12/50
Epoch 13/50
Epoch 14/50
Epoch 15/50
Epoch 16/50
Epoch 17/50
Epoch 18/50
Epoch 19/50
Epoch 20/50
Epoch 21/50
Epoch 22/50
Epoch 23/50
Epoch 24/50
Epoch 25/50
Epoch 26/50
Epoch 27/50


Epoch 28/50
Epoch 29/50
Epoch 30/50
Epoch 31/50
Epoch 32/50
Epoch 33/50
Epoch 34/50
Epoch 35/50
Epoch 36/50
Epoch 37/50
Epoch 38/50
Epoch 39/50
Epoch 40/50
Epoch 41/50
Epoch 42/50
Epoch 43/50
Epoch 44/50
Epoch 45/50
Epoch 46/50
Epoch 47/50
Epoch 48/50
Epoch 49/50
Epoch 50/50
Epoch 1/50
Epoch 2/50


Epoch 3/50
Epoch 4/50
Epoch 5/50
Epoch 6/50
Epoch 7/50
Epoch 8/50
Epoch 9/50
Epoch 10/50
Epoch 11/50
Epoch 12/50
Epoch 13/50
Epoch 14/50
Epoch 15/50
Epoch 16/50
Epoch 17/50
Epoch 18/50
Epoch 19/50
Epoch 20/50
Epoch 21/50
Epoch 22/50
Epoch 23/50
Epoch 24/50
Epoch 25/50
Epoch 26/50
Epoch 27/50
Epoch 28/50


Epoch 29/50
Epoch 30/50
Epoch 31/50
Epoch 32/50
Epoch 33/50
Epoch 34/50
Epoch 35/50
Epoch 36/50
Epoch 37/50
Epoch 38/50
Epoch 39/50
Epoch 40/50
Epoch 41/50
Epoch 42/50
Epoch 43/50
Epoch 44/50
Epoch 45/50
Epoch 46/50
Epoch 47/50
Epoch 48/50
Epoch 49/50
Epoch 50/50
Epoch 1/50
Epoch 2/50
Epoch 3/50


Epoch 4/50
Epoch 5/50
Epoch 6/50
Epoch 7/50
Epoch 8/50
Epoch 9/50
Epoch 10/50
Epoch 11/50
Epoch 12/50
Epoch 13/50
Epoch 14/50
Epoch 15/50
Epoch 16/50
Epoch 17/50
Epoch 18/50
Epoch 19/50
Epoch 20/50
Epoch 21/50
Epoch 22/50
Epoch 23/50
Epoch 24/50
Epoch 25/50
Epoch 26/50
Epoch 27/50
Epoch 28/50
Epoch 29/50


Epoch 30/50
Epoch 31/50
Epoch 32/50
Epoch 33/50
Epoch 34/50
Epoch 35/50
Epoch 36/50
Epoch 37/50
Epoch 38/50
Epoch 39/50
Epoch 40/50
Epoch 41/50
Epoch 42/50
Epoch 43/50
Epoch 44/50
Epoch 45/50
Epoch 46/50
Epoch 47/50
Epoch 48/50
Epoch 49/50
Epoch 50/50


Обучение стало проходить чуть лучше, но модель всё ещё переобучается. Давайте попробуем добавить в неё дропаут и переберём несколько его значений для лучшего выявленного показателя регуляризации.

In [24]:
# функция создания модели с дропаутом и регуляризацией
def create_drop_reg_model(drp, l2=1e-5):
    title_input = tf.keras.layers.Input(shape=(len(titles[0], )))
    text_input = tf.keras.layers.Input(shape=(len(texts[0], )))

    title_dense_1 = tf.keras.layers.Dense(1000, activation='relu',
                                          kernel_regularizer=tf.keras.regularizers.l2(l2))(title_input)
    text_dense_1 = tf.keras.layers.Dense(1000, activation='relu',
                                         kernel_regularizer=tf.keras.regularizers.l2(l2))(text_input)

    title_bn_1 = tf.keras.layers.BatchNormalization()(title_dense_1)
    text_bn_1 = tf.keras.layers.BatchNormalization()(text_dense_1)

    # будем добавлять дропаут после всех батчнормов
    drp_title_1 = tf.keras.layers.Dropout(drp)(title_bn_1)
    drp_text_1 = tf.keras.layers.Dropout(drp)(text_bn_1)

    title_dense_2 = tf.keras.layers.Dense(100, activation='relu',
                                          kernel_regularizer=tf.keras.regularizers.l2(l2))(drp_title_1)
    text_dense_2 = tf.keras.layers.Dense(100, activation='relu',
                                         kernel_regularizer=tf.keras.regularizers.l2(l2))(drp_text_1)

    title_bn_2 = tf.keras.layers.BatchNormalization()(title_dense_2)
    text_bn_2 = tf.keras.layers.BatchNormalization()(text_dense_2)

    # ещё дропауты
    drp_title_2 = tf.keras.layers.Dropout(drp)(title_bn_2)
    drp_text_2 = tf.keras.layers.Dropout(drp)(text_bn_2)

    concat = tf.keras.layers.Concatenate()([drp_title_2, drp_text_2])

    main_dense_1 = tf.keras.layers.Dense(200, activation='relu',
                                         kernel_regularizer=tf.keras.regularizers.l2(l2))(concat)
    main_bn_1 = tf.keras.layers.BatchNormalization()(main_dense_1)
    main_drp_1 = tf.keras.layers.Dropout(drp)(main_bn_1)  # в финальную часть тоже добавим
    main_dense_2 = tf.keras.layers.Dense(100, activation='relu',
                                         kernel_regularizer=tf.keras.regularizers.l2(l2))(main_drp_1)
    main_bn_2 = tf.keras.layers.BatchNormalization()(main_dense_2)
    main_drp_2 = tf.keras.layers.Dropout(drp)(main_bn_2)

    output = tf.keras.layers.Dense(1, activation='sigmoid',
                                   kernel_regularizer=tf.keras.regularizers.l2(l2))(main_drp_2)

    model = tf.keras.Model(inputs=[title_input, text_input], outputs=output)

    return model


# переберём несколько значений дропаута
drp_range = [0.2, 0.4, 0.6, 0.8]

for drp in drp_range:
    model = create_drop_reg_model(drp)

    model.compile(optimizer=tf.keras.optimizers.Adam(),
                  loss=tf.keras.losses.binary_crossentropy,
                  metrics=[accuracy,
                           precision,
                           recall,
                           f1_metrics,
                           auc])

    # логи для Tensorboard будем сохранять в отдельные подпапки с соответствующим названием
    tb_callback = tf.keras.callbacks.TensorBoard(log_dir='logs/reg_l2_1e-6_drp_'+str(drp), histogram_freq=1)

    model.fit([titles_train, texts_train], y_train,
              validation_data=([titles_val, texts_val], y_val),
              batch_size=256,
              epochs=50,
              callbacks=[tb_callback])

Epoch 1/50
Epoch 2/50
Epoch 3/50
Epoch 4/50
Epoch 5/50
Epoch 6/50
Epoch 7/50
Epoch 8/50
Epoch 9/50
Epoch 10/50
Epoch 11/50
Epoch 12/50
Epoch 13/50
Epoch 14/50
Epoch 15/50
Epoch 16/50
Epoch 17/50
Epoch 18/50
Epoch 19/50
Epoch 20/50
Epoch 21/50
Epoch 22/50
Epoch 23/50
Epoch 24/50
Epoch 25/50


Epoch 26/50
Epoch 27/50
Epoch 28/50
Epoch 29/50
Epoch 30/50
Epoch 31/50
Epoch 32/50
Epoch 33/50
Epoch 34/50
Epoch 35/50
Epoch 36/50
Epoch 37/50
Epoch 38/50
Epoch 39/50
Epoch 40/50
Epoch 41/50
Epoch 42/50
Epoch 43/50
Epoch 44/50
Epoch 45/50
Epoch 46/50
Epoch 47/50
Epoch 48/50
Epoch 49/50
Epoch 50/50
Epoch 1/50


Epoch 2/50
Epoch 3/50
Epoch 4/50
Epoch 5/50
Epoch 6/50
Epoch 7/50
Epoch 8/50
Epoch 9/50
Epoch 10/50
Epoch 11/50
Epoch 12/50
Epoch 13/50
Epoch 14/50
Epoch 15/50
Epoch 16/50
Epoch 17/50
Epoch 18/50
Epoch 19/50
Epoch 20/50
Epoch 21/50
Epoch 22/50
Epoch 23/50
Epoch 24/50
Epoch 25/50
Epoch 26/50


Epoch 27/50
Epoch 28/50
Epoch 29/50
Epoch 30/50
Epoch 31/50
Epoch 32/50
Epoch 33/50
Epoch 34/50
Epoch 35/50
Epoch 36/50
Epoch 37/50
Epoch 38/50
Epoch 39/50
Epoch 40/50
Epoch 41/50
Epoch 42/50
Epoch 43/50
Epoch 44/50
Epoch 45/50
Epoch 46/50
Epoch 47/50
Epoch 48/50
Epoch 49/50
Epoch 50/50
Epoch 1/50


Epoch 2/50
Epoch 3/50
Epoch 4/50
Epoch 5/50
Epoch 6/50
Epoch 7/50
Epoch 8/50
Epoch 9/50
Epoch 10/50
Epoch 11/50
Epoch 12/50
Epoch 13/50
Epoch 14/50
Epoch 15/50
Epoch 16/50
Epoch 17/50
Epoch 18/50
Epoch 19/50
Epoch 20/50
Epoch 21/50
Epoch 22/50
Epoch 23/50
Epoch 24/50
Epoch 25/50
Epoch 26/50
Epoch 27/50


Epoch 28/50
Epoch 29/50
Epoch 30/50
Epoch 31/50
Epoch 32/50
Epoch 33/50
Epoch 34/50
Epoch 35/50
Epoch 36/50
Epoch 37/50
Epoch 38/50
Epoch 39/50
Epoch 40/50
Epoch 41/50
Epoch 42/50
Epoch 43/50
Epoch 44/50
Epoch 45/50
Epoch 46/50
Epoch 47/50
Epoch 48/50
Epoch 49/50
Epoch 50/50
Epoch 1/50
Epoch 2/50


Epoch 3/50
Epoch 4/50
Epoch 5/50
Epoch 6/50
Epoch 7/50
Epoch 8/50
Epoch 9/50
Epoch 10/50
Epoch 11/50
Epoch 12/50
Epoch 13/50
Epoch 14/50
Epoch 15/50
Epoch 16/50
Epoch 17/50
Epoch 18/50
Epoch 19/50
Epoch 20/50
Epoch 21/50
Epoch 22/50
Epoch 23/50
Epoch 24/50
Epoch 25/50
Epoch 26/50
Epoch 27/50
Epoch 28/50


Epoch 29/50
Epoch 30/50
Epoch 31/50
Epoch 32/50
Epoch 33/50
Epoch 34/50
Epoch 35/50
Epoch 36/50
Epoch 37/50
Epoch 38/50
Epoch 39/50
Epoch 40/50
Epoch 41/50
Epoch 42/50
Epoch 43/50
Epoch 44/50
Epoch 45/50
Epoch 46/50
Epoch 47/50
Epoch 48/50
Epoch 49/50
Epoch 50/50


Дропаут 0.8 показал себя неплохо, но всё ещё происходит переобучение. Давайте попробуем сделать дропаут 0.87, но увеличим learning rate, при этом добавив коллбэк для его снижения на плато.

In [25]:
model = create_drop_reg_model(0.87)  # ещё больше дропаута

model.compile(optimizer=tf.keras.optimizers.Adam(learning_rate=0.01),  # увеличили lr в 10 раз 
              loss=tf.keras.losses.binary_crossentropy,
              metrics=[accuracy,
                       precision,
                       recall,
                       f1_metrics,
                       auc])

# если loss на валидации не падает на 0.001 в течение 15 эпох, уменьшаем lr в 10 раз
annealing = tf.keras.callbacks.ReduceLROnPlateau(monitor="val_loss",
                                                 factor=0.1,
                                                 patience=15,
                                                 verbose=1,
                                                 min_delta=0.001)

# результаты положим в новую папку
tb_callback = tf.keras.callbacks.TensorBoard(log_dir='logs/reg_l2_1e-6_drp_0.87', histogram_freq=1)

# веса будем сохранять
saver = tf.keras.callbacks.ModelCheckpoint(filepath="{epoch:02d}-{val_loss:.2f}.h5", save_weights_only=True)

# поехали
model.fit([titles_train, texts_train], y_train,
          validation_data=([titles_val, texts_val], y_val),
          batch_size=256,
          epochs=100,  # поставим побольше эпох на всякий случай (всё равно сохраняем)
          callbacks=[tb_callback, annealing, saver])


Epoch 1/100
Epoch 2/100
Epoch 3/100
Epoch 4/100
Epoch 5/100
Epoch 6/100
Epoch 7/100
Epoch 8/100
Epoch 9/100
Epoch 10/100
Epoch 11/100
Epoch 12/100
Epoch 13/100
Epoch 14/100
Epoch 15/100
Epoch 16/100
Epoch 17/100
Epoch 18/100
Epoch 19/100
Epoch 20/100
Epoch 21/100
Epoch 22/100
Epoch 23/100
Epoch 24/100


Epoch 25/100
Epoch 26/100
Epoch 27/100
Epoch 28/100
Epoch 29/100
Epoch 30/100
Epoch 00030: ReduceLROnPlateau reducing learning rate to 0.0009999999776482583.
Epoch 31/100
Epoch 32/100
Epoch 33/100
Epoch 34/100
Epoch 35/100
Epoch 36/100
Epoch 37/100
Epoch 38/100
Epoch 39/100
Epoch 40/100
Epoch 41/100
Epoch 42/100
Epoch 43/100
Epoch 44/100
Epoch 45/100
Epoch 00045: ReduceLROnPlateau reducing learning rate to 9.999999310821295e-05.
Epoch 46/100
Epoch 47/100


Epoch 48/100
Epoch 49/100
Epoch 50/100
Epoch 51/100
Epoch 52/100
Epoch 53/100
Epoch 54/100
Epoch 55/100
Epoch 56/100
Epoch 57/100
Epoch 58/100
Epoch 59/100
Epoch 60/100
Epoch 00060: ReduceLROnPlateau reducing learning rate to 9.999999019782991e-06.
Epoch 61/100
Epoch 62/100
Epoch 63/100
Epoch 64/100
Epoch 65/100
Epoch 66/100
Epoch 67/100
Epoch 68/100
Epoch 69/100
Epoch 70/100


Epoch 71/100
Epoch 72/100
Epoch 73/100
Epoch 74/100
Epoch 75/100
Epoch 00075: ReduceLROnPlateau reducing learning rate to 9.99999883788405e-07.
Epoch 76/100
Epoch 77/100
Epoch 78/100
Epoch 79/100
Epoch 80/100
Epoch 81/100
Epoch 82/100
Epoch 83/100
Epoch 84/100
Epoch 85/100
Epoch 86/100
Epoch 87/100
Epoch 88/100
Epoch 89/100
Epoch 90/100
Epoch 00090: ReduceLROnPlateau reducing learning rate to 9.99999883788405e-08.
Epoch 91/100
Epoch 92/100
Epoch 93/100
Epoch 94/100


Epoch 95/100
Epoch 96/100
Epoch 97/100
Epoch 98/100
Epoch 99/100
Epoch 100/100


<tensorflow.python.keras.callbacks.History at 0x18c04e2d310>

Наконец пришло время проверить, как модель показывает себя на тестовых данных.

In [26]:
model.evaluate([titles_test, texts_test], y_test)



[0.5218945741653442,
 0.9534050226211548,
 0.92277991771698,
 0.8819188475608826,
 0.8852342367172241,
 0.9701544642448425]

Precision и Recall в районе ~90% - достаточно хороший результат для такой простой модели, которая фактически знает только то, сколько раз каждое слово встречается в тексте. Наверняка модель можно ещё чуть более улучшить тщательным перебором гиперпараметров (например, выбирать свой дропаут и регуляризацию для каждого слоя, добавить L1, ещё поиграться с learning rate), но каждый из вас может попробовать проделать это всё самостоятельно =)

Также в зависимости от задачи можно играться с балансом Precision и Recall. Например, если в работе потом всё равно планируется ручная перепроверка постов, то Precision можно сделать и поменьше, подняв Recall, чтобы уж точно обнаруживать все нарушения. Если же модель будет работать полностью автоматически, то есть смысл завысить Precision, пожертвовав Recall-ом, чтобы модель реже ошибалась на "безобидных" постах, пусть она и не сможет обнаружить всё, что требуется (но хоть как-то поможет).