In [1]:
import pandas as pd
import numpy as np

pd.set_option('display.max_colwidth', None)
SEED=27

## Загрузка сырых данных

In [2]:
def get_3d_quartile_words_count(sentences_array):
    """
    Получает массив строк/предложений.
    Отдает число N.
    75% всех предложений данного массива не превышают N слов в длину.
    """
    def count_words(sentence):
        return len(sentence.split(' '))
        
    
    return round(
        np.percentile(sentences_array.apply(count_words), 75)
    )

orig_toxic_comments_df = pd.read_csv('data/toxicCommentsOriginalDF.csv')
print('Количество комментариев:', len(orig_toxic_comments_df))
print(f"75% всех комментариев не больше {get_3d_quartile_words_count(orig_toxic_comments_df['comment'])} слов в длину")
orig_toxic_comments_df.head(3)

Количество комментариев: 14412
75% всех комментариев не больше 32 слов в длину


Unnamed: 0,comment,toxic
0,"Верблюдов-то за что? Дебилы, бл...\n",1.0
1,"Хохлы, это отдушина затюканого россиянина, мол, вон, а у хохлов еще хуже. Если бы хохлов не было, кисель их бы придумал.\n",1.0
2,Собаке - собачья смерть\n,1.0


## Split train-validation-test DF

In [3]:
df = orig_toxic_comments_df.copy()

y = df.pop('toxic')
X = np.array(df)

In [4]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=SEED)

## Train model

In [5]:
import tensorflow as tf

from tensorflow.keras.layers.experimental.preprocessing import TextVectorization
from tensorflow.keras import layers, losses

print(tf.__version__)

INFO:tensorflow:Enabling eager execution
INFO:tensorflow:Enabling v2 tensorshape
INFO:tensorflow:Enabling resource variables
INFO:tensorflow:Enabling tensor equality
INFO:tensorflow:Enabling control flow v2
2.5.0-rc0


In [6]:
from textPreprocessing import preprocess_text

In [7]:
MAX_FEATURES = 10000
MAX_SEQUENCE_LENGTH = get_3d_quartile_words_count(df['comment'])


def decode_byte_string_to_russian_text(string_tensor):
    try:
        return string_tensor[0].numpy().decode('utf-8')
    except:
        return ''

def custom_standardization(texts_tensor):    
    result = tf.map_fn(fn=lambda x: preprocess_text(decode_byte_string_to_russian_text(x)), elems=texts_tensor)
    
    return result

vectorize_layer = TextVectorization(
#     standardize=custom_standardization,
    max_tokens=MAX_FEATURES,
    output_mode='int',
    output_sequence_length=MAX_SEQUENCE_LENGTH
)
vectorize_layer.adapt(X_train)

In [8]:
model = tf.keras.Sequential([
    vectorize_layer,
    layers.Embedding(
        input_dim = len(vectorize_layer.get_vocabulary()),
        output_dim = 16
    ),
    layers.Dropout(0.2),
    layers.GlobalAveragePooling1D(),
    layers.Dropout(0.2),
    layers.Dense(1),
    layers.Activation('sigmoid') # то есть в конце мы выдаем уже вероятности
])

model.compile(
    loss=losses.BinaryCrossentropy(from_logits=False),
    optimizer='adam',
#     metrics=[tf.keras.metrics.Accuracy]
    metrics=[tf.keras.metrics.BinaryAccuracy(), tf.keras.metrics.Recall(), tf.keras.metrics.Precision()]
)


In [9]:
epochs = 20
history = model.fit(
    x=X_train,
    y=y_train,
    epochs=epochs,
    validation_split=0.2, # сколько от тестовой выборки отрезать под валидационную
)

Epoch 1/20
Epoch 2/20
Epoch 3/20
Epoch 4/20
Epoch 5/20
Epoch 6/20
Epoch 7/20
Epoch 8/20
Epoch 9/20
Epoch 10/20
Epoch 11/20
Epoch 12/20
Epoch 13/20
Epoch 14/20
Epoch 15/20
Epoch 16/20
Epoch 17/20
Epoch 18/20
Epoch 19/20
Epoch 20/20


In [10]:
loss, accuracy, recall, precision = model.evaluate(x=X_test, y=y_test)

print("Loss: ", loss)
print("Accuracy: ", accuracy)
print("Recall: ", recall)
print("Precision: ", precision)

Loss:  0.3498672842979431
Accuracy:  0.866111695766449
Recall:  0.7746331095695496
Precision:  0.812087893486023


In [11]:
tf.math.confusion_matrix(labels=y_test, predictions=(model.predict(X_test) > 0.5) * 1)

<tf.Tensor: shape=(2, 2), dtype=int32, numpy=
array([[1758,  171],
       [ 215,  739]], dtype=int32)>