<a href="https://colab.research.google.com/github/dariabokareva/datascience/blob/master/neural-networks/nlp/kaggle/dl_nlp_toxic_comment_classification.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Классификация [токсичных комментариев](https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge)

In [1]:
%tensorflow_version 2.x
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Embedding, MaxPooling1D, Dropout, LSTM, Bidirectional, SpatialDropout1D
from tensorflow.keras import utils
from tensorflow.keras.preprocessing.sequence import pad_sequences
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.callbacks import ModelCheckpoint
from tensorflow.keras import utils
from google.colab import files
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline 

In [2]:
# Максимальное количество слов 
num_words = 10000
# Максимальная длина комментария
max_comment_len = 50

## Настраиваем Kaggle API

Загружаем [Kaggle API Tocken для аутентификации на Kaggle](https://www.kaggle.com/docs/api). 
My Account -> API -> Create New API Token



In [3]:
api_tocken = files.upload()

Saving kaggle.json to kaggle.json


In [4]:
!mkdir /root/.kaggle
!mv kaggle.json /root/.kaggle

## Загрузка набора данных

In [7]:
!chmod 600 /root/.kaggle/kaggle.json

In [None]:
!kaggle competitions download -c jigsaw-toxic-comment-classification-challenge

In [None]:
!unzip train.csv.zip

In [None]:
!unzip test.csv.zip
!unzip test_labels.csv.zip

## Просматриваем данные

In [None]:
!ls

In [None]:
!head -20 train.csv

## Загружаем данные в память

Читаем данные из файла

In [None]:
train = pd.read_csv('train.csv')

In [None]:
train

Выделяем данные для обучения

In [None]:
comments = train['comment_text']

In [None]:
comments[:5]

Выделяем правильные ответы

In [None]:
y_train = train[['toxic', 'severe_toxic', 'obscene',	'threat',	'insult',	'identity_hate']]

In [None]:
y_train

## Токенизация текста

In [None]:
comments[:5]

Создаем токенизатор Keras

In [None]:
tokenizer = Tokenizer(num_words=num_words)

Обучаем токенизатор на новостях

In [None]:
tokenizer.fit_on_texts(comments)

Просматриваем словарь токенизатора

In [None]:
tokenizer.word_index

Преобразуем комментарии в числовое представление

In [None]:
sequences = tokenizer.texts_to_sequences(comments)

Просматриваем новости в числовом представлении

In [None]:
index = 1
print(comments[index])
print(sequences[index])

In [None]:
tokenizer.word_index['he']

Ограничиваем длину отзывов

In [None]:
x_train = pad_sequences(sequences, maxlen=max_comment_len)

In [None]:
x_train[:5]

## Cеть LSTM

In [None]:
model_lstm = Sequential()
model_lstm.add(Embedding(num_words, 128, input_length=max_comment_len))
model_lstm.add(SpatialDropout1D(0.5))
model_lstm.add(LSTM(40, return_sequences=True))
model_lstm.add(LSTM(40))
model_lstm.add(Dense(6, activation='sigmoid'))

In [None]:
model_lstm.compile(optimizer='adam', 
              loss='binary_crossentropy', 
              metrics=['accuracy', 'AUC'])

In [None]:
model_lstm.summary()

Создаем callback для сохранения нейронной сети на каждой эпохе, если качество работы на проверочном наборе данных улучшилось. Сеть сохраняется в файл `best_model.h5`

In [None]:
model_lstm_save_path = 'best_model_lstm.h5'
checkpoint_callback_lstm = ModelCheckpoint(model_lstm_save_path, 
                                      monitor='val_accuracy',
                                      save_best_only=True,
                                      verbose=1)

In [None]:
history_lstm = model_lstm.fit(x_train, 
                              y_train, 
                              epochs=5,
                              batch_size=512,
                              validation_split=0.2,
                              callbacks=[checkpoint_callback_lstm])

In [None]:
plt.plot(history_lstm.history['accuracy'], 
         label='Доля верных ответов на обучающем наборе')
plt.plot(history_lstm.history['val_accuracy'], 
         label='Доля верных ответов на проверочном наборе')
plt.xlabel('Эпоха обучения')
plt.ylabel('Доля верных ответов')
plt.legend()
plt.show()

## Загружаем набор данных для тестирования

In [None]:
test_comments = pd.read_csv('test.csv')

In [None]:
test_comments[:10]

In [None]:
test_labels = pd.read_csv('test_labels.csv')

In [None]:
test_labels[:10]

In [None]:
test_full = pd.merge(test_comments, test_labels, on='id')

In [None]:
test_full

In [None]:
test = test_full[test_full['toxic']!=-1]

In [None]:
test

Преобразуем комментарии в числовое представление

In [None]:
test_sequences = tokenizer.texts_to_sequences(test['comment_text'])

In [None]:
x_test = pad_sequences(test_sequences, maxlen=max_comment_len)

In [None]:
x_test[:5]

Правильные ответы

In [None]:
y_test = test[['toxic',	'severe_toxic',	'obscene', 'threat',	'insult',	'identity_hate']]

In [None]:
y_test[:10]

## Оцениваем качество работы сети на тестовом наборе данных

In [None]:
model_lstm.load_weights(model_lstm_save_path)

In [None]:
model_lstm.evaluate(x_test, y_test, verbose=1)

## Пробуем классифицировать комментарии

In [None]:
comment = "X-BOX 360 SUKCS BIG BUMM AND LIKES IT UP THE ASS"

In [None]:
sequence = tokenizer.texts_to_sequences([comment])

In [None]:
sequence

In [None]:
data = pad_sequences(sequence, maxlen=max_comment_len)

In [None]:
data

In [None]:
result = model_lstm.predict(data)

In [None]:
result