**Задание**

Данные берем отызывы за лето

На вебинаре мы говорили, что долгое время CNN и RNN архитектуры были конурируещими выяснить какая архитектура больше подходит для нашей задачи

1. построить свёрточные архитектуры
2. построить различные архитектуры с RNN
3. построить совместные архитектуры CNN -> RNN или (RNN -> CNN)

In [1]:
# ! pip install stop_words
# ! pip install pymorphy2

In [2]:
import pandas as pd
from sklearn.model_selection import train_test_split

from string import punctuation
from stop_words import get_stop_words
from pymorphy2 import MorphAnalyzer
import re
from keras.preprocessing.text import Tokenizer
from keras.preprocessing.sequence import pad_sequences
from sklearn.preprocessing import LabelEncoder
import tensorflow as tf

from keras.losses import SparseCategoricalCrossentropy
from keras.models import Sequential, Model
from keras.layers import Dense, Dropout, Activation, Input, Embedding, Conv1D, GlobalMaxPool1D, MaxPool1D, SimpleRNN, LSTM, GRU, Masking, Flatten
from keras.callbacks import TensorBoard 
from keras.callbacks import EarlyStopping 
from tensorflow.keras.utils import to_categorical

In [3]:
! pip install --upgrade xlrd

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


In [4]:
#Загрузка данных
df = pd.read_excel('/content/отзывы за лето.xls')
df.head(5)

Unnamed: 0,Rating,Content,Date
0,5,It just works!,2017-08-14
1,4,В целом удобноное приложение...из минусов хотя...,2017-08-14
2,5,Отлично все,2017-08-14
3,5,Стал зависать на 1% работы антивируса. Дальше ...,2017-08-14
4,5,"Очень удобно, работает быстро.",2017-08-14


In [5]:
#Разбиваем на трейн и тест
df_train, df_test = train_test_split(df, test_size=0.33, random_state=42)
df_train = df_train.reset_index(drop=True)
df_test = df_test.reset_index(drop=True)
df_train.shape, df_test.shape

((13841, 3), (6818, 3))

In [6]:
#Предобрабатываем данные
sw = set(get_stop_words("ru"))
exclude = set(punctuation)
morpher = MorphAnalyzer()

def preprocess_text(txt):
    txt = str(txt)
    txt = "".join(c for c in txt if c not in exclude)
    txt = txt.lower()
    txt = re.sub("\sне", "не", txt)
    txt = [morpher.parse(word)[0].normal_form for word in txt.split() if word not in sw]
    return " ".join(txt)

df_train['Content'] = df_train['Content'].apply(preprocess_text)
df_test['Content'] = df_test['Content'].apply(preprocess_text)


In [7]:
text_corpus_train = df_train['Content'].values
text_corpus_test = df_test['Content'].values

In [8]:
# Определяем токенайзер
tokenizer = Tokenizer(num_words=None, 
                     filters='#$%&()*+-<=>@[\\]^_`{|}~\t\n',
                     lower = False, split = ' ')
# Обучаем токенайзер на тренировочном наборе данных - > получаем готовый словарь
tokenizer.fit_on_texts(text_corpus_train)

In [9]:
# На основе полученного словаря токены переводятся в их id и сформировываем последовательности sequences

sequences_train = tokenizer.texts_to_sequences(text_corpus_train)
sequences_test = tokenizer.texts_to_sequences(text_corpus_test)

In [10]:
# всего слов в словаре
word_count = len(tokenizer.index_word) + 1

# находим максимальную длину будущей последовательности в тренировочном наборе отзывов
training_length = max([len(i.split()) for i in text_corpus_train])

word_count, training_length

(10293, 113)

In [11]:
X_train = pad_sequences(sequences_train, maxlen=training_length)
X_test = pad_sequences(sequences_test, maxlen=training_length)

X_train[5]

array([  0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,
         0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,
         0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,
         0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,
         0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,
         0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,
         0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,
         0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,
         0,   0,   0,   0,   0,   0,   0, 127,   1], dtype=int32)

In [12]:
# Преобразование значений y
le = LabelEncoder()
train_enc_labels = le.fit_transform(df_train['Rating']) 
test_enc_labels = le.transform(df_test['Rating'])
le.classes_

array([1, 2, 3, 4, 5])

In [13]:
num_classes = df_train['Rating'].nunique()
y_train = to_categorical(train_enc_labels, num_classes)
y_test = to_categorical(test_enc_labels, num_classes)

In [14]:
y_train.shape, y_train[3]

((13841, 5), array([0., 0., 0., 0., 1.], dtype=float32))

**CNN (Сверточные нейронные сети)**

In [15]:
model = Sequential()
model.add(Embedding(input_dim=word_count, output_dim=256, input_length=training_length)) 
                    #inputdim -- размер словаря, outputdim -- длина вектора, input_length -- длина входной последовательности
                    #на вход: (батч, input_lenght), на выходе: (батч, input_lenght, output_dim)

model.add(Conv1D(128, 3, padding = 'same'))
                   #64 -- количество 1D-фильтров, длина фильтра -- 3
                   #на выходе (количество объектов, 128 - длина нового эмбединга)

model.add(MaxPool1D(2))  
model.add(Activation("relu"))


model.add(Conv1D(256, 3, padding = 'same'))
model.add(MaxPool1D(2))
model.add(Activation("relu"))
                    #применяем функцию активации к выходу предыдущего слоя

model.add(GlobalMaxPool1D())
                    # в каждой свертке для каждого элемента эмбединга оставляем максимум - получаем один 128-м эмбеддинг

model.add(Dense(128))
               #128-количество выходов
model.add(Activation("relu"))
model.add(Dense(64))
model.add(Activation("relu"))

model.add(Dense(num_classes))
                #num_classes = 5 -- количество выходов
model.add(Activation('softmax'))
                #преобразуем вектор в раcgределение вероятностей

In [16]:
model.compile(loss='categorical_crossentropy', 
              optimizer='adam',
              metrics=['accuracy'])

In [17]:
early_stopping=EarlyStopping(monitor='val_loss', patience = 1, mode = 'min')  


history = model.fit(X_train, y_train,
                    batch_size=256,
                    epochs=10,
                    verbose=1,
                    validation_data = (X_test, y_test),
                    callbacks=[early_stopping]
                    )

Epoch 1/10
Epoch 2/10
Epoch 3/10


In [18]:
cnn_score = model.evaluate(X_test, y_test, batch_size=256, verbose=1)
print('\n')
print('Test score:', cnn_score[0])
print('Test accuracy:', cnn_score[1])



Test score: 0.6756554841995239
Test accuracy: 0.7645937204360962


**RNN (Рекуррентные нейронные сети)**

Simple RNN

In [19]:
model = Sequential()

model.add(Embedding(input_dim=word_count,
              input_length=training_length,
              output_dim=30,
              trainable=True,
              mask_zero=True))
model.add(Masking(mask_value=0.0))

model.add(SimpleRNN(64))  #64 -- количество ячеек, размер выходного пространства - количество скрытых состояний на момент последнего эл-тв послед-сти
model.add(Dense(64, activation='relu'))
model.add(Dropout(0.5))
model.add(Dense(num_classes, activation='softmax'))

In [20]:
model.compile(
    optimizer='adam', 
    loss='binary_crossentropy', 
    metrics=['accuracy'])

history = model.fit(X_train, y_train,
                    batch_size=512,
                    epochs=10,
                    verbose=1,
                    validation_data = (X_test, y_test),
                    callbacks = [early_stopping]
                    )

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10


In [21]:
srnn_score = model.evaluate(X_test, y_test, batch_size=512, verbose=1)
print('\n')
print('Test score:', srnn_score[0])
print('Test accuracy:', srnn_score[1])



Test score: 0.23622490465641022
Test accuracy: 0.7597535848617554


LSTM (Long short term memory)

In [22]:
model = Sequential()

model.add(Embedding(input_dim=word_count,
              input_length=training_length,
              output_dim=30,
              trainable=True,
              mask_zero=True))
model.add(Masking(mask_value=0.0))

model.add(LSTM(64))  #64 -- количество ячеек, размер выходного пространства - количество скрытых состояний на момент последнего эл-тв послед-сти
model.add(Dense(64, activation='relu'))
model.add(Dropout(0.5))
model.add(Dense(num_classes, activation='softmax'))


model.compile(
    optimizer='adam', 
    loss='binary_crossentropy', 
    metrics=['accuracy'])

history = model.fit(X_train, y_train,
                    batch_size=512,
                    epochs=10,
                    verbose=1,
                    validation_data = (X_test, y_test),
                    callbacks = [early_stopping]
                    )

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10


In [23]:
lstm_score = model.evaluate(X_test, y_test, batch_size=512, verbose=1)
print('\n')
print('Test score:', lstm_score[0])
print('Test accuracy:', lstm_score[1])



Test score: 0.23087015748023987
Test accuracy: 0.7622469663619995


GRU (Gated recurrent unit)

In [24]:
model = Sequential()

model.add(Embedding(input_dim=word_count,
              input_length=training_length,
              output_dim=30,
              trainable=True,
              mask_zero=True))
model.add(Masking(mask_value=0.0))

model.add(LSTM(64))  #64 -- количество ячеек, размер выходного пространства - количество скрытых состояний на момент последнего эл-тв послед-сти
model.add(Dense(64, activation='relu'))
model.add(Dropout(0.5))
model.add(Dense(num_classes, activation='softmax'))


model.compile(
    optimizer='adam', 
    loss='binary_crossentropy', 
    metrics=['accuracy'])

history = model.fit(X_train, y_train,
                    batch_size=512,
                    epochs=10,
                    verbose=1,
                    validation_data = (X_test, y_test),
                    callbacks = [early_stopping]
                    )

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10


In [25]:
gru_score = model.evaluate(X_test, y_test, batch_size=512, verbose=1)
print('\n')
print('Test score:', gru_score[0])
print('Test accuracy:', gru_score[1])



Test score: 0.22855816781520844
Test accuracy: 0.769433856010437


RNN + CNN

In [26]:
# CNN - > RNN

model = Sequential()

model.add(Embedding(input_dim=word_count,
              input_length=training_length,
              output_dim=30,
              trainable=True,
              mask_zero=True))
model.add(Masking(mask_value=0.0))

model.add(Conv1D(128, 3))
model.add(Activation("relu"))
model.add(LSTM(64,recurrent_dropout=0.2)) 
model.add(Dense(32, activation='relu'))
model.add(Dropout(0.5))
model.add(Dense(5, activation='softmax'))

model.compile(
    optimizer='adam', 
    loss='binary_crossentropy', 
    metrics=['accuracy'])

history = model.fit(X_train, y_train,
                    batch_size=512,
                    epochs=10,
                    verbose=1,
                    validation_data = (X_test, y_test),
                    callbacks = [early_stopping]
                    )

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10


In [27]:
cnn_rnn_score = model.evaluate(X_test, y_test, batch_size=512, verbose=1)
print('\n')
print('Test score:', cnn_rnn_score[0])
print('Test accuracy:', cnn_rnn_score[1])



Test score: 0.22943797707557678
Test accuracy: 0.7685538530349731


In [28]:
# RNN - > CNN
model = Sequential()

model.add(Embedding(input_dim=word_count,
              input_length=training_length,
              output_dim=30,
              trainable=True,
              mask_zero=True))
model.add(Masking(mask_value=0.0))

model.add(LSTM(64,recurrent_dropout=0.2, return_sequences=True))
  #return_sequences = True с- возвращаем последовательность скрытых состояний для каждого токена
model.add(Conv1D(64, 3, padding = 'same', activation = 'relu'))
model.add(GlobalMaxPool1D())
model.add(Dense(32, activation='relu'))
model.add(Dropout(0.5))
model.add(Dense(5, activation='softmax'))



model.compile(
    optimizer='adam', 
    loss='binary_crossentropy', 
    metrics=['accuracy'])

history = model.fit(X_train, y_train,
                    batch_size=512,
                    epochs=10,
                    verbose=1,
                    validation_data = (X_test, y_test),
                    callbacks = [early_stopping]
                    )

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


In [29]:
rnn_cnn_score = model.evaluate(X_test, y_test, batch_size=512, verbose=1)
print('\n')
print('Test score:', rnn_cnn_score[0])
print('Test accuracy:', rnn_cnn_score[1])



Test score: 0.2224355787038803
Test accuracy: 0.7726606130599976


Оценка результатов

In [30]:
result = pd.DataFrame({'model': ['CNN', 'SimpleRNN', 'LSTM', 'GRU', 'CNN->LSTM', 'LSTM->CNN'], 
                       'accuracy': [cnn_score[1], srnn_score[1], lstm_score[1], gru_score[1], cnn_rnn_score[1], rnn_cnn_score[1]]})
result.sort_values(by='accuracy', ascending=False)

Unnamed: 0,model,accuracy
5,LSTM->CNN,0.772661
3,GRU,0.769434
4,CNN->LSTM,0.768554
0,CNN,0.764594
2,LSTM,0.762247
1,SimpleRNN,0.759754


Наилучший результат показала совместная модель LSTM>CNN, однако в целом все модели достаточно неплохо справились с задачей. 