## Определение тональности текстов отзывов на сайте [YELP](https://www.yelp.com/dataset) одномерной сверточной нейросетью


Чтобы запускать и редактировать код, сохраните копию этого ноутбука себе (Файл -> Создать копию на Диске). Свою копию вы сможете изменять и запускать.

Не забудьте подключить GPU, чтобы сеть обучалась быстрее (Среда выполнения -> Сменить среду выполнение -> Аппаратный ускоритель -> GPU).



In [1]:
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Embedding, MaxPooling1D, Conv1D, GlobalMaxPooling1D, Dropout
from tensorflow.keras import utils
from tensorflow.keras.preprocessing.sequence import pad_sequences
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.callbacks import ModelCheckpoint
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline

In [2]:
num_words = 10000
max_review_len = 100

## Загрузка набора данных

In [3]:
!wget https://www.dropbox.com/s/ufbhk3kadtnn6h0/yelp_review_polarity_csv.tgz?dl=1 -O yelp_review_polarity_csv.tgz

zsh:1: no matches found: https://www.dropbox.com/s/ufbhk3kadtnn6h0/yelp_review_polarity_csv.tgz?dl=1


In [3]:
!tar -xvf yelp_review_polarity_csv.tgz

## Просматриваем данные

In [4]:
!cat yelp_review_polarity_csv/readme.txt

In [5]:
!head yelp_review_polarity_csv/train.csv

In [6]:
!head yelp_review_polarity_csv/test.csv

In [7]:
!wc -l yelp_review_polarity_csv/train.csv
!wc -l yelp_review_polarity_csv/test.csv

## Загружаем данные в память

Читаем данные из файла

In [None]:
train = pd.read_csv('yelp_review_polarity_csv/train.csv',
                    header=None,
                    names=['Class', 'Review'])

In [None]:
train

Выделяем данные для обучения

In [None]:
reviews = train['Review']

In [None]:
reviews[:5]

Выделяем правильные ответы

In [None]:
y_train = train['Class'] - 1

In [None]:
y_train

## Токенизация текста

In [None]:
reviews[:5]

Создаем токенизатор Keras

In [None]:
tokenizer = Tokenizer(num_words=num_words)

Обучаем токенизатор на отзывах Yelp

In [None]:
tokenizer.fit_on_texts(reviews)

Просматриваем словарь токенизатора

In [None]:
tokenizer.word_index

Преобразуем отзывы Yelp в числовое представление

In [None]:
sequences = tokenizer.texts_to_sequences(reviews)

Просматриваем отзывы в числовом представлении

In [None]:
index = 100
print(reviews[index])
print(sequences[index])

In [None]:
tokenizer.word_index['in']

Ограничиваем длину отзывов

In [None]:
x_train = pad_sequences(sequences, maxlen=max_review_len)

In [None]:
x_train[:5]

## Создаем нейронную сеть

In [None]:
model = Sequential()
model.add(Embedding(num_words, 64, input_length=max_review_len))
model.add(Conv1D(250, 5, padding='valid', activation='relu'))
model.add(GlobalMaxPooling1D())
model.add(Dense(128, activation='relu'))
model.add(Dropout(0.2))
model.add(Dense(1, activation='sigmoid'))

In [None]:
model.compile(optimizer='adam',
              loss='binary_crossentropy',
              metrics=['accuracy'])

In [None]:
model.summary()

## Обучаем нейронную сеть

In [None]:
history = model.fit(x_train,
                    y_train,
                    epochs=4,
                    batch_size=128,
                    validation_split=0.1)

In [None]:
plt.plot(history.history['accuracy'],
         label='Доля верных ответов на обучающем наборе')
plt.plot(history.history['val_accuracy'],
         label='Доля верных ответов на проверочном наборе')
plt.xlabel('Эпоха обучения')
plt.ylabel('Доля верных ответов')
plt.legend()
plt.show()

## Загружаем набор данных для тестирования

In [None]:
test = pd.read_csv('yelp_review_polarity_csv/test.csv',
                    header=None,
                    names=['Class', 'Review'])

In [None]:
test

Преобразуем отзывы в числовое представление

Обратите внимание, что нужно использовать токенизатор, обученный на наборе данных train.

In [None]:
test_sequences = tokenizer.texts_to_sequences(test['Review'])

In [None]:
x_test = pad_sequences(test_sequences, maxlen=max_review_len)

In [None]:
x_test[:5]

Правильные ответы

In [None]:
y_test = test['Class'] - 1

In [None]:
y_test

## Оцениваем качество работы сети на тестовом наборе данных

In [None]:
model.evaluate(x_test, y_test, verbose=1)

## Оцениваем тональность на собственном отзыве

In [None]:
text = '''The SmartBurger restaurant is awful. It’s a small shabby place.
The food is really bad and very expensive.  The host and waiters are rud.
I will never visit the SmartBurger again!
'''

In [None]:
sequence = tokenizer.texts_to_sequences([text])

In [None]:
sequence

In [None]:
data = pad_sequences(sequence, maxlen=max_review_len)

In [None]:
data

In [None]:
result = model.predict(data)

In [None]:
result

In [None]:
if result < 0.5:
    print('Отзыв отрицательный')
else:
    print('Отзыв положительный')


## Задания для самостоятельной работы

Меняйте гиперпараметры нейросети, чтобы повысить качество работы:
  - Длину окна свертки (поробуйте 3, 5, 7 и 9).
  - Количество карт признаков в сверточном слое.
  - Длину вектора представления слов в слое Embedding.
  - Количество сверточных слоев.
  - Количествой нейронов в полносвязном слое для классификации.
  - Параметр Dropout
  - Тип оптимизатора (`adam`, `rmsprop` и др.)
  - Количество эпох обучения.
  - Рармер мини-выборки.

