[View in Colaboratory](https://colab.research.google.com/github/Sarkin/nlp2018/blob/master/Copy_of_Lecture_1_Keras.ipynb)

# Введение в keras

In [0]:
!pip install -q keras

## Sequential Model

Обучить свою нейросеть просто! Нужно

1.   Выбрать типы и последовательность слоев
2.   Настроить параметры слоев (передав нужные в конструктор слоя или оставив вариант по умолчанию)
3.   Выбрать оптимизатор и скомпилировать модель
4.   Обучить модель!


Чтобы создать Sequential модель, просто позовите следующие строки:

In [3]:
from keras.models import Sequential

model = Sequential()

Using TensorFlow backend.


Слои теперь добавляются в модель последовательно, как будто это list:

In [0]:
from keras.layers import Dense

model.add(Dense(units=64, activation='relu', input_dim=100))
model.add(Dense(units=10, activation='softmax'))

Только что мы создали сеть с одним скрытым слоем. Сколько в ней обучаемых параметров?

Посмотреть это можно с помощью метода

In [5]:
model.summary()

_________________________________________________________________
Layer (type)                 Output Shape              Param #   
dense_1 (Dense)              (None, 64)                6464      
_________________________________________________________________
dense_2 (Dense)              (None, 10)                650       
Total params: 7,114
Trainable params: 7,114
Non-trainable params: 0
_________________________________________________________________


*Почему столько параметров в слоях?* (input_dim x units) + (units bias весов)

*Что за `None` вместо первого элемента `Output Shape`?*  Переменное количество входных векторов, по сути batch size

Прежде чем обучать эту модель, её нужно скомпилировать:

In [0]:
model.compile(loss='sparse_categorical_crossentropy',
              optimizer='sgd',
              metrics=['accuracy'])

В NLP чаще всего ставятся задачи классификации, поэтому нужно запомнить такие функции потерь:


*   **categorical_crossentropy** - для многоклассовой классификации, в качестве меток должны передаваться one-hot-encoding вектора
*   **sparse_categorical_crossentropy** - аналогично предыдущему, но в качестве меток нужно передавать просто индексы соответствующих классов
*   **binary_crossentropy** - для бинарной классификации


В качестве оптимизатора обычно используют `sgd` или `adam`.


In [0]:
import numpy as np

X_train = np.random.randn(10000, 100)
y_train = np.random.randint(0, 10, size=10000)
X_test = np.random.randn(1000, 100)

In [8]:
model.fit(X_train, y_train, epochs=5, batch_size=32)

Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5


<keras.callbacks.History at 0x7fbd65a6cef0>

## Binary Classification

Попробуем предсказать сентимент (положительность/отрицательность) imdb'шных ревью [keras: IMDB Movie reviews sentiment classification](https://keras.io/datasets/#imdb-movie-reviews-sentiment-classification)

In [0]:
from keras.datasets import imdb

In [10]:
NUM_WORDS = 10000

print('Loading data...')
(X_train, y_train), (X_test, y_test) = imdb.load_data(num_words=NUM_WORDS)
print(len(X_train), 'train sequences')
print(len(X_test), 'test sequences')

Loading data...
Downloading data from https://s3.amazonaws.com/text-datasets/imdb.npz
25000 train sequences
25000 test sequences


### Bag-of-words

Начнем с простейшей модели

In [0]:
def convert_to_bow(X):
  X_bow = np.zeros((len(X), NUM_WORDS))
  for i, review in enumerate(X):
    for ind in review:
      X_bow[i, ind] = 1
  return X_bow

X_train_bow, X_test_bow = convert_to_bow(X_train), convert_to_bow(X_test)

In [12]:
model = Sequential()
model.add(Dense(1, activation='sigmoid', input_dim=NUM_WORDS))

model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy'])

model.summary()

_________________________________________________________________
Layer (type)                 Output Shape              Param #   
dense_3 (Dense)              (None, 1)                 10001     
Total params: 10,001
Trainable params: 10,001
Non-trainable params: 0
_________________________________________________________________


*Как называется такая модель?* softmax classifier

In [13]:
model.fit(X_train_bow, y_train, 
          batch_size=32,
          epochs=3,
          validation_data=(X_test_bow, y_test))

Train on 25000 samples, validate on 25000 samples
Epoch 1/3
Epoch 2/3
Epoch 3/3


<keras.callbacks.History at 0x7fbd04b8a438>

### Convs

Переходим к более сложным моделям.

In [0]:
from keras.preprocessing import sequence

MAX_LEN = 400

X_train_long = sequence.pad_sequences(X_train, maxlen=MAX_LEN)
X_test_long = sequence.pad_sequences(X_test, maxlen=MAX_LEN)

In [15]:
from keras.layers import Embedding, Dropout, SpatialDropout1D, Conv1D, GlobalMaxPooling1D
from keras.optimizers import Adam

EMB_DIM = 50

model = Sequential()

model.add(Embedding(input_dim=NUM_WORDS, 
                    output_dim=EMB_DIM, 
                    input_length=MAX_LEN))

model.add(Conv1D(filters=128, kernel_size=3, padding='valid', activation='relu', strides=1))
model.add(GlobalMaxPooling1D())

model.add(Dense(64, activation='relu'))
model.add(Dropout(0.2))

model.add(Dense(1, activation='sigmoid'))

model.compile(loss='binary_crossentropy',
              optimizer=Adam(),  # оптимизатор ещё и так можно передавать
              metrics=['accuracy'])

model.summary()

_________________________________________________________________
Layer (type)                 Output Shape              Param #   
embedding_1 (Embedding)      (None, 400, 50)           500000    
_________________________________________________________________
conv1d_1 (Conv1D)            (None, 398, 128)          19328     
_________________________________________________________________
global_max_pooling1d_1 (Glob (None, 128)               0         
_________________________________________________________________
dense_4 (Dense)              (None, 64)                8256      
_________________________________________________________________
dropout_1 (Dropout)          (None, 64)                0         
_________________________________________________________________
dense_5 (Dense)              (None, 1)                 65        
Total params: 527,649
Trainable params: 527,649
Non-trainable params: 0
_________________________________________________________________


In [16]:
model.fit(X_train_long, y_train,
          batch_size=32,
          epochs=5,
          validation_data=(X_test_long, y_test))

Train on 25000 samples, validate on 25000 samples
Epoch 1/5
Epoch 2/5
Epoch 3/5
 5152/25000 [=====>........................] - ETA: 8s - loss: 0.0900 - acc: 0.9730

Epoch 4/5
Epoch 5/5



<keras.callbacks.History at 0x7fbce8c59f28>

Попробуем улучшить качество.

Добавим предобученные словные эмбеддинги.

Чёрная магия, которую нужно для этого скастовать, выглядит как-нибудь так:

In [17]:
!pip install chakin

import chakin
chakin.search(lang='English')

chakin.download(number=11, save_dir='./')

!unzip glove.6B.zip

!pip install gensim
!python -m gensim.scripts.glove2word2vec --input glove.6B.50d.txt --output glove.6B.50d.v2w.txt

Collecting chakin
  Downloading https://files.pythonhosted.org/packages/45/a3/26d2b5b5b1700fb9923aadf6c8812c2128ab71a099c51855e92f994c49bd/chakin-0.0.6.tar.gz
Collecting progressbar2>=3.20.0 (from chakin)
  Downloading https://files.pythonhosted.org/packages/4f/6f/acb2dd76f2c77527584bd3a4c2509782bb35c481c610521fc3656de5a9e0/progressbar2-3.38.0-py2.py3-none-any.whl
Collecting python-utils>=2.3.0 (from progressbar2>=3.20.0->chakin)
  Downloading https://files.pythonhosted.org/packages/eb/a0/19119d8b7c05be49baf6c593f11c432d571b70d805f2fe94c0585e55e4c8/python_utils-2.3.0-py2.py3-none-any.whl
Building wheels for collected packages: chakin
  Running setup.py bdist_wheel for chakin ... [?25l- done
[?25h  Stored in directory: /content/.cache/pip/wheels/0f/00/a8/306996e292c7a68d22e81d6350dc8adbb101b05163eb3b6915
Successfully built chakin
Installing collected packages: python-utils, progressbar2, chakin
Successfully installed chakin-0.0.6 progressbar2-3.38.0 python-utils-2.3.0
              

Test: 100% ||                                      | Time:  0:00:13  59.7 MiB/s


Archive:  glove.6B.zip
  inflating: glove.6B.50d.txt        
  inflating: glove.6B.100d.txt       
  inflating: glove.6B.200d.txt       
  inflating: glove.6B.300d.txt       
Collecting gensim
[?25l  Downloading https://files.pythonhosted.org/packages/33/33/df6cb7acdcec5677ed130f4800f67509d24dbec74a03c329fcbf6b0864f0/gensim-3.4.0-cp36-cp36m-manylinux1_x86_64.whl (22.6MB)
[K    100% |████████████████████████████████| 22.6MB 1.5MB/s 
Collecting smart-open>=1.2.1 (from gensim)
  Downloading https://files.pythonhosted.org/packages/4b/69/c92661a333f733510628f28b8282698b62cdead37291c8491f3271677c02/smart_open-1.5.7.tar.gz
Collecting boto>=2.32 (from smart-open>=1.2.1->gensim)
[?25l  Downloading https://files.pythonhosted.org/packages/bd/b7/a88a67002b1185ed9a8e8a6ef15266728c2361fcb4f1d02ea331e4c7741d/boto-2.48.0-py2.py3-none-any.whl (1.4MB)
[K    100% |████████████████████████████████| 1.4MB 14.3MB/s 
[?25hCollecting bz2file (from smart-open>=1.2.1->gensim)
  Downloading https://files.py

2018-06-18 19:58:11,854 - glove2word2vec - INFO - converting 400000 vectors from glove.6B.50d.txt to glove.6B.50d.v2w.txt
2018-06-18 19:58:12,713 - glove2word2vec - INFO - Converted model with 400000 vectors and 50 dimensions


In [18]:
from gensim.models import KeyedVectors
word_vectors = KeyedVectors.load_word2vec_format('glove.6B.50d.v2w.txt', binary=False)

glove_word2index = {w : i for i, w in enumerate(word_vectors.index2word)}

word_index = imdb.get_word_index()
word_index_rev = {word_index[x] : x for x in word_index}

embedding_matrix = 0.05 * np.random.randn(NUM_WORDS, EMB_DIM)

num_of_known_words = 0
for word in word_index:
  ind = word_index[word] + 3
  if ind < NUM_WORDS and word in glove_word2index:
    embedding_matrix[ind] = word_vectors.vectors[glove_word2index[word]]
    num_of_known_words += 1

print('Know', num_of_known_words, 'out of', NUM_WORDS)

Downloading data from https://s3.amazonaws.com/text-datasets/imdb_word_index.json
Know 9793 out of 10000


**Задание**: Постройте ту же самую модель, но уже с передачей весов в `Embedding`.

Обратите внимание на параметр `trainable`: во многих случаях дообучать эмбеддинги не нужно - для этого нужно передать `trainable=False`.

In [19]:
model = Sequential()


model.add(Embedding(input_dim=NUM_WORDS, 
                    output_dim=EMB_DIM, 
                    input_length=MAX_LEN,
                    weights=[embedding_matrix]))

model.add(Conv1D(filters=128, kernel_size=3, padding='valid', activation='relu', strides=1))
model.add(GlobalMaxPooling1D())

model.add(Dense(64, activation='relu'))
model.add(Dropout(0.2))

model.add(Dense(1, activation='sigmoid'))


model.compile(loss='binary_crossentropy',
              optimizer='adam',
              metrics=['accuracy'])

model.summary()

_________________________________________________________________
Layer (type)                 Output Shape              Param #   
embedding_2 (Embedding)      (None, 400, 50)           500000    
_________________________________________________________________
conv1d_2 (Conv1D)            (None, 398, 128)          19328     
_________________________________________________________________
global_max_pooling1d_2 (Glob (None, 128)               0         
_________________________________________________________________
dense_6 (Dense)              (None, 64)                8256      
_________________________________________________________________
dropout_2 (Dropout)          (None, 64)                0         
_________________________________________________________________
dense_7 (Dense)              (None, 1)                 65        
Total params: 527,649
Trainable params: 527,649
Non-trainable params: 0
_________________________________________________________________


In [20]:
model.fit(X_train_long, y_train,
          batch_size=32,
          epochs=5,
          validation_data=(X_test_long, y_test))

Train on 25000 samples, validate on 25000 samples
Epoch 1/5
Epoch 2/5
Epoch 3/5
 4896/25000 [====>.........................] - ETA: 8s - loss: 0.1738 - acc: 0.9310

Epoch 4/5
Epoch 5/5



<keras.callbacks.History at 0x7fbcf48a5f28>

### LSTM

Попробуем теперь использовать рекуррентную сеть.

Укоротим немного предложения для скорости:

In [0]:
MAX_LEN = 80

X_train_short = sequence.pad_sequences(X_train, maxlen=MAX_LEN)
X_test_short = sequence.pad_sequences(X_test, maxlen=MAX_LEN)

**Задание**: постройте модель с LSTM.
Первым должен так и идти слой эмбеддингов, а LSTM - применяться поверх него. Результатом будет последнее предсказание LSTM - с учётом всего контекста.

Интересные параметры LSTM:
`LSTM(units=?, dropout=0.0, recurrent_dropout=0.0, return_sequences=False)`

Попробуйте `units=64` и дропауты в районе 0.2.


In [22]:
from keras.layers import LSTM, Bidirectional

model = Sequential()


model.add(Embedding(input_dim=NUM_WORDS, 
                    output_dim=EMB_DIM, 
                    input_length=MAX_LEN,
                    weights=[embedding_matrix],
                    trainable=False))

model.add(LSTM(64, dropout=0.2, recurrent_dropout=0.2))
model.add(Dense(1, activation='sigmoid'))

model.compile(loss='binary_crossentropy',
              optimizer='adam',
              metrics=['accuracy'])

model.summary()

_________________________________________________________________
Layer (type)                 Output Shape              Param #   
embedding_3 (Embedding)      (None, 80, 50)            500000    
_________________________________________________________________
lstm_1 (LSTM)                (None, 64)                29440     
_________________________________________________________________
dense_8 (Dense)              (None, 1)                 65        
Total params: 529,505
Trainable params: 29,505
Non-trainable params: 500,000
_________________________________________________________________


In [23]:
model.fit(X_train_short, y_train,
          batch_size=32,
          epochs=15,
          validation_data=(X_test_short, y_test))

Train on 25000 samples, validate on 25000 samples
Epoch 1/15

Epoch 2/15

Epoch 3/15

Epoch 4/15

Epoch 5/15

Epoch 6/15

Epoch 7/15

Epoch 8/15

Epoch 9/15

Epoch 10/15

Epoch 11/15

Epoch 12/15

Epoch 13/15

Epoch 14/15

Epoch 15/15



<keras.callbacks.History at 0x7fbcf5c281d0>

### LSTM-CNN

Вообще говоря, LSTM выдает не одно состояние, а много (внимание на `return_sequences`). Почему бы не попробовать использовать их все?

**Задание**: реализуйте свертки и GlobalMaxPooling поверх выхода LSTM.

In [24]:
model = Sequential()


model.add(Embedding(input_dim=NUM_WORDS, 
                    output_dim=EMB_DIM, 
                    input_length=MAX_LEN,
                    weights=[embedding_matrix],
                    trainable=False))

model.add(LSTM(64, dropout=0.2, recurrent_dropout=0.2, return_sequences=True))

model.add(Conv1D(filters=128, kernel_size=3, padding='valid', activation='relu', strides=1))
model.add(GlobalMaxPooling1D())

model.add(Dense(64, activation='relu'))
model.add(Dropout(0.2))

model.add(Dense(1, activation='sigmoid'))

model.compile(loss='binary_crossentropy',
              optimizer='adam',
              metrics=['accuracy'])

model.summary()

_________________________________________________________________
Layer (type)                 Output Shape              Param #   
embedding_4 (Embedding)      (None, 80, 50)            500000    
_________________________________________________________________
lstm_2 (LSTM)                (None, 80, 64)            29440     
_________________________________________________________________
conv1d_3 (Conv1D)            (None, 78, 128)           24704     
_________________________________________________________________
global_max_pooling1d_3 (Glob (None, 128)               0         
_________________________________________________________________
dense_9 (Dense)              (None, 64)                8256      
_________________________________________________________________
dropout_3 (Dropout)          (None, 64)                0         
_________________________________________________________________
dense_10 (Dense)             (None, 1)                 65        
Total para

In [25]:
model.fit(X_train_short, y_train,
          batch_size=32,
          epochs=15,
          validation_data=(X_test_short, y_test))

Train on 25000 samples, validate on 25000 samples
Epoch 1/15

Epoch 2/15

Epoch 3/15

Epoch 4/15

Epoch 5/15

Epoch 6/15

Epoch 7/15

Epoch 8/15

Epoch 9/15

Epoch 10/15

Epoch 11/15

Epoch 12/15

Epoch 13/15

Epoch 14/15

Epoch 15/15



<keras.callbacks.History at 0x7fbcf5c52390>

## Functional API

Альтернативный (и более гибкий) вариант построения модели.

Говоря по-сложному: у каждого объекта типа Layer переопределен метод `__call__`: его можно вызывать и передавать некоторый входной тензор. Возвращаемое значение - результат применения трансформации, задаваемой этим слоем, к данному входу (опять же тензор).

А если по-простому - давайте построим ту же самую бессмысленную модель из самого начала ноутбука, но уже с новым апи.

In [0]:
from keras.models import Model
from keras.layers import Input

In [27]:
inputs = Input(shape=(100,))

hidden_layer = Dense(units=64, activation='relu')(inputs)
outputs = Dense(units=10, activation='softmax')(hidden_layer)

model = Model(inputs=inputs, outputs=outputs)

model.compile(loss='sparse_categorical_crossentropy',
              optimizer='sgd',
              metrics=['accuracy'])
model.summary()

_________________________________________________________________
Layer (type)                 Output Shape              Param #   
input_1 (InputLayer)         (None, 100)               0         
_________________________________________________________________
dense_11 (Dense)             (None, 64)                6464      
_________________________________________________________________
dense_12 (Dense)             (None, 10)                650       
Total params: 7,114
Trainable params: 7,114
Non-trainable params: 0
_________________________________________________________________


**Задание**: сделайте модель, которая применяет свертки с шириной окна 2 и 3 к imdb dataset'у.

Пригодится слой `concatenate` для объединения результатов разных типов сверток.

In [28]:
from keras.layers import concatenate

inputs = Input(shape=(MAX_LEN,))

embedding = Embedding(input_dim=NUM_WORDS, output_dim=EMB_DIM)(inputs)
conv1 = Conv1D(filters=64, kernel_size=2, padding='valid', activation='relu', strides=1)(embedding)
conv2 = Conv1D(filters=64, kernel_size=3, padding='valid', activation='relu', strides=1)(embedding)
g1 = GlobalMaxPooling1D()(conv1)
g2 = GlobalMaxPooling1D()(conv2)
conc = concatenate([g1, g2], axis=1)

dense = Dropout(0.2)(Dense(64, activation='relu')(conc))
classes = Dense(1, activation='sigmoid')(dense)
model = Model(inputs=inputs, outputs=classes)

model.compile(loss='binary_crossentropy',
              optimizer=Adam(),  # оптимизатор ещё и так можно передавать
              metrics=['accuracy'])

model.summary()

__________________________________________________________________________________________________
Layer (type)                    Output Shape         Param #     Connected to                     
input_2 (InputLayer)            (None, 80)           0                                            
__________________________________________________________________________________________________
embedding_5 (Embedding)         (None, 80, 50)       500000      input_2[0][0]                    
__________________________________________________________________________________________________
conv1d_4 (Conv1D)               (None, 79, 64)       6464        embedding_5[0][0]                
__________________________________________________________________________________________________
conv1d_5 (Conv1D)               (None, 78, 64)       9664        embedding_5[0][0]                
__________________________________________________________________________________________________
global_max

In [29]:
model.fit(X_train_short, y_train,
          batch_size=32,
          epochs=15,
          validation_data=(X_test_short, y_test))

Train on 25000 samples, validate on 25000 samples
Epoch 1/15
Epoch 2/15
Epoch 3/15

Epoch 4/15
Epoch 5/15

Epoch 6/15
Epoch 7/15

Epoch 8/15
Epoch 9/15

Epoch 10/15
Epoch 11/15

Epoch 12/15
Epoch 13/15

Epoch 14/15
Epoch 15/15



<keras.callbacks.History at 0x7fbbd69129e8>

## Multiclass Classification

Переходим к многоклассовой классификации: [keras: Reuters newswire topics classification](https://keras.io/datasets/#reuters-newswire-topics-classification).

У нас тут 11,228 новостей размеченных по 46 топикам.

In [30]:
from keras.datasets import reuters

NUM_WORDS = 10000

print('Loading data...')
(X_train, y_train), (X_test, y_test) = reuters.load_data(num_words=NUM_WORDS,
                                                         test_split=0.2)
print(len(X_train), 'train sequences')
print(len(X_test), 'test sequences')

num_classes = np.max(y_train) + 1
print(num_classes, 'classes')

print('Mean train example len:', np.mean([len(x) for x in X_train]))
print('Mean test example len:', np.mean([len(x) for x in X_test]))

Loading data...
Downloading data from https://s3.amazonaws.com/text-datasets/reuters.npz
8982 train sequences
2246 test sequences
46 classes
Mean train example len: 145.5398574927633
Mean test example len: 147.66117542297417


In [0]:
MAX_LEN = 150

X_train = sequence.pad_sequences(X_train, maxlen=MAX_LEN)
X_test = sequence.pad_sequences(X_test, maxlen=MAX_LEN)

**Задание**: Попробуйте обучить собственную сеть на этих данных.

Обратите внимание, что теперь уже многоклассовая классификация (вспоминаем про `sparse_categorical_crossentropy` и выходной слой с числом unit'ов, равным числу классов, и `softmax` активацией).

In [32]:
model = Sequential()

print(MAX_LEN)

model.add(Embedding(input_dim=NUM_WORDS, 
                    output_dim=EMB_DIM, 
                    input_length=MAX_LEN,
                    weights=[embedding_matrix]))

model.add(Conv1D(filters=128, kernel_size=3, padding='valid', activation='relu', strides=1))
model.add(GlobalMaxPooling1D())

model.add(Dense(64, activation='relu'))
model.add(Dropout(0.2))

model.add(Dense(num_classes, activation='softmax'))


model.compile(loss='sparse_categorical_crossentropy',
              optimizer='adam',
              metrics=['accuracy'])

model.summary()

150
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
embedding_6 (Embedding)      (None, 150, 50)           500000    
_________________________________________________________________
conv1d_6 (Conv1D)            (None, 148, 128)          19328     
_________________________________________________________________
global_max_pooling1d_6 (Glob (None, 128)               0         
_________________________________________________________________
dense_15 (Dense)             (None, 64)                8256      
_________________________________________________________________
dropout_5 (Dropout)          (None, 64)                0         
_________________________________________________________________
dense_16 (Dense)             (None, 46)                2990      
Total params: 530,574
Trainable params: 530,574
Non-trainable params: 0
_________________________________________________________________


In [33]:
model.fit(X_train, y_train,
          batch_size=32,
          epochs=15,
          validation_data=(X_test, y_test))

Train on 8982 samples, validate on 2246 samples
Epoch 1/15
Epoch 2/15
Epoch 3/15
Epoch 4/15
Epoch 5/15

Epoch 6/15
Epoch 7/15
Epoch 8/15
Epoch 9/15
Epoch 10/15

Epoch 11/15
Epoch 12/15
Epoch 13/15
Epoch 14/15
Epoch 15/15
1888/8982 [=====>........................] - ETA: 2s - loss: 0.2496 - acc: 0.9253



<keras.callbacks.History at 0x7fbbd503cb38>

## Классификация на уровне символов

Попробуем вернуться к imdb и предсказывать слова, используя их символьное представление.

In [34]:
NUM_WORDS = 50000

print('Loading data...')
(X_train, y_train), (X_test, y_test) = imdb.load_data(num_words=NUM_WORDS)
print(len(X_train), 'train sequences')
print(len(X_test), 'test sequences')

word_index = imdb.get_word_index()
word_index_rev = {word_index[x] : x for x in word_index}

Loading data...
25000 train sequences
25000 test sequences


Зададим отображение из символов в индексы.

In [0]:
from string import punctuation

def get_range(first_symb, last_symb):
  return set(chr(c) for c in range(ord(first_symb), ord(last_symb) + 1))

chars = get_range('a', 'z') | get_range('0', '9') | set(punctuation)
char_index = {c : i for i, c in enumerate(chars)}

def get_char_index(char, char_index):
  return char_index[char] if char in char_index else len(char_index)

Используя костыли, построим тензор, в котором на месте каждого элемента стоит последовательность его символов.

In [36]:
MAX_WORD_LEN = 15
MAX_LINE_LEN = 100

X_train = sequence.pad_sequences(X_train, maxlen=MAX_LINE_LEN)
X_test = sequence.pad_sequences(X_test, maxlen=MAX_LINE_LEN)

def build_chars_tensor(X):
  X_chars = np.zeros((len(X), MAX_LINE_LEN, MAX_WORD_LEN))
  for i, line in enumerate(X):
    for j, word_ind in enumerate(line):
      if word_ind >= 3:
        word = word_index_rev[word_ind]
        word = word if len(word) < MAX_WORD_LEN else word[-MAX_WORD_LEN:]
        X_chars[i, j, -len(word):] = [get_char_index(c, char_index) for c in word]
  return X_chars

X_chars_train = build_chars_tensor(X_train)
X_chars_test = build_chars_tensor(X_test)

print(X_chars_train.shape)

(25000, 100, 15)


*Какая размерность получится, если применить к этому тензору ещё и слой эмбеддингов?*

**Задание**: допишите код, попробуйте поклассифицировать с помощью него.

In [37]:
from keras.layers import TimeDistributed

def build_chars_layer(chars_count, char_emb_dim=20, lstm_dim=32, dropout_rate=.2):
  chars_embedding = Embedding(chars_count, char_emb_dim, name='char_embeddings')
  chars_lstm = TimeDistributed(Bidirectional(
      LSTM(lstm_dim, dropout=dropout_rate, recurrent_dropout=dropout_rate, name='char_LSTM')))
  
  def process_input(inp):
    res = chars_embedding(inp)
    return chars_lstm(res)
  return process_input
  
chars = Input(shape=(None, MAX_WORD_LEN), name='chars')

chars_level_embedding = build_chars_layer(chars_count = len(char_index) + 1)
chars_output = chars_level_embedding(chars)

lstm = LSTM(64, dropout=0.2, recurrent_dropout=0.2)(chars_output)
outputs = Dense(1, activation='sigmoid')(lstm)


model = Model(inputs=chars, outputs=outputs)

model.compile(loss='binary_crossentropy',
              optimizer='adam',
              metrics=['accuracy'])

model.summary()

_________________________________________________________________
Layer (type)                 Output Shape              Param #   
chars (InputLayer)           (None, None, 15)          0         
_________________________________________________________________
char_embeddings (Embedding)  (None, None, 15, 20)      1380      
_________________________________________________________________
time_distributed_1 (TimeDist (None, None, 64)          13568     
_________________________________________________________________
lstm_3 (LSTM)                (None, 64)                33024     
_________________________________________________________________
dense_17 (Dense)             (None, 1)                 65        
Total params: 48,037
Trainable params: 48,037
Non-trainable params: 0
_________________________________________________________________


In [39]:
model.fit(X_chars_train, y_train,
          batch_size=32,
          epochs=15,
          validation_data=(X_chars_test, y_test))

Train on 25000 samples, validate on 25000 samples
Epoch 1/15

Epoch 2/15

Epoch 3/15

Epoch 4/15

Epoch 5/15

Epoch 6/15

Epoch 7/15

Epoch 8/15

Epoch 9/15

Epoch 10/15

Epoch 11/15

Epoch 12/15

Epoch 13/15

Epoch 14/15

Epoch 15/15



<keras.callbacks.History at 0x7fbbc7a0d1d0>