**3. Сверточная нейронная сеть**

In [52]:
import numpy as np
import matplotlib.pyplot as plt
from tensorflow.keras.datasets import fashion_mnist   
from keras.models import Sequential
from keras.utils import np_utils
from keras.layers.core import Activation
from keras.callbacks import TensorBoard
from tensorflow.keras.layers import Dense, Flatten, Dropout, Conv2D, MaxPooling2D
 
(x_train, y_train), (x_test, y_test) = fashion_mnist.load_data()
 
# Стандартизируем входные данные
x_train = x_train / 255
x_test = x_test / 255
 
# Преобразовываем векторы классов в бинарные матрицы классов 
y_train = np_utils.to_categorical(y_train, 10)
y_test = np_utils.to_categorical(y_test, 10)

# Добавляем еще одно измерение (одну ось) для цветовой компоненты
x_train = np.expand_dims(x_train, axis=3)
x_test = np.expand_dims(x_test, axis=3)

# Строим модель
model = Sequential()
model.add(Conv2D(32, (3,3), padding='same', activation='relu', input_shape=(28, 28, 1)))
model.add(MaxPooling2D((2, 2)))
model.add(Flatten())
model.add(Dense(128, activation='relu'))
model.add(Dense(10,  activation='softmax'))
model.summary()

Model: "sequential_23"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 conv2d_62 (Conv2D)          (None, 28, 28, 32)        320       
                                                                 
 max_pooling2d_58 (MaxPoolin  (None, 14, 14, 32)       0         
 g2D)                                                            
                                                                 
 flatten_18 (Flatten)        (None, 6272)              0         
                                                                 
 dense_36 (Dense)            (None, 128)               802944    
                                                                 
 dense_37 (Dense)            (None, 10)                1290      
                                                                 
Total params: 804,554
Trainable params: 804,554
Non-trainable params: 0
_______________________________________________

In [53]:
# Компилируем модель
model.compile(optimizer='adam',
             loss='categorical_crossentropy',
             metrics=['accuracy'])

# Подключаем модуль для построения графиков качества модели на валидационной и тренировочной выборке от количества эпох
tensorboard = TensorBoard(log_dir='./logs', histogram_freq=0,
                          write_graph=True, write_images=False)

# Обучаем модель 
model.fit(x_train, y_train, batch_size=32, epochs=5, validation_split=0.2, callbacks=[tensorboard])

Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5


<keras.callbacks.History at 0x7f6ca001fe50>

In [54]:
# Проверяем качество на тестовых данных
model.evaluate(x_test, y_test)



[0.2712896764278412, 0.910099983215332]

In [None]:
# Строим графики качества модели на валидационной и тренировочной выборке от количества эпох
%load_ext tensorboard
%tensorboard --logdir logs

**Вывод:**

Качество классификации по accuracy составило 94.19% на тренировочной выборке и 90.96% на тестовой. Данный результат выше почти на 4% по сравнению с полносвязанной нейронной сетью. К тому же, количество итераций уменьшилось в 10 раз. С 50 до 5.

**Добавляем +2 сверточных слоя**

In [None]:
from tensorflow.python.keras.layers.core import Activation
# Строим модель
model = Sequential()
model.add(Conv2D(32, (3,3), padding='same', input_shape=(28, 28, 1)))
model.add(Activation('relu'))
model.add(MaxPooling2D((2, 2)))
model.add(Conv2D(64, (3,3), padding='same'))
model.add(Activation('relu'))
model.add(MaxPooling2D((2, 2)))
model.add(Conv2D(128, (3,3), padding='same'))
model.add(Activation('relu'))
model.add(MaxPooling2D((2, 2)))
model.add(Flatten())
model.add(Dense(512))
model.add(Activation('relu'))
model.add(Dense(10))
model.add(Activation('softmax'))
model.summary()


In [40]:
# Компилируем модель
model.compile(optimizer='adam',
             loss='categorical_crossentropy',
             metrics=['accuracy'])

# Обучаем модель 
model.fit(x_train, y_train, batch_size=32, epochs=5, validation_split=0.2,)

Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5


<keras.callbacks.History at 0x7f6cae3ae5d0>

In [41]:
# Проверяем качество на тестовых данных
model.evaluate(x_test, y_test)



[0.24665500223636627, 0.9110000133514404]

**Вывод**

Как видим - добавление 2 дополнительных сверточных слоев повысило качество классификкации модели, но не сильно: не более чем на 1%

**Добавляем Batch Normalization**

In [None]:
from tensorflow.python.keras.layers import BatchNormalization
# Строим модель
model = Sequential()
model.add(Conv2D(32, (3,3), padding='same', input_shape=(28, 28, 1)))
BatchNormalization()
model.add(Activation('relu'))
model.add(MaxPooling2D((2, 2)))
model.add(Conv2D(64, (3,3), padding='same'))
BatchNormalization()
model.add(Activation('relu'))
model.add(MaxPooling2D((2, 2)))
model.add(Conv2D(128, (3,3), padding='same'))
BatchNormalization()
model.add(Activation('relu'))
model.add(MaxPooling2D((2, 2)))
model.add(Flatten())
model.add(Dense(512))
BatchNormalization()
model.add(Activation('relu'))
model.add(Dense(10))
BatchNormalization()
model.add(Activation('softmax'))
model.summary()

In [47]:
# Компилируем модель
model.compile(optimizer='adam',
             loss='categorical_crossentropy',
             metrics=['accuracy'])

# Обучаем модель 
model.fit(x_train, y_train, batch_size=32, epochs=5, validation_split=0.2)

Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5


<keras.callbacks.History at 0x7f6ca0c48ad0>

In [48]:
# Проверяем качество на тестовых данных
model.evaluate(x_test, y_test)



[0.2565687894821167, 0.9124000072479248]

**Вывод**

Использование BatchNormalization повысило качество работы сверточной нейросети, но не очень сильно. Это объясняется тем, что с увеличением количества сверточных слоев - модель переусложняется и качество работы растет незначительно.
*******************************************************************************

Если сравнивать сверточную сеть с полносвязанной, то работа сверточной сети на настоящих данных дает заметно лучший результат. Это объясняется тем, что сверточные сети гораздо лучше работают в области распознавания изображений