In [1]:
import matplotlib.pyplot as plt
import numpy as np

from tensorflow.keras.datasets import fashion_mnist
from tensorflow.keras.models import Sequential, Model
from tensorflow.keras.layers import Conv2D, Input, Flatten, Dense
from tensorflow.keras.losses import categorical_crossentropy
from tensorflow.keras.utils import to_categorical
from tensorflow.keras.layers import GlobalMaxPooling2D, MaxPooling2D, AveragePooling2D, GlobalAveragePooling2D 

In [2]:
(train_images,train_labels),(test_images,test_labels)=fashion_mnist.load_data()

# Normalize the images.
train_images = (train_images / 255)*2-1
test_images = (test_images / 255)*2-1

# Flatten the images.
train_images = train_images#.reshape((-1, 28*28))
test_images = test_images#.reshape((-1, 28*28))

print(train_images.shape)
print(test_images.shape) 

Downloading data from https://storage.googleapis.com/tensorflow/tf-keras-datasets/train-labels-idx1-ubyte.gz
Downloading data from https://storage.googleapis.com/tensorflow/tf-keras-datasets/train-images-idx3-ubyte.gz
Downloading data from https://storage.googleapis.com/tensorflow/tf-keras-datasets/t10k-labels-idx1-ubyte.gz
Downloading data from https://storage.googleapis.com/tensorflow/tf-keras-datasets/t10k-images-idx3-ubyte.gz
(60000, 28, 28)
(10000, 28, 28)


In [3]:
# трансформация лейблов в one-hot encoding
train_labels = to_categorical(train_labels, 10) 
test_labels = to_categorical(test_labels, 10) 

# изменение размерности массива в 4D массив
train_images = train_images.reshape(train_images.shape[0], 28,28,1)
test_images = test_images.reshape(test_images.shape[0], 28,28,1)

print(train_images.shape) 
print(test_images.shape)  
print()
print(train_labels.shape) 
print(test_labels.shape)  

(60000, 28, 28, 1)
(10000, 28, 28, 1)

(60000, 10)
(10000, 10)


# Анализ влияния ширины сети


In [52]:
def models_width(filters_1, filters_2, epochs=5):
    model = Sequential()
    
    # первый сверточный слой
    model.add(Conv2D(filters_1, kernel_size=(5, 5), strides=(1, 1), activation='sigmoid', input_shape=(28,28,1), padding="same"))
    
    # второй пуллинговый слой
    model.add(MaxPooling2D(pool_size=(3, 3), strides=(1, 1), padding='valid'))
    
    # пятый сверточный слой
    model.add(Conv2D(filters_2, kernel_size=(5, 5), strides=(1, 1), activation='sigmoid', padding='valid'))
    
    # сглаживание CNN выхода чтобы можно было его присоединить к полносвязногому слою
    model.add(Flatten())
    
    # шестой полносвязный слой
    model.add(Dense(80, activation='sigmoid'))
    
    # выходной слой с функцией активации softmax
    model.add(Dense(10, activation='softmax'))    
    
    # компилияция модели
    model.compile(loss=categorical_crossentropy, optimizer='adam', metrics=["accuracy"])    
    
    hist = model.fit(x=train_images,
                     y=train_labels, 
                     epochs=epochs, 
                     batch_size=128, 
                     validation_data=(test_images, test_labels), 
                     verbose=1)
    
    test_score = model.evaluate(test_images, test_labels)
    
    print("Test loss {:.4f}, accuracy {:.2f}%".format(test_score[0], test_score[1] * 100))

In [67]:
models_width(2, 4, epochs=20)

Epoch 1/20
Epoch 2/20
Epoch 3/20
Epoch 4/20
Epoch 5/20
Epoch 6/20
Epoch 7/20
Epoch 8/20
Epoch 9/20
Epoch 10/20
Epoch 11/20
Epoch 12/20
Epoch 13/20
Epoch 14/20
Epoch 15/20
Epoch 16/20
Epoch 17/20
Epoch 18/20
Epoch 19/20
Epoch 20/20
Test loss 0.3040, accuracy 88.80%


In [66]:
models_width(5, 10, epochs=20)

Epoch 1/20
Epoch 2/20
Epoch 3/20
Epoch 4/20
Epoch 5/20
Epoch 6/20
Epoch 7/20
Epoch 8/20
Epoch 9/20
Epoch 10/20
Epoch 11/20
Epoch 12/20
Epoch 13/20
Epoch 14/20
Epoch 15/20
Epoch 16/20
Epoch 17/20
Epoch 18/20
Epoch 19/20
Epoch 20/20
Test loss 0.2655, accuracy 90.20%


In [64]:
models_width(8, 16, epochs=20)

Epoch 1/20
Epoch 2/20
Epoch 3/20
Epoch 4/20
Epoch 5/20
Epoch 6/20
Epoch 7/20
Epoch 8/20
Epoch 9/20
Epoch 10/20
Epoch 11/20
Epoch 12/20
Epoch 13/20
Epoch 14/20
Epoch 15/20
Epoch 16/20
Epoch 17/20
Epoch 18/20
Epoch 19/20
Epoch 20/20
Test loss 0.2645, accuracy 90.77%


In [71]:
models_width(10, 20, epochs=20)

Epoch 1/20
Epoch 2/20
Epoch 3/20
Epoch 4/20
Epoch 5/20
Epoch 6/20
Epoch 7/20
Epoch 8/20
Epoch 9/20
Epoch 10/20
Epoch 11/20
Epoch 12/20
Epoch 13/20
Epoch 14/20
Epoch 15/20
Epoch 16/20
Epoch 17/20
Epoch 18/20
Epoch 19/20
Epoch 20/20
Test loss 0.2646, accuracy 90.53%


In [68]:
models_width(15, 30, epochs=20)

Epoch 1/20
Epoch 2/20
Epoch 3/20
Epoch 4/20
Epoch 5/20
Epoch 6/20
Epoch 7/20
Epoch 8/20
Epoch 9/20
Epoch 10/20
Epoch 11/20
Epoch 12/20
Epoch 13/20
Epoch 14/20
Epoch 15/20
Epoch 16/20
Epoch 17/20
Epoch 18/20
Epoch 19/20
Epoch 20/20
Test loss 2.3041, accuracy 10.00%


### РЕЗУЛЬТАТЫ:

Модель: сверточный слой - пулинг - сверотчный слой - полносвязный - выходной.

20 эпох достаточно, чтобы на всех моделях точность на валидации выходила на aсимптоту.

Рассматривалось влияние количества ядер на сверточных слоях.

* Ядер 2 и 4:   accuracy 88.80%
* Ядер 5 и 10:  accuracy 90.20%
* Ядер 8 и 16:  accuracy 90.77%

* На следующих настройках обучение ссети нестабильно, сеть начала обучаться 
после нескольких попыток перезапуска:
Ядер 10 и 20: accuracy 90.53%

* На следующих настройках сеть перестает обучаться:
Ядер 15 и 30: accuracy 10.00%

### ВЫВОД:
увеличение количества ядер может приводить к росту точности, но в какой-то 
момент начинается нестабильность обучения, увеличивается вероятность того, что сеть не сможет обучиться и в конечном счете совсем перестает обучаться

# Анализ глубины сети

In [77]:
def model_layers(n):
    # инициализация пустой модели
    model = Sequential()
    
    for _ in range(n):
        model.add(Conv2D(6, kernel_size=(5, 5), strides=(1, 1), activation='sigmoid', input_shape=(28,28,1), padding="same"))    
        model.add(AveragePooling2D(pool_size=(3, 3), strides=(1, 1), padding='valid'))
        model.add(Conv2D(6, kernel_size=(5, 5), strides=(1, 1), activation='sigmoid', padding='valid'))
    
    # сглаживание CNN выхода чтобы можно было его присоединить к полносвязногому слою
    model.add(Flatten())    
    # шестой полносвязный слой
    model.add(Dense(84, activation='sigmoid'))    
    # выходной слой с функцией активации softmax
    model.add(Dense(10, activation='softmax'))    
    # компилияция модели
    model.compile(loss=categorical_crossentropy, optimizer='adam', metrics=["accuracy"])      
    hist = model.fit(x=train_images,
                     y=train_labels, 
                     epochs=20, 
                     batch_size=128, 
                     validation_data=(test_images, test_labels), 
                     verbose=1)    
    test_score = model.evaluate(test_images, test_labels)    
    print("Test loss {:.4f}, accuracy {:.2f}%".format(test_score[0], test_score[1] * 100))

In [78]:
model_layers(1)

Epoch 1/20
Epoch 2/20
Epoch 3/20
Epoch 4/20
Epoch 5/20
Epoch 6/20
Epoch 7/20
Epoch 8/20
Epoch 9/20
Epoch 10/20
Epoch 11/20
Epoch 12/20
Epoch 13/20
Epoch 14/20
Epoch 15/20
Epoch 16/20
Epoch 17/20
Epoch 18/20
Epoch 19/20
Epoch 20/20
Test loss 0.3095, accuracy 89.03%


In [79]:
model_layers(2)

Epoch 1/20
Epoch 2/20
Epoch 3/20
Epoch 4/20
Epoch 5/20
Epoch 6/20
Epoch 7/20
Epoch 8/20
Epoch 9/20
Epoch 10/20
Epoch 11/20
Epoch 12/20
Epoch 13/20
Epoch 14/20
Epoch 15/20
Epoch 16/20
Epoch 17/20
Epoch 18/20
Epoch 19/20
Epoch 20/20
Test loss 0.3794, accuracy 86.20%


In [80]:
model_layers(3)

Epoch 1/20
Epoch 2/20
Epoch 3/20
Epoch 4/20
Epoch 5/20
Epoch 6/20
Epoch 7/20
Epoch 8/20
Epoch 9/20
Epoch 10/20
Epoch 11/20
Epoch 12/20
Epoch 13/20
Epoch 14/20
Epoch 15/20
Epoch 16/20
Epoch 17/20
Epoch 18/20
Epoch 19/20
Epoch 20/20
Test loss 0.4289, accuracy 84.24%


In [81]:
model_layers(4)

Epoch 1/20
Epoch 2/20
Epoch 3/20
Epoch 4/20
Epoch 5/20
Epoch 6/20
Epoch 7/20
Epoch 8/20
Epoch 9/20
Epoch 10/20
Epoch 11/20
Epoch 12/20
Epoch 13/20
Epoch 14/20
Epoch 15/20
Epoch 16/20
Epoch 17/20
Epoch 18/20
Epoch 19/20
Epoch 20/20
Test loss 0.6201, accuracy 76.16%


### Результаты:

Первая модель: сверточный слой - пулинг - сверотчный слой - полносвязный - выходной.

Для каждой новой модели добавляются дополнительно по 2 слоя - пулинг и сверточный перед полносвязыным. Все сверотчные и пулинг слои одинаковы по настройкам.

* модель 1 (2 сверотчных и 1 пулинг) accuracy 89.03%
* модель 2 (3 сверотчных и 2 пулинг) accuracy 86.20%
* модель 3 (4 сверотчных и 3 пулинг) accuracy 84.24%
* модель 4 (5 сверотчных и 4 пулинг) accuracy 76.16% 

### Вывод 
простое добавление идентичных слоев уменьшает точность модели

# Общий вывод
Для оптимальной модели необоходимо строить архитектуру сети: подбирать оптимальное количство слоев и оптимальное количество ядер в каждом слое