In [1]:
# Введение. Нейронные сети

В машинном обучении особое место занимают нейронные сети. Как можно догадаться из названия, нейронная сеть была создана на основе нейронов в мозгу человека.

Нейронные сети хорошо себя зарекомендовали в анализе изображений, так называемое компьютерное зрение. Они хороши в:
* Классификации - отделении среди всех картинок заранее распределенных групп, например, деление на кошек и собак.
* Предсказание — возможность предсказывать следующий шаг. Например, рост или падение акций, основываясь на ситуации на фондовом рынке.
* Распознавание — самым простым примером является распознавание вашего лица камерой телефона.

Нейронные сети имеют свои плюсы:
1. Устойчивость к шумам входных данных
2. Адаптация к изменениям при обучении
3. Быстродействие

Однако нейронные сети редко дают точные ответы и являются лишь дополнением к решениям человека. Например, в медицине нейронные сети используются для анализа медицинских изображений, однако чаще всего не дают точного диагноза, а всего лишь предсказывают вероятность того или иного заболевания.

## Строение нейронной сети

Нейрон похож на функцию: он принимает на вход несколько значений и возвращает одно. Важно помнить, что нейроны оперируют числами в диапазоне [0,1] или [-1,1], а числа, выходящие за этот диапозон, необходимо нормализовать.


Ниже представлена схема работы искуссвенного нейрона.

У нейрона есть $n$ входов $x_i$, у каждого из которого есть вес $w_i$, на который умножается сигнал, проходящий по связи. После этого взвешенные сигналы $x_i*w_i$ направляются в сумматор, который аггрегирует все сигналы во взвешенную сумму. Эту сумму также называют net. Таким образом, $
net=\sum\limits_{i=1}^n w_i*x_i$.

Далее к полученной сумме применяют функцию активации, которая преобразует взвешенную сумму в какое-то число, которое и будет являться выходом нейрона. Функция активации обозначается ϕ(net). Таким образом, выходов искусственного нейрона является ϕ(net).

In [2]:
from IPython.display import Image 
from IPython.core.display import HTML 
Image(url= "http://neerc.ifmo.ru/wiki/images/a/a5/Искусственный_нейрон_схема.png", width=500)

Если вы объедините эти нейроны, то получите прямо распространяющуюся нейронную сеть — процесс идёт от ввода к выводу, через нейроны, соединённые связями с значениями весов (синапсами). От веса зависит степень важности признака $x_i$, которая меняется в процессе обучения. Во время инициализации нейронной сети, веса расставляются в случайном порядке. 

Для обучения сети в прямо распространяющейся нейронной сети вы проходите все нейроны до выходного слоя, а затем сеть подстраивает веса $w_i$ с помощью метода обратного распространения ошибки.

В нейронной сети есть два обязательных слоя: входной и выходной, а слои посередине называются скрытыми.

Количество нейронов в выходном слое зависит от задачи. Например, в случае классификации количество выходных нейронов равно тому количеству классов, на которые делится выборка изображений.

In [3]:
Image(url= "https://cdn.tproger.ru/wp-content/uploads/2016/08/15GSpUs2hWFx4Lq2_KCyulg.png", width=400)

## Функции активации

Поговорим о функциях активации. По сути, это всего лишь некоторая функция, которая применяется к после сумматора, для получения нужного ответа. Их много, например, Линейная, Сигмоид (Логистическая),Гиперболический тангенс. В данной лабораторной мы применим две функции, ReLU(Rectified linear unit) и Softmax, однако подробно рассматривать их не будем.

В случае ReLU $f(x) = max(0,x)$. Пользуясь определением, становится понятно, что ReLu возвращает значение х, если х положительно, и 0 в противном случае.

Функция Softmax применяется в машинном обучении для задач классификации, когда количество возможных классов больше двух, и обычно на выходном слое. Сумма всех выходных сигналов при этом равна 1 (то есть каждое значение это вероятность принадлежности данного изображения к классу).



## Валидационная выборка

Отметим еще один важный момент. В прошлых лабораторных мы делили наш датсет на обучающую и тестовую выборку. Однако сегодя мы рассмотрим еще одну выборку, на которую можно делить датасет. Это так называемая валидационная выборка (validation или иногда development set).

Тогда датасет делится на:
* Обучающую выборку, на которой запускается алгоритм обучения;
* Валидационную, которая используется для настройки параметров, выбора признаков и принятия других решений относительно алгоритма обучения, иногда такую выборку называют удерживаемой для перёкрестной проверки (hold-out cross validation set);
* Тестовую, на которой оценивают качество работы алгоритма, но на её основе не принимают никаких решений о том, какой алгоритм обучения или параметры использовать.

#Основные шаги по выполнению лабораторной работы

##1. Импортируем необходимые библиотеки

В данной лабораторной работе мы будем использовать библиотеку Tensorflow. TensorFlow — открытая программная библиотека для машинного обучения, разработанная компанией Google для решения задач построения и тренировки нейронной сети с целью автоматического нахождения и классификации образов, достигая качества человеческого восприятия.

Для работы с сетями глубокого обучения мы будем использовать нейросетевую библиотеку Keras, являющуюся надстройкой над Tensorflow.

В Keras уже есть встроенные датасеты, например, fashion_mnist и мы воспользуемся им для построения нейронной сети. Также нам понабится уже знакомая библиотека numpy и matplotlib для отрисовки графиков.



In [4]:
from tensorflow.keras.datasets import fashion_mnist
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Dropout
from tensorflow.keras import utils
from tensorflow.keras.preprocessing import image
import numpy as np
import matplotlib.pyplot as plt
from PIL import Image
%matplotlib inline 

ModuleNotFoundError: No module named 'tensorflow'

##2. Подготовка данных

Мы будем работать с датасетом fashion_mnist, представляющим собой набор картинок одежды, обуви или сумок.

Разделим датасет на обучающую и тестовую выборки.

In [None]:
(X_train, y_train), (X_test,y_test) = fashion_mnist.load_data()

И создадим список с названиями классов:

In [None]:
classes = ['футболка', 'брюки', 'свитер', 'платье', 'пальто', 'туфли', 'рубашка', 'кроссовки', 'сумка', 'ботинки']

Так как мы работаем с изображениями, а не с числами, следует понять, как они представлены в компьютере. Наши изображения на самом деле являются набором точек разного цвета. Более научно - двумерными массивами, содрежащими числа, которые харктеризуют интенсивность пикселя для черно-белого изображения. В таком случае значение 0 будет значить черный пиксель, а 255 белый. Позже мы нормализуем эти значения, чтобы они были от нуля до единицы.

Посмотрим картинки из нашего набора данных:

In [None]:
plt.figure(figsize=(20,5))
for i in range(1,21):
    plt.subplot(2,10,i)
    plt.imshow(X_train[i], cmap=plt.cm.binary)
    plt.xlabel(classes[y_train[i]])

Нейронная сеть принимает на вход плоский вектор, а не двумерные изображения, которые имеются в fashion_mnist. Так что мы преобразуем размерность наших данных:


In [None]:
X_train = X_train.reshape(60000, 784) # 60000 изображений по 784 пикселя в каждом
X_test = X_test.reshape(10000, 784)

Дальше мы нормализуем данные. Нормализация данных необходима, чтобы в своих результатах не зависить от величин переменных, а только от их соотношения. Здесь мы используем деление на 255 для приведения значения пикселей в диапозон от 0 до 1.

In [None]:
X_train = X_train / 255 
X_test = X_test / 255 

Входные данные мы подготовили, теперь давайте поговорим о выходных. Наша задача, чтобы при подачи картинки в нейронную сеть, она смогла сказать нам, является ли эта вещь футболкой, обувью, сумкой и т.д. Предсказания нашей нейронной сети записаны с помощью списка из 10 классов, где все значения равны 0, кроме предсказанного класса, равного 1. Это называется подход one hot encoding.

То есть если картинка была определена как футболка (1 в списке classes), то программа выдаст [1, 0, 0, 0, 0, 0, 0, 0, 0, 0]. 

А если как рубашка (7 в списке classes), то [0, 0, 0, 0, 0, 0, 1, 0, 0, 0].

С помощью следующего кода мы превратим наш y_train и y_test в такие же массивы, понятные нейронной сети. И сравним y_train до и после.


In [None]:
y_train[0]

In [None]:
y_train = utils.to_categorical(y_train, 10)
y_test = utils.to_categorical(y_test, 10)

In [None]:
y_train[0]

##3. Создание нейронной сети

При создании нейронной сети мы будем использовать модель Sequental из библиотеки Keras, в которой все слои сети идут последовательно друг за другом.

Объявим модель:

In [None]:
model = Sequential()

И создадим два полносвязных слоя: входной и выходной.

Входным слоем является тот, который принимает наши данные. Зададим здесь количество нейронов (800), количество пикселей (784 или для сети 784 входа в каждый нейрон) и активационную функцию (ReLU).

На выходном слое мы укажем количество классов, которые получатся при предсказании (10) и и активационную функцию (Softmax).

In [None]:
model.add(Dense(800, input_dim=784, activation="relu"))
model.add(Dense(10, activation="softmax"))

Далее мы скомпилируем нашу модель и посмотрим на ее описание.

Здесь мы используем функцию ошибки категориальная перекрестная энтропия (вместо метода наименьших квадратов),  стохастический градиентный спуск (SGD) в качестве оптимизатора и точность в метрике.

In [None]:
model.compile(loss="categorical_crossentropy", optimizer="SGD", metrics=["accuracy"])
model.summary()

##4. Обучение нейронной сети

Теперь обучим сети с помощью метода fit. Здесь же мы задаем некоторые параметры при обучении:

* batch_size - размер мини-выборки для стохастического градиентного спуска. Мы берем batch_size изображений, прогоняем через сеть, меняем веса и повторяем процедуру.
* epochs - количество эпох, то есть сколько раз мы будем обучаться на полном наборе данных
* validation_split - деление нашей обучающей выборки на обучающую и валидационную
* verbose - отвечает за подробность изображения отчета при обучении (0, 1 или 2)

В выводе обучения мы можем увидеть информацию по каждой эпохе: количество использованных изображений, время выполнения, функция ошибки и точность (доля правильных ответов), а также последние два параметра для валидационной выборки.

In [None]:
model.fit(X_train, y_train, batch_size=200, epochs=100, validation_split=0.2, verbose=1)

Обученную сеть так же можно сохранить для дальнейшего использоавния, чтобы не тратить постоянно время на обучение:

In [None]:
model.save('fashion_mnist_dense.h5')

Тогда загрузить ее можно таким образом:

In [None]:
from tensorflow.keras.models import load_model
new_model = load_model('fashion_mnist_dense.h5')

##5. Оценка качества обучения

Для начала посмотрим на значения val_acc  в выводе выше. Можно заметить, что в начале обучения точность растет, но к концу начинает то подниматься, то опускаться (97-100 эпохи).  Это один из явных признаков переобучения.
Еще если val_loss ошибка увеличивается, а loss уменьшается, это также говорит о переобучении.

Также давайте используем наш тестовый датасет для предсказания и выведем точность (здесь выводится самый простой вариант определения точности, однако не самый лучший):

In [None]:
scores = model.evaluate(X_test, y_test, verbose=1)

In [None]:
print("Доля верных ответов на тестовых данных, в процентах:", round(scores[1] * 100, 4))

Вы можете загружать собственные картинки в нейронную сеть, но посмотрим для примера распознавание одной картинки из тестового датасета (например 354ой):

In [None]:
plt.imshow(X_test[354].reshape(28, 28), cmap=plt.cm.binary)
plt.show()

Предскажем класс изображения, передав в predict 354ую картинку из тестового набора X, с преобразованной размерностью (np.expand_dims)

In [None]:
prediction = model.predict(np.expand_dims(X_test[354], axis=0))

In [None]:
prediction

Выведем предсказанный класс и реальный класс:

In [None]:
prediction = np.argmax(prediction[0])
print("Это изображение предсказано как", prediction, "класс, то есть это", classes[prediction])


In [None]:
label = np.argmax(y_test[354])
print("Это изображение является", label, "классом, то есть это",  classes[label])

##6. Увеличение качества обучения

Для увеличения точности работы нейронной сети можно изменять ее параметры.
Основыными параметрами для изменения являются:
1. Количество эпох обучения.
2. Размер мини-выборки.
3. Количество нейронов входного слоя.
4. Наличие скрытых слоев.

### Количество эпох обучения и размер мини выборки

Данные параметры задаются при обучении модели.


In [None]:
history = model.fit(x_train, y_train, 
                    batch_size=200,        # Размер мини-выборки
                    epochs=100,            # Количество эпох
                    validation_split=0.2, 
                    verbose=1)

### Количество нейронов входного слоя

Количество нейронов задается при создании входного слоя. Здесь оно 200.

In [None]:
model.add(Dense(200, input_dim=784, activation="relu"))

### Наличие скрытых слоев

Скрытыми слоями называются слои, находящиеся между входным и выходным. Они добавляются в последовательную модель, как и входной и выходной слой.

In [None]:
model.add(Dense(800, input_dim=784, activation="relu"))
model.add(Dense(600, activation="relu"))  # Новый скрытый слой
model.add(Dense(10, activation="softmax"))

#Задание

Возьмите созданную нейронную сеть, датасет fashion-mnist и попытайтесь улучшить точность обучения. Варианты для улучшения:
1. Используйте разное количество нейронов на входном слое: 400, 600, 800, 1200.
2. Добавьте в нейронную сеть скрытый слой с разным количеством нейронов: 200, 300, 400, 600, 800.
3. Добавьте несколько скрытых слоев в сеть с разным количеством нейронов в каждом слое.
4. Используйте разное количество эпох: 10, 15, 20, 25, 30.
5. Используйте разные размеры мини-выборки (batch_size): 10, 50, 100, 200, 500.

Опишите влияние (или его отсутствие) на точность работы вашей нейронной сети измененяемых параметров.

Сохраните два варианта сети, при котором точность нейронной сети минимальна и максимальна, выведите точность и сделайте вывод о переобучении. Необходимо менять не менее трех параметров (то есть использовать не менее трех вариантов из списка выше). 
