## 2.1. ПЕРВОЕ ЗНАКОМСТВО С НЕЙРОННОЙ СЕТЬЮ

Данные, хранящиеся в многомерных массивах NumPy, называются **тензорами**. Вообще, все современные системы машинного обучения используют тензоры в качестве основной структуры данных. Тензоры являются фундаментальной структурой данных — настолько фундаментальной, что это отразилось на названии библиотеки Google TensorFlow.

Фактически тензор — это контейнер для данных, обычно числовых. Проще говоря, контейнер для чисел. Возможно, вы уже знакомы с матрицами, которые являются двумерными тензорами: тензоры — это обобщение матриц с произвольным количеством измерений.

In [6]:
# Загрузка набора данных MNIST в Keras
from tensorflow.keras.datasets import mnist

In [7]:
(train_images, train_labels), (test_images, test_labels) = mnist.load_data()

'''
train_images и train_labels — это обучающий набор, то есть данные, на которых модель обучается.
После обучения модель будет проверяться тестовым (или контрольным) набором, test_images и test_labels.
'''

'\ntrain_images и train_labels — это обучающий набор, то есть данные, на которых модель обучается.\nПосле обучения модель будет проверяться тестовым (или контрольным) набором, test_images и test_labels.\n'

Изображения хранятся в массивах NumPy, а метки — в массиве цифр от 0 до 9. Изображения и метки находятся в прямом соответствии, один к одному.

In [9]:
train_images.shape

(60000, 28, 28)

In [10]:
train_labels.shape

(60000,)

In [11]:
test_images.shape

(10000, 28, 28)

In [13]:
test_labels.shape[0]

10000

## 2.2. Архитектура сети

In [14]:
from tensorflow import keras
from tensorflow.keras import layers

In [15]:
model = keras.Sequential([
    layers.Dense(512, activation="relu"),
    layers.Dense(10, activation="softmax")
])

**Основным строительным блоком нейронных сетей является слой. Слой можно рассматривать как фильтр для данных: он принимает их и выводит в некоторой более полезной форме. В частности, слои извлекают представления из входных данных, которые, как мы надеемся, будут иметь больше смысла для решаемой задачи. Фактически методика глубокого обучения заключается в объединении простых слоев, реализующих некоторую форму поэтапной очистки данных.**

В нашем случае сеть состоит из последовательности двух слоев Dense, которые являются тесно связанными (их еще называют полносвязными) нейронными слоями. Второй (и последний) слой — это десятипеременный слой классификации softmax, возвращающий массив с десятью оценками вероятностей (в сумме дающих 1). Каждая оценка определяет вероятность принадлежности текущего изображения к одному из десяти классов цифр.

Чтобы подготовить модель к обучению, нужно настроить еще три параметра для этапа компиляции:
* **оптимизатор** — механизм, с помощью которого сеть будет обновлять себя, опираясь на наблюдаемые данные и функцию потерь;
* **функцию потерь** — определяет, как сеть должна оценивать качество своей работы на обучающих данных и, соответственно, корректировать ее в правильном направлении;
* **метрики для мониторинга на этапах обучения и тестирования** — здесь нас будет интересовать только точность (доля правильно классифицированных изображений).

## 2.3. Этап компиляции

In [16]:
model.compile(optimizer="rmsprop",
    loss="sparse_categorical_crossentropy",
    metrics=["accuracy"])

## 2.4. Подготовка исходных данных

In [17]:
train_images = train_images.reshape((60000, 28 * 28))
train_images = train_images.astype('float32') / 255
test_images = test_images.reshape((10000, 28 * 28))
test_images = test_images.astype('float32') / 255

Теперь можно начинать обучение сети, для чего в случае библиотеки Keras достаточно вызвать метод fit модели — он попытается адаптировать (fit) модель под обучающие данные

In [18]:
model.fit(train_images,
          train_labels,
          epochs=5,
          batch_size=128)

Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5


<keras.callbacks.History at 0x1e149a6b1c0>

**В процессе обучения отображаются две величины: потери сети на обучающих данных и точность сети на обучающих данных. Мы быстро достигли точности 0,989 (98,9 %).**

## 2.6. Использование модели для получения предсказаний

In [19]:
test_digits = test_images[0:10]

predictions = model.predict(test_digits)

predictions[0]



array([3.4983675e-08, 4.1559973e-09, 5.7064235e-06, 2.7671873e-05,
       2.6474790e-12, 3.7715120e-09, 4.1231588e-13, 9.9996591e-01,
       6.4228499e-07, 1.1915072e-07], dtype=float32)

Наивысшая оценка вероятности (0,99999106 — почти 1) для этого тестового изображения цифры находится в элементе с индексом 7, то есть согласно нашей модели — перед нами изображение цифры 7:

In [22]:
predictions[0].argmax()

7

The code predictions[0].argmax() finds the index of the maximum value in the first (0-th) element of the predictions array.

The predictions array is likely a NumPy array or a tensor, and argmax() is a method that returns the indices of the maximum values along a particular axis (in this case, the first axis, as predictions[0] accesses the first element along the first axis).

So, ```predictions[0].argmax()``` will return the index of the maximum value in the first element of the predictions array.

In [24]:
predictions[0][7]

0.9999659

In [25]:
test_labels[0]

7

## 2.7. Оценка качества модели на новых данных

In [27]:
test_loss, test_acc = model.evaluate(test_images, test_labels)
print(f"test_acc: {round(test_acc, 3)}")

test_acc: 0.98
