In [1]:
import tensorflow as tf
import numpy as np

# 1) Тензоры

In [2]:
# Скаляры (тензоры нулевого ранга)
x = np.array(12)
x.ndim

0

In [3]:
# Векторы (тензоры первого ранга)
x = np.array([12, 3, 6, 14])
x.ndim

1

In [4]:
# Матрицы (тензоры второго ранга)
x = np.array([[5, 78, 2, 34, 0], [6, 79, 3, 35, 1], [7, 80, 4, 36, 2]])
x.ndim

2

### Ключевые атрибуты тензора

1) Количество осей (ранг) — например, трехмерный тензор имеет три оси, а матрица — две. В библиотеках для Python, таких как Numpy, этот атрибут тензоров имеет имя ndim.

2) Форма — кортеж целых чисел, описывающих количество измерений на каждой оси тензора. (shape)

3) Тип данных (обычно в библиотеках для Python ему дается имя dtype) — это тип данных, содержащихся в тензоре; например, тензор может иметь тип float32, uint8, float64 и др. (dtype)

## Пакеты данных

Модели глубокого обучения не обрабатывают весь набор данных целиком; они разбивают его на небольшие пакеты (batch).

1) векторные данные — двумерные тензоры с формой (образцы, признаки);

2) временные ряды или последовательности — трехмерные тензоры с формой (образцы, метки_времени, признаки);

3) изображения — четырехмерные тензоры с формой (образцы, высота, ширина, цвет) или с формой (образцы, цвет, высота, ширина);

4) видео — пятимерные тензоры с формой (образцы, кадры, высота, ширина, цвет) или с формой (образцы, кадры, цвет, высота, ширина)

# 2) Анатомия нейронной сети

1) слои, которые объединяются в сеть (или модель);

2) исходных данных и соответствующих им целях;

3) функции потерь, которая определяет сигнал обратной связи, используемый для обучения;

4) оптимизатор, определяющий, как происходит обучение. Реализует конкретный вариант стохастического градиентного спуска (Stochastic Gradient Descent, SGD)

## 2.1) Cлои

1)векторные данные, хранящиеся в двумерных тензорах с формой (образцы, признаки), часто обрабатываются плотно связанными слоями, которые также называют полносвязными, или плотными, слоями (класс Dense в Keras). 

2)Временные ряды данных хранятся в трехмерных тензорах с формой (образцы, метки_времени, признаки) и обычно обрабатываются рекуррентными слоями, такими как LSTM. 

3)Изображения хранятся в четырехмерных тензорах и обычно обрабатываются двумерными сверточными слоями (Conv2D).

## 2.2) Cтруктура модели

Модель можно определить двумя способами: с использованием класса Sequential (только для линейного стека слоев — наиболее популярная архитектура сетей в настоящее время) или функционального API (для ориентированного ациклического графа слоев, позволяющего конструировать произвольные архитектуры).

In [None]:
#Sequential()
from tensorflow.keras import models
from tensorflow.keras import layers
model = models.Sequential()
model.add(layers.Dense(32, activation='relu', input_shape=(784,)))
model.add(layers.Dense(10, activation='softmax'))

In [None]:
#API (позволяет манипулировать данными в тензорах, которые обрабатывает модель, 
#     и применять слои к этим тензорам, как если бы они были функциями.)
input_tensor = layers.Input(shape=(784,))
x = layers.Dense(32, activation='relu')(input_tensor)
output_tensor = layers.Dense(10, activation='softmax')(x)
model = models.Model(inputs=input_tensor, outputs=output_tensor)

После определения архитектуры уже неважно, используете вы модель Sequential или функциональный API. В обоих случаях далее выполняются одинаковые шаги.
Настройка процесса обучения производится на этапе компиляции. При этом задаются оптимизатор и функция(-и) потерь, которые должны использоваться моделью, а также все метрики для мониторинга во время обучения.

In [None]:
model.layers[0].set_weights([embedding_matrix]) #загрузка весов в слой 0
model.layers[0].trainable = False # замораживание весов слоя 0 (не меняются в обучении)

In [None]:
model.summary() #структура итоговой модели

In [None]:
from tensorflow.keras import optimizers
model.compile(optimizer=optimizers.RMSprop(lr=0.001), loss='mse', metrics=['accuracy'])

In [None]:
history = model.fit(input_tensor, target_tensor, batch_size=128, epochs=10, validation_data=(x_val, y_val))
history_dict = history.history #словарь оценок на валидации и обчении 
history_dict.keys()

#history = model.fit_generator(train_generator, steps_per_epoch=100, epochs=30, 
#                              validation_data=validation_generator, validation_steps=50) Обучение если на вход подается генераор, а не тензор

In [None]:
model.save_weights('model.h5') #cохранение весов модели
model.save('model.h5') #cохранение всей модели включая оптимизатор

In [None]:
from tensorflow.keras.models import load_model
model = load_model('model.h5')  #загрузка модели
# model.load_weights(checkpoint_path) 
# checkpoint_path - путь к файлу с моделью

In [None]:
test_score, test_score = model.evaluate(test_data, test_targets) #оценка модели на тестовых данных

In [None]:
predictions = model.predict(x_test) #предсказание модели

## 2.3) Обзор соответствий между некоторыми входными модальностями и сетевыми архитектурами:

1) Векторные данные — полносвязные сети (слои Dense).

2) Изображения — двумерные сверточные сети.

3) Звуки (например, сигналы волновой формы) — одномерные сверточные сети (предпочтительно) или рекуррентные сети.

4) Текстовые данные — одномерные сверточные сети (предпочтительно) или рекуррентные сети.

5) Временные последовательности — рекуррентные сети (предпочтительно) или одномерные сверточные сети.

6) Другие виды последовательных данных — рекуррентные сети или одномерные сверточные сети. Рекуррентные сети предпочтительнее, если упорядоченность данных имеет большое значение (например, для временных последовательностей, но не для текста).

7) Видеоданные — трехмерные сверточные сети (если необходимо захватывать эффекты движения) или комбинация двумерной сверточной сети, действующей на уровне кадров для извлечения признаков, с последующей обработкой рекуррентной сетью или одномерной сверточной сетью для обработки получающихся последовательностей.

8) Объемные данные — трехмерные сверточные сети.

##  2.4) LAYERS (from tensorflow.keras import layers)

#### 2.4.1) layers.Dense (Полносвязный слой)

Обрабатывают векторы — одномерные массивы, тогда как текущий выход является трехмерным тензором.

#### 2.4.2)  Сверточные слои

##### 2.4.2.1. layers.Conv2D (Сверточный слой)

Выводят трехмерный тензор с формой (высота, ширина, число_фильтров)

layers.Conv2D(32, (3, 3), activation='relu', input_shape=(28, 28, 1))

32 - размер выходной глубины слоя (число фильтров)

(3,3) - размер окна

input_shape=(28, 28, 1) - ширина x высота x число_каналов_цветов

padding = 'valid'/'same' - дополнение, дополняет так, чтобы выходная карта признаков имела ту же ширину и высоту, что и входная

##### 2.4.2.2. layers.Conv1D ( Одномерный сверточный слой)

Принимает на входе трехмерные тензоры с формой (образцы, время, признаки) и возвращает трехмерные тензоры с той же формой. Окно свертки — это одномерное окно на оси времени: оси с индексом 1 во входном тензоре.

#### 2.4.3) layers.MaxPooling2D

Используется для уменьшения разрешения карты признаков. Из входной карты признаков извлекается окно, и из него выбирается максимальное значение для каждого канала. Уменьшение разрешения используется для уменьшения количества коэффициентов в карте признаков для обработки, а также внедрения иерархий пространственных фильтров путем создания последовательных слоев свертки для просмотра все более крупных окон

Выводят трехмерный тензор с формой (высота, ширина, каналы)

#### 2.4.4) layers.Flatten()

Преобразует выход предыдущего слоя в одномерный вектор

#### 2.4.5) layers.Embedding(колличество возможных токенов, размерность пространства)

Слой Embedding лучше всего воспринимать как словарь, отображающий целочисленные индексы (обозначающие конкретные слова) в плотные векторы. Он принимает целые числа на входе, отыскивает их во внутреннем словаре и возвращает соответствующие векторы.

Слой Embedding получает на входе двумерный тензор с целыми числами и с формой (образцы, длина_последовательности), каждый элемент которого является последовательностью целых чисел.

Этот слой возвращает трехмерный тензор с вещественными числами и с формой (образцы, длина_последовательности, размерность_векторного_представления). Такой трехмерный тензор можно затем обработать слоем RNN или одномерным сверточным слоем.

#### 2.4.6)layers.SimpleRNN(return_sequences=) (рекуррентный слой )

return_sequences - управляет режимом возврата данных, либо вернуть только конечный ответ, либо возвращать полные последовательности результатов для всех временных интервалов

#### 2.4.7) layers.LSTM() (рекуррентный слой )

Позволяет прошлой информации повторно внедриться в процесс обучения и оказать сопротивление проблеме затухания градиента.

Используется в задачах обработки естественного языка,таких как:  диалоговые системы типа «вопрос/ответ» и в машинном переводе.

#### 2.4.8) layers.Bidirectional(layers.LSTM()) (двунаправленный слой, в аргументе принимает рекуррентный слой)

#### 2.4.9) layers.BatchNormalization() (Слой Пакетной нормализации)

Может адаптивно нормализовать данные, даже если среднее и дисперсия изменяются во время обучения. Его принцип действия основан на вычислении экспоненциального скользящего среднего и дисперсии данных, наблюдаемых в процессе обучения. Основное назначение пакетной нормализации — помочь распространению градиента подобно остаточным связям и дать возможность создавать более глубокие сети.

Обычно слой BatchNormalization используется после сверточного или полносвязного слоя

Слой BatchNormalization принимает аргумент axis, определяющий ось признаков для нормализации. По умолчанию этот аргумент принимает значение –1, что соответствует последней оси во входном тензоре. Это правильное значение, когда используются слои Dense, Conv1D, рекуррентные слои и слои Conv2D со значением "channels_last" в аргументе data_format. Но в слоях Conv2D со значением "channels_first" в аргументе data_format ось признаков — это ось с индексом 1; поэтому в таких случаях слою BatchNormalization следует передавать число 1 аргументе axis.

#### 2.4.10) layers.SeparableConv2D() (слой раздельной свертки по глубине (современный аналог слоя Conv)

Этот слой выполняет пространственную свертку каждого канала во входных данных в отдельности перед смешиванием выходных каналов посредством поточечной свертки (свертки 1 × 1), как показано на рис. 7.16. Это эквивалентно раздельному выделению пространственных и канальных признаков, что оправданно, если предполагается сильная корреляция пространственных местоположений на входе, но разные каналы практически не зависят друг от друга.

## 2.5) ACTIVATION (ФУНКЦИИ АКТИВАЦИИ СЛОЕВ)

#### 2.5.1) activation='relu'

Функция relu (rectified linear unit — блок линейной ректификации) используется для преобразования отрицательных значений в ноль

#### 2.5.2) activation='sigmoid'

Cигмоидная функция рассредоточивает произвольные значения по интервалу [0, 1], возвращая значения, которые можно интерпретировать как вероятность.

#### 2.5.3) activation='softmax'

Функция активации softmax  означает, что сеть будет выводить распределение вероятностей по N разным классам

## 2.6) LOSS (from tensorflow.keras import losses)

#### 2.6.1) loss='binary_crossentropy'  (Для классификации с двумя классами.)

#### 2.6.2) loss='categorical_crossentropy'  (Для многоклассовой классификации.)

Определяет расстояние между распределениями вероятностей: распределением вероятности на выходе сети и истинным распределением меток. Минимизируя расстояние между этими двумя распределениями, мы учим сеть выводить результат, максимально близкий к истинным меткам. (используется для категориальных меток закодированных методом one-hot)

#### 2.6.3) loss='sparse_categorical_crossentropy' (Для многоклассовой классификации.)

Эту функцию следует использовать с целочисленными метками классов (без кодировки)

#### 2.6.4) loss='mse' (Для регрессии)

Mean squared error (среднеквадратичная ошибка), вычисляет квадрат разности между предсказанными и целевыми значениями.

#### 2.6.5) loss = 'mae' (Для регрессии)

Средняя абсолютная ошибка

## 2.7) METRICS (from tensorflow.keras import metrics)

#### 2.7.1) metrics=['mae'] (средняя абсолютная ошибка). 

Это абсолютное значение разности между предсказанными и целевыми значениями.

#### 2.7.2) metrics=['acc'] (точность).

## 2.8) OPTIMIZER

Показывает каким образом обновляется модель на основе входных данных и функции потерь

# 3) Предварительная обработка данных для нейроных сетей

### 3.1) Нормализация значений

### 3.2) Обработка недостающих значений

Вообще в случае с нейронными сетями вполне безопасно заменить недостающие входные значения нулями, при условии, что 0 не является осмысленным значением. Обрабатывая данные, сеть поймет, что 0 означает отсутствие данных, и будет игнорировать это значение.

### 3.3) Конструирование признаков

# 4) Методы регуляризации нейронной сети

### 4.1) Уменьшение размеров сети

Самый простой способ предотвратить переобучение — уменьшить размер модели: количество изучаемых параметров в модели (определяется количеством слоев и количеством нейронов (размерностью) в каждом слое).

В общем случае процесс поиска подходящего размера модели должен начинаться с относительно небольшого количества слоев и параметров, а затем размеры слоев и их количество должны постепенно увеличиваться, пока не произойдет увеличение потерь на проверочных данных.

### 4.2) Добавление регуляризации весов

Типичный способ смягчения проблемы переобучения заключается в уменьшении сложности сети путем ограничения значений ее весовых коэффициентов, что делает их распределение более равномерным.

L1-регуляризация (L1 regularization) — добавляемый штраф прямо пропорционален абсолютным значениям весовых коэффициентов (L1-норма весов).

L2-регуляризация (L2 regularization) — добавляемый штраф пропорционален квадратам значений весовых коэффициентов (L2-норма весов). В контексте нейронных сетей L2-регуляризация также называется сокращением весов (weight decay).

В Keras регуляризация весов осуществляется путем передачи в слои именованных аргументов с экземплярами регуляризаторов весов.
##### model.add(layers.Dense(16, kernel_regularizer=regularizers.l2(0.001), activation='relu', input_shape=(10000,)))

Обратите внимание: так как штраф добавляется только на этапе обучения, величина потерь сети на этапе обучения будет намного выше, чем на этапе контроля.

In [None]:
# Разные регуляризаторы, доступные в Keras
from keras import regularizers
regularizers.l1(0.001) L1-регуляризация
regularizers.l1_l2(l1=0.001, l2=0.001) Объединенная L1- и L2-регуляризация

model.add(layers.Dense(16, kernel_regularizer=regularizers.l2(0.001), activation='relu', input_shape=(10000,)))

### 4.3) Добавление прореживания

Прореживание, которое применяется к слою, заключается в удалении (присваивании нуля) случайно выбираемым признакам на этапе обучения.

Представьте, что в процессе обучения некоторый уровень для данного образца на входе в нормальной ситуации возвращает вектор [0,2, 0,5, 1,3, 0,8, 1,1]. После применения прореживания некоторые элементы вектора получают нулевое значение: например, [0, 0,5, 1,3, 0, 1,1]. 

Коэффициент прореживания — это доля обнуляемых признаков; обычно он выбирается в диапазоне от 0,2 до 0,5. 

На этапе тестирования прореживание не производится; вместо этого выходные значения уровня уменьшаются на коэффициент, равный коэффициенту прореживания, чтобы компенсировать разницу в активности признаков на этапах тестирования и обучения.

layer_output *= np.random.randint(0, high=2, size=layer_output.shape) - На этапе обучения обнуляется 50% признаков в выводе
layer_output *= 0.5 - На этапе тестирования

In [None]:
# В Keras добавить прореживание в сеть можно посредством уровня Dropout, 
# который обрабатывает результаты работы слоя, стоящего непосредственно перед ним:
model.add(layers.Dropout(0.5))

### 4.4) Увеличить объем тренировочных данных

# 5) Стратегии решения задачи классификации изображений с обучением на небольших наборах данных

1)обучение малой модели с нуля, расширение данных

2)выделение признаков с использованием предварительно обученной модели и дообучение этой модели

### Cписок моделей классификации изображений (все они предварительно обучены на наборе ImageNet), доступных в keras .applications

1) Xception

2) Inception V3

3) ResNet50

4) VGG16

5) VGG19

6) MobileNet

# 6) Глубокое обучение для текста и последовательностей

### 6.1) Обработка текстовых данных

#### 6.1.1) Прямое кодирование

In [None]:
from tensorflow.keras.preprocessing.text import Tokenizer
tokenizer = Tokenizer(num_words=1000) 
tokenizer.fit_on_texts(samples) #samples - масив с текстами
sequences = tokenizer.texts_to_sequences(samples) # преобразование текстов в списки целочисленных индексов
one_hot_results = tokenizer.texts_to_matrix(samples, mode='binary') # получение прямых бинарных представлений
word_index = tokenizer.word_index #вычисленные индексы слов

#### 6.1.2) Векторное представление слов

В отличие от векторов, полученных прямым кодированием, векторные представления слов конструируются из данных. Векторное представление слов позволяет уместить больший объем информации в меньшее число измерений. Геометрические отношения между векторами слов должны отражать семантические связи между соответствующими им словами. Как предполагается, векторные представления слов должны отображать человеческий язык в геометрическое пространство.

Получить векторные представления слов можно двумя способами:

1) Конструировать векторные представления в процессе решения основной задачи (такой, как классификация документа или определение эмоциональной окраски). В этом случае изначально создаются случайные векторы слов, которые затем постепенно конструируются (обучаются), как это происходит с весами нейронной сети.

2) Загрузить в модель векторные представления, полученные с использованием другой задачи машинного обучения, отличной от решаемой. Такие представления называют предварительно обученными векторными представлениями слов.

# 7) Рекуррентные сети (RNN)

### Улучшенные методы использования рекуррентных нейронных сетей

1) рекуррентное прореживание — особый встроенный способ использования прореживания для борьбы с переобучением в рекуррентных слоях;

2) наложение рекуррентных слоев — способ увеличения репрезентативности сети (за счет увеличения объема вычислений);

3) двунаправленные рекуррентные слои — представляют одну и ту же информацию в рекуррентной сети разными способами, повышая точность и ослабляя проблемы, связанные с забыванием.

# 8) Функциональный API KERAS

Функциональный API позволяет напрямую манипулировать тензорами и использовать уровни как функции, которые принимают и возвращают тензоры. Для создания моделей с несколькими входами, моделей с несколькими выходами и графоподобных моделей

# 9) Обратные вызовы для воздействия на модель в ходе обучения

Обратный вызов — это объект (экземпляр класса, реализующего конкретные методы), который передается в модель через вызов fit и который будет вызываться моделью в разные моменты в процессе обучения. Он имеет доступ ко всей информации о состоянии модели и ее качестве и может предпринимать следующие действия: прерывать обучение, сохранять модели, загружать разные наборы весов или как-то иначе изменять состояние модели.

Вот несколько примеров использования обратных вызовов:

1) фиксация состояния модели в контрольных точках — сохранение текущих весов модели в разные моменты в ходе обучения;

2) ранняя остановка — прерывание обучения, когда оценка потерь на проверочных данных перестает улучшаться (и, конечно, сохранение лучшего варианта модели, полученного в ходе обучения);

3) динамическая корректировка значений некоторых параметров в процессе обучения, например шага обучения оптимизатора;

4) журналирование оценок для обучающего и проверочного наборов данных в ходе обучения или визуализация представлений, получаемых моделью, по мере их обновления — индикатор выполнения в Keras, с которым вы уже знакомы, — обратный вызов!

Модуль keras.callbacks включает в себя ряд встроенных обратных вызовов. Вот далеко не полный список:

>keras.callbacks.ModelCheckpoint

>keras.callbacks.EarlyStopping

>keras.callbacks.LearningRateScheduler

>keras.callbacks.ReduceLROnPlateau

>keras.callbacks.CSVLogger

# 10) Тренировочные датасеты

In [None]:
from tensorflow.keras.datasets import reuters #классификация новостных лент
(train_data, train_labels), (test_data, test_labels) = reuters.load_data(num_words=10000)

In [None]:
from tensorflow.keras.datasets import imdb #классификация отзывов к фильмам
(train_data, train_labels), (test_data, test_labels) = imdb.load_data(num_words=10000) #сохраняем только 10000 самых популярных слов
x_train = preprocessing.sequence.pad_sequences(x_train, maxlen=maxlen) # Преобразование списков целых чисел в двумерный тензор с целыми числами и с формой (образцы, максимальная_длина)
x_test = preprocessing.sequence.pad_sequences(x_test, maxlen=maxlen)

In [None]:
from tensorflow.keras.datasets import mnist # изображения рукописных цифр

(train_images, train_labels), (test_images, test_labels) = mnist.load_data()

train_images = train_images.reshape((60000, 28, 28, 1))
train_images = train_images.astype('float32') / 255

test_images = test_images.reshape((10000, 28, 28, 1))
test_images = test_images.astype('float32') / 255

In [None]:
from tensorflow.keras.datasets import fashion_mnist
(train_images, train_labels), (test_images, test_labels) = fashion_mnist.load_data()

# Изображения являются 28х28 массивами NumPy, где значение пикселей варьируется от 0 до 255.
# Метки (labels) - это массив целых чисел от 0 до 9. Они соответствуют классам одежды изображенной на картинках

# 11) from tensorflow.keras.utils 

In [None]:
from tensorflow.keras.utils import to_categorical
train_labels = to_categorical(train_labels) # one-hot кодирование категориальных признков

# 12) from tensorflow.keras import preprocessing

In [None]:
from tensorflow.keras.preprocessing.text import Tokenizer #для обработки текстов
texts # список, где каждый элемент текст
max_words = 10000 #Рассмотрение только 10 000 наиболее часто используемых слов
tokenizer = Tokenizer(num_words=max_words)
tokenizer.fit_on_texts(texts) #выделение корпуса наиболее частых слов из текстов
sequences = tokenizer.texts_to_sequences(texts) #преобразование текстов в последовательность индексов наиболее частых слов
word_index = tokenizer.word_index #словарь слово - индекс
print('Found %s unique tokens.' % len(word_index))

In [None]:
from tensorflow.keras.preprocessing.sequence import pad_sequences #для обработки последовательностей
maxlen = 100 
data = pad_sequences(sequences, maxlen=maxlen) #отсечение в каждом элементе списка sequences всех элементов c индексом больше maxlen 

In [None]:
from tensorflow.keras.preprocessing.image import ImageDataGenerator #для обработки изображений

train_datagen = ImageDataGenerator(rescale=1./255) #делает одни и те же действия с каждым изображением в заданной директории
train_generator = train_datagen.flow_from_directory(train_dir, target_size=(150, 150), batch_size=20, class_mode='binary') 

datagen = ImageDataGenerator(rotation_range=40, width_shift_range=0.2, height_shift_range=0.2, shear_range=0.2,
                             zoom_range=0.2, horizontal_flip=True, fill_mode='nearest')

In [None]:
from tensorflow.keras.preprocessing import image
import matplotlib.pyplot as plt
img_path #путь к изображению
img = image.load_img(img_path, target_size=(150, 150)) #чтение изображения и его размеров
x = image.img_to_array(img)  #преобразование его в массив
plt.imshow(image.array_to_img(x)) #вывод изображения
img.save(os.path.join(save_dir, 'name.png')) 

# 13) from tensorflow.keras.applications 

In [None]:
from tensorflow.keras.applications import VGG16
conv_base = VGG16(weights='imagenet', include_top=False, input_shape=(150, 150, 3))

#Аргумент weights определяет источник весов для инициализации модели.
#Аргумент include_top определяет необходимость подключения к сети полносвязного классификатора. По умолчанию этот полносвязный классификатор соответствует 1000 классов из ImageNet. Так как мы намереваемся использовать свой полносвязный классификатор (только с двумя классами: cat и dog), мы не будем подключать его.
#Аргумент input_shape определяет форму тензоров с изображениями, которые будут подаваться на вход сети. Это необязательный аргумент: если опустить его, сеть сможет обрабатывать изображения любого размера.

In [None]:
from tensorflow.keras.applications import inception_v3
model = inception_v3.InceptionV3(weights='imagenet', include_top=False) #Конструирование сети Inception V3 без сверточной основы.

# 14) from tensorflow.keras import backend as K