# Функциональный API

Функциональный API позволяет напрямую манипулировать тензорами и использовать уровни как функции, которые принимают и возвращают тензоры.

In [1]:
from tensorflow.keras import Input, layers
input_tensor = Input(shape=(32,)) # Тензор
dense = layers.Dense(32, activation='relu') # Слой — это функция
output_tensor = dense(input_tensor) # Вызываемый слой может принимать и возвращать тензор

In [3]:
#обычная sequential model
from tensorflow.keras.models import Sequential, Model
from tensorflow.keras import layers
from tensorflow.keras import Input
seq_model = Sequential() 
seq_model.add(layers.Dense(32, activation='relu', input_shape=(64,)))
seq_model.add(layers.Dense(32, activation='relu'))
seq_model.add(layers.Dense(10, activation='softmax'))
seq_model.summary()

Model: "sequential"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
dense_1 (Dense)              (None, 32)                2080      
_________________________________________________________________
dense_2 (Dense)              (None, 32)                1056      
_________________________________________________________________
dense_3 (Dense)              (None, 10)                330       
Total params: 3,466
Trainable params: 3,466
Non-trainable params: 0
_________________________________________________________________


In [4]:
#ее функциональный эквивалент
input_tensor = Input(shape=(64,)) 
x = layers.Dense(32, activation='relu')(input_tensor) 
x = layers.Dense(32, activation='relu')(x) 
output_tensor = layers.Dense(10, activation='softmax')(x) 

model = Model(input_tensor, output_tensor) 
model.summary()

Model: "model"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
input_2 (InputLayer)         [(None, 64)]              0         
_________________________________________________________________
dense_4 (Dense)              (None, 32)                2080      
_________________________________________________________________
dense_5 (Dense)              (None, 32)                1056      
_________________________________________________________________
dense_6 (Dense)              (None, 10)                330       
Total params: 3,466
Trainable params: 3,466
Non-trainable params: 0
_________________________________________________________________


In [5]:
model.compile(optimizer='rmsprop', loss='categorical_crossentropy') #обучение функциональной модели
import numpy as np 
x_train = np.random.random((1000, 64))
y_train = np.random.random((1000, 10))
model.fit(x_train, y_train, epochs=10, batch_size=128) 
score = model.evaluate(x_train, y_train)

Train on 1000 samples
Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


## Модели с несколькими входами

Функциональный API можно использовать для создания моделей с несколькими входами. Обычно такие модели в какой-то момент объединяют свои входные ветви, используя слой, способный объединить несколько тензоров: сложением, слиянием или как-то иначе. Часто для этого используются операции слияния, реализованные в Keras, такие как keras.layers.add, keras.layers.concatenate

Типичная модель «вопрос/ответ» имеет два входа: вопрос на естественном языке и фрагмент текста (например, новостная статья) с информацией, которая будет использоваться для ответа на вопрос. Опираясь на эти данные, модель должна вернуть ответ: в простейшем случае это может быть ответ, состоящий из одного слова, полученного применением классификатора softmax к некоторому предопределенному словарю

In [7]:
from  tensorflow.keras.models import Model
from  tensorflow.keras import layers
from  tensorflow.keras import Input
text_vocabulary_size = 10000
question_vocabulary_size = 10000
answer_vocabulary_size = 500

text_input = Input(shape=(None,), dtype='int32', name='text') #текстовый вход (вход 1)
embedded_text = layers.Embedding( text_vocabulary_size, 64)(text_input)
encoded_text = layers.LSTM(32)(embedded_text)

question_input = Input(shape=(None,), dtype='int32', name='question') #преобразование вопроса (вход 2)
embedded_question = layers.Embedding( question_vocabulary_size, 32)(question_input)
encoded_question = layers.LSTM(16)(embedded_question)

concatenated = layers.concatenate([encoded_text, encoded_question], axis=-1) #объединение

answer = layers.Dense(answer_vocabulary_size, activation='softmax')(concatenated) #ответ (выход модели)

model = Model([text_input, question_input], answer) 
model.compile(optimizer='rmsprop', loss='categorical_crossentropy', metrics=['acc'])

Теперь встает вопрос обучения модели с двумя входами. Для этого можно использовать два разных API: можно передать модели список массивов Numpy или словарь, отображающий имена входов в массивы Numpy.

In [13]:
import numpy as np
num_samples = 1000
max_length = 100
text = np.random.randint(1, text_vocabulary_size, size=(num_samples, max_length))
question = np.random.randint(1, question_vocabulary_size, size=(num_samples, max_length))
answers = np.zeros(shape=(num_samples, answer_vocabulary_size))

indices = np.random.randint(0, answer_vocabulary_size, size=num_samples)
for i, x in enumerate(answers): 
    x[indices[i]] = 1

model.fit([text, question], answers, epochs=10, batch_size=128) 
#model.fit({'text': text, 'question': question}, answers, epochs=10, batch_size=128)

Train on 1000 samples
Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


<tensorflow.python.keras.callbacks.History at 0x100d6988>

## Модели с несколькими выходами

Функциональный API также можно использовать для создания моделей с несколькими выходами (или головами). Простейшим примером может служить сеть, пытающаяся одновременно предсказать разные свойства данных, например принимающая на входе последовательность постов из социальной сети от некоторой анонимной персоны и пытающаяся предсказать характеристики этой персоны, такие как возраст, пол и уровень доходов

In [15]:
from tensorflow.keras import layers
from tensorflow.keras import Input
from tensorflow.keras.models import Model
vocabulary_size = 50000
num_income_groups = 10

posts_input = Input(shape=(None,), dtype='int32', name='posts')

embedded_posts = layers.Embedding(256, vocabulary_size)(posts_input)
x = layers.Conv1D(128, 5, activation='relu')(embedded_posts)
x = layers.MaxPooling1D(5)(x)
x = layers.Conv1D(256, 5, activation='relu')(x)
x = layers.Conv1D(256, 5, activation='relu')(x)
x = layers.MaxPooling1D(5)(x)
x = layers.Conv1D(256, 5, activation='relu')(x)
x = layers.Conv1D(256, 5, activation='relu')(x)
x = layers.GlobalMaxPooling1D()(x)
x = layers.Dense(128, activation='relu')(x)

age_prediction = layers.Dense(1, name='age')(x) #выход1
income_prediction = layers.Dense(num_income_groups, activation='softmax', name='income')(x) #выход2
gender_prediction = layers.Dense(1, activation='sigmoid', name='gender')(x) #выход3

model = Model(posts_input, [age_prediction, income_prediction, gender_prediction])


Важно отметить, что для обучения такой модели необходима возможность задавать разные функции потерь для разных выходов: например, определение возраста — это задача скалярной регрессии, но определение пола — задача бинарной классификации, требующая отдельной процедуры обучения. Однако из-за того, что градиентный спуск требует минимизации скаляра, эти функции потерь должны объединяться в единственное значение. Простейший способ объединения потерь — их суммирование. В Keras для этого можно передать функции compile список или словарь с разными объектами для разных выходов; в результате значения потерь будут суммироваться в общее значение потери, которое будет минимизироваться в ходе обучения.

In [None]:
model.compile(optimizer='rmsprop', loss=['mse', 'categorical_crossentropy', 'binary_crossentropy'])
# model.compile(optimizer='rmsprop', loss={'age': 'mse', 'income': 'categorical_crossentropy', 'gender': 'binary_crossentropy'})

Обратите внимание: несбалансированные вклады потерь приведут к созданию представления, оптимизированного преимущественно для задачи с наибольшей потерей, в ущерб другим задачам. Чтобы исправить эту проблему, можно присвоить разные степени важности значениям потерь, вносящим вклад в общую потерю. Это может пригодиться, когда значения потерь имеют разные масштабы. Например, средняя квадратичная ошибка (Mean Squared Error, MSE), используемая как функция потерь в задаче определения возраста, обычно принимает значение около 3–5, тогда как перекрестная энтропия, используемая в задаче определения пола, может колебаться около величины 0,1. Чтобы в такой ситуации сбалансировать вклад разных потерь, можно присвоить вес 10 перекрестной энтропии и вес 0,25 — оценке MSE

In [16]:
model.compile(optimizer='rmsprop', loss=['mse', 'categorical_crossentropy', 'binary_crossentropy'], loss_weights=[0.25, 1., 10.])

In [None]:
model.fit(post, [age_targets, income_targets, gender_targets], epochs=10, batch_size=64) 
# model.fit(posts, {'age': age_targets, 'income': income_targets, 'gender': gender_targets}, epochs=10, batch_size=64)

## Ориентированные ациклические графы уровней
С помощью функционального API можно не только создавать модели с несколькими входами и выходами, но также конструировать сети со сложной внутренней топологией. Фреймворк Keras позволяет создавать нейронные сети, организованные как произвольные ориентированные ациклические графы слоев.

### Модули Inception
В самом простом виде модуль Inception имеет три-четыре ветви, начинающиеся сверткой 1 × 1, за которой следует свертка 3 × 3, и заканчивающиеся объединением выделенных признаков. Такая организация помогает сети выделять пространственные и канальные признаки отдельно, что обеспечивает более высокую эффективность, чем при совместном их извлечении. Возможны также более сложные версии модуля Inception, которые обычно включают в себя операции объединения, разные размеры пространственной свертки (например, 5 × 5 вместо 3 × 3 в некоторых ветвях) и ветви без пространственной свертки (то есть включающие в себя только свертку 1 × 1).

In [None]:
from keras import layers
branch_a = layers.Conv2D(128, 1, activation='relu', strides=2)(x)

branch_b = layers.Conv2D(128, 1, activation='relu')(x)
branch_b = layers.Conv2D(128, 3, activation='relu', strides=2)(branch_b)

branch_c = layers.AveragePooling2D(3, strides=2)(x)
branch_c = layers.Conv2D(128, 3, activation='relu')(branch_c) 

branch_d = layers.Conv2D(128, 1, activation='relu')(x)
branch_d = layers.Conv2D(128, 3, activation='relu')(branch_d)
branch_d = layers.Conv2D(128, 3, activation='relu', strides=2)(branch_d)

output = layers.concatenate( [branch_a, branch_b, branch_c, branch_d], axis=-1)

Обратите внимание на то, что полная архитектура Inception V3 доступна в Keras как keras.applications .inception_v3.InceptionV3, включая веса, полученные предварительным обучением на наборе данных ImageNet. В модуле applications, во фреймворке Keras, имеется еще одна похожая модель — Xception1. Название Xception происходит от extreme inception. Это архитектура сверточных сетей, разработанная отчасти под влиянием Inception. Ее идея состоит в том, чтобы полностью разделить выделение канальных и пространственных признаков и заменить модули Inception раздельными свертками по глубине (depthwise separable convolution), состоящими из глубоких сверток (пространственных сверток, в которых каждый входной канал обрабатывается отдельно), за которыми следуют поточечные свертки (свертки 1 × 1) — фактически крайняя форма модуля Inception, в которой пространственные и канальные признаки полностью разделены. Xception имеет примерно такое же число параметров, как Inception V3, но показывает более высокую скорость работы и точность на наборе ImageNet, а также на других больших наборах данных благодаря более эффективному использованию параметров модели.

### Остаточные связи 
Остаточные связи решают две распространенные проблемы, затрагивающие любые крупномасштабные модели глубокого обучения: затухание градиентов и недостаточную репрезентативность. В общем случае добавление остаточных связей в любую модель, имеющую более 10 слоев, почти наверняка даст положительный результат.
Остаточная связь заключается в передаче вывода более раннего слоя на вход более позднего слоя, вследствие чего в последовательной сети фактически создается короткий путь. 

Вместо объединения с более поздней активацией вывод, полученный ранее, суммируется с более поздней активацией, что предполагает равенство размеров обеих активаций. Если они имеют разные размеры, можно применить линейное преобразование для приведения формы ранней активации к форме цели (например, слой Dense без активации или, для карт сверточных признаков, свертку 1 × 1 без активации).

In [None]:
from keras import layers
x = ...
y = layers.Conv2D(128, 3, activation='relu', padding='same')(x) 
y = layers.Conv2D(128, 3, activation='relu', padding='same')(y)
y = layers.Conv2D(128, 3, activation='relu', padding='same')(y)
y = layers.add([y, x]) # Добавление оригинального тензора x к выходным признакам

In [None]:
from keras import layers
x = ...
y = layers.Conv2D(128, 3, activation='relu', padding='same')(x)
y = layers.Conv2D(128, 3, activation='relu', padding='same')(y)
y = layers.MaxPooling2D(2, strides=2)(y)
residual = layers.Conv2D(128, 1, strides=2, padding='same')(x) # Используется свертка 1 × 1 для линейного снижения размерности исходного тензора x, чтобы получить форму как у тензора y 
y = layers.add([y, residual])

## НЕДОСТАТОЧНАЯ РЕПРЕЗЕНТАТИВНОСТЬ В ГЛУБОКОМ ОБУЧЕНИИ
В модели Sequential каждый последующий слой представления строится на основе предыдущего, то есть он имеет доступ только к информации, содержащейся в активации предыдущего слоя. Если один из слоев будет слишком маленьким (например, имеет признаки со слишком низкой размерностью), тогда модель будет ограничена объемом информации, содержащимся в активациях этого слоя.
Чтобы вам было понятнее, проведем аналогию с механизмом обработки сигнала: представьте, что у вас имеется конвейер обработки аудиосигнала, состоящий из последовательности операций, каждая из которых принимает результат предыдущей операции. Тогда, если одна операция ограничит сигнал низкочастотным диапазоном (например, 0–15 кГц), последующие операции не смогут восстановить обрезанные частоты. Если информация теряется, она теряется навсегда. Остаточные связи, путем повторного внедрения более ранней информации в последующие операции, отчасти решают эту проблему.
## ЗАТУХАНИЕ ГРАДИЕНТА В ГЛУБОКОМ ОБУЧЕНИИ
Алгоритм обратного распространения ошибки — основной алгоритм, используемый для обучения глубоких нейронных сетей, — основан на распространении сигнала обратной связи от вывода к ранним слоям. Если сигналу приходится распространяться через глубокий стек слоев, он может ослабнуть или даже полностью потеряться, что сделает сеть необучаемой. Эта проблема известна как затухание градиентов.

Эта проблема проявляется и в глубоких, и в рекуррентных сетях с очень длинными последовательностями — в обоих случаях сигналу обратной связи приходится распространяться через длинные последовательности операций. Вы уже знакомы с решением этой проблемы, которое используется уровнем LSTM в рекуррентных сетях: оно предполагает внедрение несущего потока, распространяющего информацию параллельно главному потоку обработки. Остаточные связи помогают добиться аналогичного эффекта в глубоких сетях прямого распространения, но они еще проще: они внедряют простой линейный несущий поток параллельно главному стеку слоев, и это помогает распространить градиенты через сколь угодно глубокие стеки слоев.

### Повторное использование экземпляров слоев
Еще одной важной особенностью функционального API является возможность повторного использования экземпляра слоя. Когда вы дважды вызываете экземпляр слоя, вместо создания нового слоя в каждом вызове повторно будут использоваться те же самые веса. Это позволяет создавать модели с общими ветвями, когда имеется несколько ветвей, совместно использующих общие знания и выполняющих одинаковые операции. Другими словами, они вместе используют общие представления и совместно обучают их на разных входных наборах.

Рассмотрим модель, которая попытается оценить семантическое сходство двух предложений. Модель имеет два входа (два сравниваемых предложения) и выводит оценку в диапазоне между 0 и 1, где 0 означает полное отсутствие сходства между предложениями, а 1 — полную смысловую идентичность. 

В такой конфигурации два входных предложения взаимозаменяемы, потому что семантическое сходство является симметричным отношением: сходство А с Б идентично сходству Б с А. По этой причине нецелесообразно обучать две независимые модели для обработки каждого входного предложения. Предпочтительнее было бы обрабатывать оба одним слоем LSTM. Представления этого слоя LSTM (его веса) определяются на основе обоих входов одновременно. Мы называем это сиамской моделью LSTM, или общим LSTM.

In [None]:
from keras import layers
from keras import Input
from keras.models import Model

lstm = layers.LSTM(32) 

left_input = Input(shape=(None, 128))
left_output = lstm(left_input) 

right_input = Input(shape=(None, 128))
right_output = lstm(right_input) 

merged = layers.concatenate([left_output, right_output], axis=-1) 

predictions = layers.Dense(1, activation='sigmoid')(merged)

model = Model([left_input, right_input], predictions) 
model.fit([left_data, right_data], targets)

### Модели как слои
Важно отметить, что функциональный API позволяет использовать модели как слои — фактически о моделях можно думать как о «больших слоях». Это верно для обоих классов — Sequential и Model.

Простым примером практического применения повторного использования экземпляра модели может служить модель зрения, которая в качестве входа использует сдвоенную камеру: две параллельные камеры, отстоящие друг от друга на пару сантиметров (один дюйм). Такая модель может воспринимать глубину, что может пригодиться во многих приложениях. Вам не нужно создавать две независимые модели для извлечения визуальных признаков из изображений, передаваемых левой и правой камерами, перед объединением двух потоков. Низкоуровневую обработку двух входных потоков можно выполнять сообща, то есть задействовать слои, совместно использующие одни и те же веса и, соответственно, представления.

In [None]:
from keras import layers
from keras import applications
from keras import Input
xception_base = applications.Xception(weights=None, include_top=False) # Базовая модель обработки изображения — сеть Xception (только сверточная основа)

left_input = Input(shape=(250, 250, 3))  # На вход подаются изображения в формате RGB и с размером 250 × 250
right_input = Input(shape=(250, 250, 3)) 

left_features = xception_base(left_input)  # Одна и та же модель вызывается дважды
right_features = xception_base(right_input) 

merged_features = layers.concatenate( [left_features, right_features], axis=-1) #Объединенный набор признаков содержит информацию из правого и левого источников визуальной информации