# 7.1 Sequential 모델을 넘어서- 케라스의 함수형 API

지금까지 이 책에서 소개한 모든 신경망은 Sequential 모델을 사용하여 만들었습니다. Sequential 모델은 네트워크의 입력과 출력이 하나라고 가정합니다. 이 모델은 층알 차례대로 쌓아 구성합니다.

많은 경우에 이런 가정이 적절합니다. 하지만 이런 가정이 맞지 않는 경우도 많습니다. 일부 네트워크는 개별 입력이 여러 개 필요하거나 출력이 여러 개 필요합니다. 층을 차례대로 쌓지 않고 층 사이를 연결하여 그래프처럼 만드는 네트워크도 있습니다.

여러 경우에 다중 입력 모델, 다중 출력 모델, 그래프 구조를 띤 모델이 필요하지만 케라스의 Sequential 클래스를 사용해서는 만들지 못합니다. 케라스에는 훨씬 더 일반적이고 유연한 다른 방법인 함수형 API가 있습니다.

### 7.1.1 함수형 API 소개

함수형 API(functional API)에서는 직접 텐서들의 입출력을 다룹니다.

```python
from keras import Input, layers

input_tensor = Input(shape=(32,))  # 텐서
dense = layers.Dense(32, activation='relu')  # 함수처럼 사용하기 위해 층 객체를 만듭니다.

output_tensor = dense(input_tensor)  # 텐서와 함께 층을 호출하면 텐서를 반환합니다.
```

간단한 예를 통해 Sequential 모델과 함수형 API로 만든 동일한 모델을 나란히 비교해 보겠습니다.

In [1]:
from keras.models import Sequential, Model
from keras import layers
from keras import Input

seq_model = Sequential()  # 익숙한 Sequential 모델입니다.
seq_model.add(layers.Dense(32, activation='relu', input_shape=(64,)))
seq_model.add(layers.Dense(32, activation='relu'))
seq_model.add(layers.Dense(10, activation='softmax'))

# 함수형 API로 만든 모델입니다.
input_tensor = Input(shape=(64,))
x = layers.Dense(32, activation='relu')(input_tensor)
x = layers.Dense(32, activation='relu')(x)
output_tensor = layers.Dense(10, activation='softmax')(x)

model = Model(input_tensor, output_tensor)  # 입력과 출력 텐서를 지정하여 Model 클래스의 객체를 만듭니다.

model.summary()

Using TensorFlow backend.
  _np_qint8 = np.dtype([("qint8", np.int8, 1)])
  _np_quint8 = np.dtype([("quint8", np.uint8, 1)])
  _np_qint16 = np.dtype([("qint16", np.int16, 1)])
  _np_quint16 = np.dtype([("quint16", np.uint16, 1)])
  _np_qint32 = np.dtype([("qint32", np.int32, 1)])
  np_resource = np.dtype([("resource", np.ubyte, 1)])


_________________________________________________________________
Layer (type)                 Output Shape              Param #   
input_1 (InputLayer)         (None, 64)                0         
_________________________________________________________________
dense_4 (Dense)              (None, 32)                2080      
_________________________________________________________________
dense_5 (Dense)              (None, 32)                1056      
_________________________________________________________________
dense_6 (Dense)              (None, 10)                330       
Total params: 3,466
Trainable params: 3,466
Non-trainable params: 0
_________________________________________________________________


관련되지 않은 입력과 출력으로 모델을 만들면 RuntimeError가 발생합니다.

In [2]:
unrelated_input = Input(shape=(32,))
bad_model = model = Model(unrelated_input, output_tensor)

RuntimeError: Graph disconnected: cannot obtain value for tensor Tensor("input_1:0", shape=(?, 64), dtype=float32) at layer "input_1". The following previous layers were accessed without issue: []

이 에러는 케라스가 출력 텐서에서 input_1 텐서로 다다를 수 없다는 뜻입니다.

In [4]:
model.compile(optimizer='rmsprop', loss='categorical_crossentropy')  # 모델을 컴파일합니다.
import numpy as np  # 훈련을 위해 랜덤한 넘파이 데이터를 생성합니다..
x_train = np.random.random((1000, 64))
y_train = np.random.random((1000, 10))

model.fit(x_train, y_train, epochs=10, batch_size=128)  # 열 번 에포크 동안 모델을 훈련합니다.

score = model.evaluate(x_train, y_train)  # 모델을 평가합니다.

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


### 7.1.2 다중 입력 모델

함수형 API는 다중 입력 모델을 만드는 데 사용할 수 있습니다. 일반적으로 이런 모델은 서로 다른 입력 가지를 합치기 위해 여러 텐서를 연결할 수 있는 층을 사용합니다. 이와 관련된 케라스의 함수는 keras.layers.add, keras.layers.concatenate 등입니다. 아주 간단한 다중 입력 모델을 살펴보겠습니다. 질문-응답(question-answering) 모델입니다.

전형적인 질문-응답 모델은 2개의 입력을 가집니다. 하나는 자연어 질문이고, 또 하나는 답변에 필요한 정보가 담겨 있는 텍스트(예를 들어 뉴스 기사)입니다.

#### 코드 7-1 2개의 입력을 가진 질문-응답 모델의 함수형 API 구현하기

In [5]:
from keras.models import Model
from keras import layers
from keras import Input

text_vocabulary_size = 10000
question_vocabulary_size = 10000
answer_vocabulary_size = 500

text_input = Input(shape=(None,), dtype='int32', name='text')  # 텍스트 입력은 길이가 정해지지 않은 정수 시퀀스입니다. 입력 이름을 지정할 수 있습니다.

embedded_text = layers.Embedding(text_vocabulary_size, 64)(text_input)  # 입력을 크기가 64인 벡터의 시퀀스로 임베딩합니다.

encoded_text = layers.LSTM(32)(embedded_text)  # LSTM을 사용하여 이 벡터들을 하나의 벡터로 인코딩합니다.

question_input = Input(shape=(None,),
                      dtype='int32',
                      name='question')  # 질문도 동일한 과정을 거칩니다(층 객체는 다릅니다)

embedded_question = layers.Embedding(question_vocabulary_size, 32)(question_input)
encoded_question = layers.LSTM(16)(embedded_question)

concatenated = layers.concatenate([encoded_text, encoded_question], axis=-1)  # 인코딩된 질문과 텍스트를 연결합니다.

answer = layers.Dense(answer_vocabulary_size, activation='softmax')(concatenated)  # 소프트맥스 분류기를 추가합니다.

model = Model([text_input, question_input], answer)  # 모델 객체를 만들고 2개의 입력과 출력을 주입합니다.
model.compile(optimizer='rmsprop',
             loss='categorical_crossentropy',
             metrics=['acc'])

입력이 2개인 모델은 어떻게 훈련할까요? 두 가지 방식이 있습니다. 넘파이 배열의 리스트를 주입하거나 입력 이름과 넘파이 배열로 이루어진 딕셔너리를 모델의 입력으로 주입할 수 있습니다.

#### 코드 7-2 다중 입력 모델에 데이터 주입하기

In [6]:
import numpy as np
from keras.utils import to_categorical

num_samples = 1000
max_length = 100

text = np.random.randint(1, text_vocabulary_size, size=(num_samples, max_length))  # 랜덤한 넘파이 데이터를 생성합니다.
question = np.random.randint(1, question_vocabulary_size, size=(num_samples, max_length))

answers = np.random.randint(0, answer_vocabulary_size, size=num_samples)

answers = to_categorical(answers)  # 답은 정수가 아닌 원-핫 인코딩된 벡터입니다.

model.fit([text, question], answers, epochs=10, batch_size=128)  # 리스트 입력을 사용하여 학습합니다.

model.fit({'text': text, 'question': question}, answers, epochs=10, batch_size=128)  # 딕셔너리 입력을 사용하여 학습합니다(입력 이름을 지정했을 때만 사용할 수 있습니다).

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10
Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


<keras.callbacks.History at 0x206368bbba8>

### 7.1.3 다중 출력 모델

같은 식으로 함수형 API를 사용하여 다중 출력(또는 다중 머리) 모델을 만들 수 있습니다. 간단한 예는 데이터에 있는 여러 속성을 동시에 예측하는 네트워크입니다. 예를 들어 소셜 미디어에서 익명 사용자의 포스트를 입력으로 받아 그 사람의 나이, 성별, 소득 수준 등을 예측합니다.

#### 코드 7-3 3개의 출력을 가진 함수형 API 구현하기

In [8]:
from keras import layers
from keras import Input
from keras.models import Model

vocabulary_size = 50000
num_income_groups = 10

posts_input = Input(shape=(None,), dtype='int32', name='posts')
embedded_posts = layers.Embedding(vocabulary_size, 256)(posts_input)
x = layers.Conv1D(128, 5, activation='relu')(embedded_posts)
x = layers.MaxPooling1D(5)(x)
x = layers.Conv1D(256, 5, activation='relu')(x)
x = layers.Conv1D(256, 5, activation='relu')(x)
x = layers.MaxPooling1D(5)(x)
x = layers.Conv1D(256, 5, activation='relu')(x)
x = layers.Conv1D(256, 5, activation='relu')(x)
x = layers.GlobalMaxPooling1D()(x)
x = layers.Dense(128, activation='relu')(x)

age_prediction = layers.Dense(1, name='age')(x)  # 출력 층에 이름을 지정합니다.
income_prediction = layers.Dense(num_income_groups, activation='softmax', name='income')(x)
gender_prediction = layers.Dense(1, activation='sigmoid', name='gender')(x)

model = Model(posts_input, [age_prediction, income_prediction, gender_prediction])

#### 코드 7-4 다중 출력 모델의 컴파일 옵션: 다중 손실

In [9]:
model.compile(optimizer='rmsprop', loss=['mse', 'categorical_crossentropy', 'binary_crossentropy'])

# 위와 동일합니다(출력 층에 이름을 지정했을 때만 사용할 수 있습니다).
model.compile(optimizer='rmsprop', loss={'age': 'mse',
                                        'income': 'categorical_crossentropy',
                                        'gender': 'binary_crossentropy'})

#### 코드 7-5 다중 출력 모델의 컴파일 옵션: 손실 가중치

In [10]:
model.compile(optimizer='rmsprop', loss=['mse', 'categorical_crossentropy', 'binary_crossentropy'],
             loss_weights=[0.25, 1., 10.])

# 위와 동일합니다(출력 층에 이름을 지정했을 때만 사용할 수 있습니다).
model.compile(optimizer='rmsprop', loss={'age': 'mse',
                                        'income': 'categorical_crossentropy',
                                        'gender': 'binary_crossentropy'},
             loss_weights={'age': 0.25,
                          'income': 1.,
                          'gender': 10.})

#### 코드 7-6 다중 출력 모델에 데이터 주입하기

In [11]:
model.fit(posts, [age_targets, income_targets, gender_targets], epochs=10, batch_size=64)  # age_targets, income_targets, gender_targets 가 배열이라고 가정합니다.

# 위와 동일합니다(출력 층에 이름을 지정했을 때만 사용할 수 있습니다).
model.fit(posts, {'age': age_targets,
                 'income': income_targets,
                 'gender': gender_targets},
         epochs=10, batch_size=64)

NameError: name 'posts' is not defined

### 7.1.4 층으로 구성된 비순환 유향 그래프

케라스의 신경망은 층으로 구성된 어떤 비순환 유향 그래프(directed acyclic graph)도 만들 수 있습니다. 이 그래프는 원형을 띨 수 없습니다. 텐서 x가 자기 자신을 출력하는 층의 입력이 될 수 없습니다.

#### 인셉션 모듈
네트워크 안의 네트워크(network-in-network) 구조
```python
from keras import layers
branch_a = layers.Conv2D(128, 1, activation='relu', strides=2)(x)  # 모든 가지는 동일한 스트라이드(2)를 사용합니다. 출력 크기를 동일하게 만들어 하나로 합치기 위해서입니다.

# 이 가지에서는 두 번째 합성곱 층에서 스트라이드를 적용합니다.
branch_b = layers.Conv2D(128, 1, activation='relu')(x)
branch_b = layers.Conv2D(128, 3, activation='relu', strides=2)(branch_b)

# 이 가지에서는 평균 풀링 층에서 스트라이드를 적용합니다.
branch_c = layers.AveragePooling2D(3, strides=2)(x)
branch_c = layers.Conv2D(128, 3, activation='relu')(branch_c)

branch_d = layers.Conv2D(128, 1, activation='relu')(x)
branch_d = layers.Conv2D(128, 3, activation='relu')(branch_d)
branch_d = layers.Conv2D(128, 3, activation='relu', strides=2)(branch_d)
output = layers.concatenate([branch_a, branch_b, branch_c, branch_d], axis=-1)  # 모든 가지의 출력을 연결하여 모듈의 출력을 만듭니다.
```

#### 잔차 연결
대규모 딥러닝 모델에서 흔히 나타나는 두 가지 문제인 그래디언트 소실과 표현 병목(representational bottleneck)을 해결했습니다.

잔차 연결은 하위 층의 출력을 상위 층의 입력으로 사용합니다.
```python
from keras import layers

x = ...
y = layers.Conv2D(128, 3, activation='relu', padding='same')(x)  # x에 어떤 변환을 적용합니다.
y = layers.Conv2D(128, 3, activation='relu', padding='same')(y)
y = layers.Conv2D(128, 3, activation='relu', padding='same')(y)

y = layers.add([y, x])  # 원본 x를 출력 특성에 더합니다.
```

다음은 특성 맵의 크기가 다를 때 선형 변환을 사용하여 잔차 연결을 구현한 예입니다
```python
from keras import layers

x = ...
y = layers.Conv2D(128, 3, activation='relu', padding='same')(x)
y = layers.Conv2D(128, 3, activation='relu', padding='same')(y)
y = layers.MaxPooling2D(2, strides=2)(y)

residual = layers.Conv2D(128, 1, strides=2, padding='same')(x)  # y와 크기를 맞추기 위해 1×1 합성곱을 사용하여 원본 텐서 x를 다운샘플링합니다.

y = layers.add([y, residual])  # 다운샘플링된 x를 출력 특성에 더합니다.
```

### 7.1.5 층 가중치 공유

함수형 API의 중요한 또 하나의 기능은 층 객체를 여러 번 재사용할 수 있다는 것입니다.

```python
from keras import layers
from keras import Input
from keras.models import Model

lstm = layers.LSTM(32)  # LSTM 층 객체 하나를 만듭니다.
# 모델의 왼쪽 가지를 구성합니다. 입력은 크기가 128인 벡터의 가변 길이 시퀀스입니다.
left_input = Input(shape=(None, 128))
left_output = lstm(left_input)

# 모델의 오른쪽 가지를 구성합니다. 기존 층 객체를 호출하면 가중치가 재사용됩니다.
right_input = Input(shape=(None, 128))
right_output = lstm(right_input)

# 맨 위에 분류기를 놓습니다.
merged = layers.concatenate([left_output, right_output], axis=-1)
predictions = layers.Dense(1, activation='sigmoid')(merged)

# 모델 객체를 만들고 훈련합니다. 이런 모델을 훈련하면 LSTM 층의 가중치는 양쪽 입력을 바탕으로 업데이트됩니다.
model = Model([left_input, right_input], predictions)
model.fit([left_data, right_data], targets)
```

### 7.1.6 층과 모델

함수형 API에서는 모델을 층처럼 사용할 수 있습니다. 이 말은 입력 텐서로 모델을 호출해서 출력 텐서를 얻을 수 있다는 뜻입니다.

```y = model(x)```

모델에서 입력 텐서와 출력 텐서가 여러 개이면 텐서의 리스트로 호출합니다.

```y1, y2 = model([x1, x1])```

모델 객체를 재사용하는 간단한 실전 예는 듀얼 카메라에서 입력을 받는 비전 모델입니다.

```python
from keras import layers
from keras import applications
from keras import Input

xception_base = applications.Xception(weights=None, include_top=False)  # 이미지 처리 기본 모델은 엑셉션 네트워크입니다(합성곱 기반 층만 사용합니다).
# 입력은 250×250 RGB 이미지입니다.
left_input = Input(shape=(250, 250, 3))
right_input = Input(shape=(250, 250, 3))

#같으느 비전 모델을 두 번 호출합니다.
left_features = xception_base(left_input)
right_features = xception_base(right_input)

merged_features = layers.concatenate([left_features, right_features], axis=-1)  # 합쳐진 특성은 오른쪽 입력과 왼쪽 입력에서 얻은 정보를 담고 있습니다.
```

### 7.1.7 정리
이것으로 케라스의 함수형 API 소개를 마칩니다.
- 차례대로 층을 쌓는 것 이상이 필요할 때는 Sequential API를 사용하지 않습니다.
- 함수형 API를 사용하여 다중 입력, 다중 출력, 복잡한 네트워크 토폴로지를 갖는 케라스 모델을 만드는 방법
- 다른 네트워크 가지에서 같은 층이나 모델 객체를 여러 번 호출하여 가중치를 재사용하는 방법