# 함수형 API를 사용해 복잡한 Model 만들기

## 1. Keras의 Model

* 모든 neural network models들이 sequential은 아님
* 어떤 neural network models들은 더 복잡한 형태일 수 있음<br> 
$ \ \ $ $\checkmark \ $ multiple inputs과 multiple outputs을 가지는 model
* 예를들면 Wide & Deep neural network은 입력의 일부 또는 전체가 출력과 연결되어 있음. [paper]https://ai.google/research/pubs/pub45413


![image-3.png](attachment:image-3.png)

- Deep Neural Network이 General Approximation이라는 점을 상기한다면 다음과 같은 문제를 다룰 수 있다는 것임

![image-5.png](attachment:image-5.png)

* keras Functional API의 구성
![image-4.png](attachment:image-4.png)

## 2. Functional API를 사용한 예제

[자료] Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow, 2nd Edition

### 2.1 California Housing Dataset의 이해

- Machine Leaning문제는 Classification문제와 Regression문제로 구분할 수 있음<br>
- fashionMNIST      : Classification문제<br>
- California housing: Regression문제임

![image-3.png](attachment:image-3.png)

In [1]:
import matplotlib.pyplot as plt
import numpy as np

import tensorflow as tf
from tensorflow import keras
from tensorflow.keras import layers

from sklearn.datasets import fetch_california_housing
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

housing = fetch_california_housing()

X_train_full, X_test, y_train_full, y_test \
         = train_test_split(housing.data, housing.target, random_state=42)
X_train, X_valid, y_train, y_valid  \
         = train_test_split(X_train_full, y_train_full, random_state=42)

# X변수만 Scaling한 것. y변수는 Scaling이 필요없음
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_valid = scaler.transform(X_valid)
X_test = scaler.transform(X_test)

import numpy as np
import tensorflow as tf
from tensorflow import keras
#from keras.models import Model
#from keras.layers import Input, Dense

X_train.shape, X_train.shape[0], X_train.shape[0:], X_train.shape[1:]  # 2차원 tuple임

((11610, 8), 11610, (11610, 8), (8,))

In [2]:
np.random.seed(42)
tf.random.set_seed(42)

In [3]:
X_train.shape[1:]  # california housing dataset의 feature변수 수는 8개임

(8,)

### 2.2  $Residual \ Net$

* Network Architecture
![image-6.png](attachment:image-6.png)

In [4]:
input_ = keras.layers.Input(shape=X_train.shape[1:])
hidden1 = keras.layers.Dense(30, activation="relu")(input_)
hidden2 = keras.layers.Dense(30, activation="relu")(hidden1)
concat = keras.layers.concatenate([input_, hidden2])
output = keras.layers.Dense(1)(concat)

model = keras.models.Model(inputs=[input_], outputs=[output])

In [5]:
model.summary()   # input이 마지막으로 연결되는 부위에는 parameters가 없음

Model: "model"
__________________________________________________________________________________________________
 Layer (type)                   Output Shape         Param #     Connected to                     
 input_1 (InputLayer)           [(None, 8)]          0           []                               
                                                                                                  
 dense (Dense)                  (None, 30)           270         ['input_1[0][0]']                
                                                                                                  
 dense_1 (Dense)                (None, 30)           930         ['dense[0][0]']                  
                                                                                                  
 concatenate (Concatenate)      (None, 38)           0           ['input_1[0][0]',                
                                                                  'dense_1[0][0]']            

![image-2.png](attachment:image-2.png)

### 2.3 compile(optimizer, loss=None, metrics=None, loss_weight=None, sample_weight_mode=None, weight_metrics=None, target_tensor=None )

https://keras.io/ko/models/model/
- optimizer: 문자열 (옵티마이저의 이름) 혹은 옵티마이저 인스턴스 

![image-6.png](attachment:image-6.png)

- loss: 문자열 (목적 함수의 이름) 혹은 목적 함수


![image-5.png](attachment:image-5.png)

$ \qquad $ $\checkmark \ $ Model이 다중 output을 갖는 경우, loss의 list 혹은 loss의 dictionary를 전달하여 각 output에 각기 다른 <br> $\qquad \quad $  loss을 사용할 수 있음 <br> $\qquad \quad \ \ $ $\cdots$ 따라서 model에 의해 최소화되는 loss 값은 모든 개별적 loss의 합이 됨.<br>
- metrics: 학습과 테스트 과정에서 model이 평가할 측정항목의 list <br>
$ \ \ $ $\checkmark \ $ 보통은 metrics=['accuracy']를 사용<br>
$ \ \ $ $\checkmark \ $ 다중 output model의 각 output에 각기 다른 측정항목을 특정하려면, metrics={'output_a': 'accuracy'}와 같은   <br> $\quad \ \  $ dictionary를 전달할 수도 있음<br>
- loss_weights: 각기 다른 model output의 loss 기여도에 가중치를 부여하는 스칼라 계수(파이썬 부동소수점)를 특정하는 선택적 list 혹은 dictionary. <br>
$ \ \ $ $\checkmark \ $ 따라서 model이 최소화할 loss 값은 loss_weights 계수에 의해 가중치가 적용된 모든 개별 loss의 합이 됨<br>
$ \ \ $ $\checkmark \ $ list의 경우 model의 output에 1:1 매핑을 가져야 하며, 텐서의 경우 output 이름(문자열)을 스칼라 계수에   <br> $\quad \ \  $ 매핑해야 함<br>
- sample_weight_mode: 시간 단계별로 샘플 가중치를 주어야 하는 경우 (2D 가중치)<br> 
$ \ \ $ $\checkmark \ $ 이 인수를 "temporal"로 설정함 <br>
$ \ \ $ $\checkmark \ $ 디폴트 값은 None으로 (1D) 샘플별 가중치를 적용<br>
$ \ \ $ $\checkmark \ $ model이 다중 output을 갖는 경우 모디의 list 혹은 모드의 dictionary를 전달하여 각 output에 별도의   <br> $\quad \ \  $ sample_weight_mode를 사용할 수 있음<br>
- weighted_metrics: 학습 혹은 테스트 과정에서 sample_weight 혹은 class_weight로 가중치를 주고 평가할 측정항목의 list<br>
- target_tensors: Keras는 디폴트 설정으로 model의 표적을 위한 플레이스 홀더를 만들고, 학습 과정 중 이 플레이스 홀더에 표적 데이터를 채움<br>
$ \ \ $ $\checkmark \ $ 이러한 디폴트 설정 대신 직접 만든 표적 텐서를 사용하고 싶다면 (이 경우 Keras는 학습 과정 중 이러한 표적의   <br> $\quad \ \  $ 외부 Numpy 데이터를 기대하지 않습니다), target_tensors 인수를 통해서 그 표적 텐서를 특정할 수 있음<br>
$ \ \ $ $\checkmark \ $ 표적 텐서는 (단일 output model의 경우) 단일 텐서, 텐서 list, 혹은 표적 텐서에 output 이름을 매핑하는   <br> $\quad \ \  $ dictionary가 될 수 있음<br>
- \**kwargs: Theano/CNTK 백엔드를 사용하는 경우, 이 인수는 K.function에 전달<br>
$ \ \ $ $\checkmark \ $ 텐서플로우 백엔드를 사용하는 경우, 이는 tf.Session.run에 전달<br>

In [6]:
model.compile(loss="mean_squared_error", optimizer=keras.optimizers.SGD(lr=1e-3))  # lr=learning rate

  super(SGD, self).__init__(name, **kwargs)


In [7]:
history = model.fit(X_train, y_train, epochs=20,
                    validation_data=(X_valid, y_valid))

Epoch 1/20
Epoch 2/20
Epoch 3/20
Epoch 4/20
Epoch 5/20
Epoch 6/20
Epoch 7/20
Epoch 8/20
Epoch 9/20
Epoch 10/20
Epoch 11/20
Epoch 12/20
Epoch 13/20
Epoch 14/20
Epoch 15/20
Epoch 16/20
Epoch 17/20
Epoch 18/20
Epoch 19/20
Epoch 20/20


In [8]:
mse_test = model.evaluate(X_test, y_test)



In [9]:
X_new = X_test[:3]  # X_test를 Slicing 0, 1, 2

In [10]:
y_pred = model.predict(X_new)



In [11]:
y_pred 

array([[0.47008744],
       [1.8735241 ],
       [3.3798466 ]], dtype=float32)

### 2.4 복수개 입력

- 다음 그림과 같이 일부 특성은 짧은 경로로 전달하고 일부 특성은 깊은 경로로 전달하는 경우를 생각해 봄

![image-4.png](attachment:image-4.png)

In [12]:
np.random.seed(42)
tf.random.set_seed(42)

In [13]:
input_A = keras.layers.Input(shape=[5], name="wide_input")
input_B = keras.layers.Input(shape=[6], name="deep_input")
hidden1 = keras.layers.Dense(30, activation="relu")(input_B)
hidden2 = keras.layers.Dense(30, activation="relu")(hidden1)
concat = keras.layers.concatenate([input_A, hidden2])
output = keras.layers.Dense(1, name="main_output")(concat)
aux_output = keras.layers.Dense(1, name="aux_output")(hidden2)
model = keras.models.Model(inputs=[input_A, input_B],
                           outputs=[output, aux_output])

In [14]:
model.compile(loss="mse", optimizer=keras.optimizers.SGD(lr=1e-3))

X_train_A, X_train_B = X_train[:, :5], X_train[:, 2:]
X_valid_A, X_valid_B = X_valid[:, :5], X_valid[:, 2:]
X_test_A, X_test_B = X_test[:, :5], X_test[:, 2:]
X_new_A, X_new_B = X_test_A[:3], X_test_B[:3]

In [15]:
history = model.fit((X_train_A, X_train_B), y_train, epochs=20,
                    validation_data=((X_valid_A, X_valid_B), y_valid))

Epoch 1/20
Epoch 2/20
Epoch 3/20
Epoch 4/20
Epoch 5/20
Epoch 6/20
Epoch 7/20
Epoch 8/20
Epoch 9/20
Epoch 10/20
Epoch 11/20
Epoch 12/20
Epoch 13/20
Epoch 14/20
Epoch 15/20
Epoch 16/20
Epoch 17/20
Epoch 18/20
Epoch 19/20
Epoch 20/20


In [19]:
mse_test = model.evaluate((X_test_A, X_test_B), y_test)
y_pred = model.predict((X_new_A, X_new_B))



In [20]:
y_pred 

[array([[0.43130648],
        [1.8719785 ],
        [3.3147922 ]], dtype=float32),
 array([[0.9237088],
        [2.1996212],
        [2.981987 ]], dtype=float32)]

### 2.5 복수개 출력

- 분류와 좌표 data를 동시에 알고자할 때<br>
- 동일한 dataset을 이용하여 여러 작업을 수행하는 경우<br>
$\quad$ $\checkmark \ $ 출력1: 표정분류<br>
$\quad$ $\checkmark \ $ 출력2: 안경을 썼는지 구별<br>
- 규제 기법으로 사용하는 경우<br>
$\quad$ $\checkmark \ $ 과대적합을 감소하고 model의 일반화 성능을 높이도록 훈련에 제약을 가함

![image-3.png](attachment:image-3.png)

In [18]:
model.compile(loss=["mse", "mse"], loss_weights=[0.9, 0.1], optimizer=keras.optimizers.SGD(lr=1e-3))

In [19]:
history = model.fit([X_train_A, X_train_B], [y_train, y_train], epochs=20,
                    validation_data=([X_valid_A, X_valid_B], [y_valid, y_valid]))

Epoch 1/20
Epoch 2/20
Epoch 3/20
Epoch 4/20
Epoch 5/20
Epoch 6/20
Epoch 7/20
Epoch 8/20
Epoch 9/20
Epoch 10/20
Epoch 11/20
Epoch 12/20
Epoch 13/20
Epoch 14/20
Epoch 15/20
Epoch 16/20
Epoch 17/20
Epoch 18/20
Epoch 19/20
Epoch 20/20


In [20]:
total_loss, main_loss, aux_loss = model.evaluate(
    [X_test_A, X_test_B], [y_test, y_test])



In [21]:
y_pred_main, y_pred_aux = model.predict([X_new_A, X_new_B])

In [22]:
y_pred_main, y_pred_aux

(array([[0.575347 ],
        [1.9736842],
        [3.5570693]], dtype=float32),
 array([[0.88178337],
        [2.2625399 ],
        [3.1057696 ]], dtype=float32))

##### 서로 다른 Model에 의한 예측치 비교

![image-2.png](attachment:image-2.png)

### 2.6 서브클래싱 API로 동적 Model만들기

* Sequential API와 함수형 API는 model에 대해 선언을 해주어야함<br>
  \- 장점: model의 저장, 복사 및 공유가 쉬움, model 구조의 출력 및 분석이 쉬움, Error 발견이 용이<br>
  \- 단점: 정적(Static)한 분석 model임<br>
* 단점 극복의 방법으로 subclassing API를 사용<br>
  \- class를 상속한 다음 생성자 안에 필요한 층을 생성<br>
  \- call method 안에 수행하려는 연산을 기술

In [23]:
class WideAndDeepModel(keras.models.Model):
    def __init__(self, units=30, activation="relu", **kwargs):
        super().__init__(**kwargs)
        self.hidden1 = keras.layers.Dense(units, activation=activation)
        self.hidden2 = keras.layers.Dense(units, activation=activation)
        self.main_output = keras.layers.Dense(1)
        self.aux_output = keras.layers.Dense(1)
        
    def call(self, inputs):
        input_A, input_B = inputs
        hidden1 = self.hidden1(input_B)
        hidden2 = self.hidden2(hidden1)
        concat = keras.layers.concatenate([input_A, hidden2])
        main_output = self.main_output(concat)
        aux_output = self.aux_output(hidden2)
        return main_output, aux_output

model = WideAndDeepModel(30, activation="relu")

In [24]:
model.compile(loss="mse", loss_weights=[0.9, 0.1], optimizer=keras.optimizers.SGD(lr=1e-3))
history = model.fit((X_train_A, X_train_B), (y_train, y_train), epochs=10,
                    validation_data=((X_valid_A, X_valid_B), (y_valid, y_valid)))
total_loss, main_loss, aux_loss = model.evaluate((X_test_A, X_test_B), (y_test, y_test))
y_pred_main, y_pred_aux = model.predict((X_new_A, X_new_B))

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


In [25]:
model = WideAndDeepModel(30, activation="relu")

In [26]:
model.summary

<bound method Model.summary of <__main__.WideAndDeepModel object at 0x000001D4E3A2A9D0>>

## 2.7 Model 저장과 복원

In [27]:
np.random.seed(42)
tf.random.set_seed(42)

In [28]:
model = keras.models.Sequential([
    keras.layers.Dense(30, activation="relu", input_shape=[8]),
    keras.layers.Dense(30, activation="relu"),
    keras.layers.Dense(1)
])    

In [29]:
model.compile(loss="mse", optimizer=keras.optimizers.SGD(lr=1e-3))
history = model.fit(X_train, y_train, epochs=10, validation_data=(X_valid, y_valid))
mse_test = model.evaluate(X_test, y_test)

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


In [30]:
model.save("my_keras_model.h5")

In [31]:
model = keras.models.load_model("my_keras_model.h5")

In [32]:
model.predict(X_new)



array([[0.5400235],
       [1.6505971],
       [3.0098243]], dtype=float32)

In [33]:
model.save_weights("my_keras_weights.ckpt")

In [34]:
model.load_weights("my_keras_weights.ckpt")

<tensorflow.python.training.tracking.util.CheckpointLoadStatus at 0x1d4e80e2d30>

### 2.8 콜백 사용하기

In [35]:
keras.backend.clear_session()
np.random.seed(42)
tf.random.set_seed(42)

In [36]:
model = keras.models.Sequential([
    keras.layers.Dense(30, activation="relu", input_shape=[8]),
    keras.layers.Dense(30, activation="relu"),
    keras.layers.Dense(1)
])    

In [37]:
model.compile(loss="mse", optimizer=keras.optimizers.SGD(lr=1e-3))
checkpoint_cb = keras.callbacks.ModelCheckpoint("my_keras_model.h5", save_best_only=True)
history = model.fit(X_train, y_train, epochs=10,
                    validation_data=(X_valid, y_valid),
                    callbacks=[checkpoint_cb])
model = keras.models.load_model("my_keras_model.h5") # rollback to best model
mse_test = model.evaluate(X_test, y_test)

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


In [38]:
model.compile(loss="mse", optimizer=keras.optimizers.SGD(lr=1e-3))
early_stopping_cb = keras.callbacks.EarlyStopping(patience=10,
                                                  restore_best_weights=True)
history = model.fit(X_train, y_train, epochs=100,
                    validation_data=(X_valid, y_valid),
                    callbacks=[checkpoint_cb, early_stopping_cb])
mse_test = model.evaluate(X_test, y_test)

Epoch 1/100
Epoch 2/100
Epoch 3/100
Epoch 4/100
Epoch 5/100
Epoch 6/100
Epoch 7/100
Epoch 8/100
Epoch 9/100
Epoch 10/100
Epoch 11/100
Epoch 12/100
Epoch 13/100
Epoch 14/100
Epoch 15/100
Epoch 16/100
Epoch 17/100
Epoch 18/100
Epoch 19/100
Epoch 20/100
Epoch 21/100
Epoch 22/100
Epoch 23/100
Epoch 24/100
Epoch 25/100
Epoch 26/100
Epoch 27/100
Epoch 28/100
Epoch 29/100
Epoch 30/100
Epoch 31/100
Epoch 32/100
Epoch 33/100
Epoch 34/100
Epoch 35/100
Epoch 36/100
Epoch 37/100
Epoch 38/100
Epoch 39/100
Epoch 40/100
Epoch 41/100
Epoch 42/100
Epoch 43/100
Epoch 44/100
Epoch 45/100
Epoch 46/100
Epoch 47/100
Epoch 48/100
Epoch 49/100
Epoch 50/100
Epoch 51/100
Epoch 52/100
Epoch 53/100
Epoch 54/100
Epoch 55/100
Epoch 56/100
Epoch 57/100
Epoch 58/100
Epoch 59/100
Epoch 60/100
Epoch 61/100
Epoch 62/100
Epoch 63/100
Epoch 64/100
Epoch 65/100
Epoch 66/100
Epoch 67/100
Epoch 68/100
Epoch 69/100
Epoch 70/100
Epoch 71/100
Epoch 72/100
Epoch 73/100
Epoch 74/100
Epoch 75/100
Epoch 76/100
Epoch 77/100
Epoch 78

Epoch 80/100
Epoch 81/100
Epoch 82/100
Epoch 83/100
Epoch 84/100
Epoch 85/100
Epoch 86/100
Epoch 87/100
Epoch 88/100
Epoch 89/100
Epoch 90/100
Epoch 91/100
Epoch 92/100
Epoch 93/100
Epoch 94/100
Epoch 95/100
Epoch 96/100


In [39]:
class PrintValTrainRatioCallback(keras.callbacks.Callback):
    def on_epoch_end(self, epoch, logs):
        print("\nval/train: {:.2f}".format(logs["val_loss"] / logs["loss"]))

In [40]:
val_train_ratio_cb = PrintValTrainRatioCallback()
history = model.fit(X_train, y_train, epochs=1,
                    validation_data=(X_valid, y_valid),
                    callbacks=[val_train_ratio_cb])


val/train: 1.08


### 2.9  TensorBoard사용해 시각화하기

In [41]:
root_logdir = os.path.join(os.curdir, "my_logs")

NameError: name 'os' is not defined

In [None]:
def get_run_logdir():
    import time
    run_id = time.strftime("run_%Y_%m_%d-%H_%M_%S")
    return os.path.join(root_logdir, run_id)

run_logdir = get_run_logdir()
run_logdir

In [None]:
keras.backend.clear_session()
np.random.seed(42)
tf.random.set_seed(42)

In [None]:
model = keras.models.Sequential([
    keras.layers.Dense(30, activation="relu", input_shape=[8]),
    keras.layers.Dense(30, activation="relu"),
    keras.layers.Dense(1)
])    
model.compile(loss="mse", optimizer=keras.optimizers.SGD(lr=1e-3))

In [None]:
tensorboard_cb = keras.callbacks.TensorBoard(run_logdir)
history = model.fit(X_train, y_train, epochs=30,
                    validation_data=(X_valid, y_valid),
                    callbacks=[checkpoint_cb, tensorboard_cb])

In [None]:
%load_ext tensorboard
%tensorboard --logdir=./my_logs --port=6006

In [None]:
run_logdir2 = get_run_logdir()
run_logdir2

In [None]:
keras.backend.clear_session()
np.random.seed(42)
tf.random.set_seed(42)

In [None]:
model = keras.models.Sequential([
    keras.layers.Dense(30, activation="relu", input_shape=[8]),
    keras.layers.Dense(30, activation="relu"),
    keras.layers.Dense(1)
])    
model.compile(loss="mse", optimizer=keras.optimizers.SGD(lr=0.05))

In [None]:
tensorboard_cb = keras.callbacks.TensorBoard(run_logdir2)
history = model.fit(X_train, y_train, epochs=30,
                    validation_data=(X_valid, y_valid),
                    callbacks=[checkpoint_cb, tensorboard_cb])

In [None]:
help(keras.callbacks.TensorBoard.__init__)

### 3. Hyperparameter 튜닝

In [None]:
keras.backend.clear_session()
np.random.seed(42)
tf.random.set_seed(42)

In [None]:
def build_model(n_hidden=1, n_neurons=30, learning_rate=3e-3, input_shape=[8]):
    model = keras.models.Sequential()
    model.add(keras.layers.InputLayer(input_shape=input_shape))
    for layer in range(n_hidden):
        model.add(keras.layers.Dense(n_neurons, activation="relu"))
    model.add(keras.layers.Dense(1))
    optimizer = keras.optimizers.SGD(lr=learning_rate)
    model.compile(loss="mse", optimizer=optimizer)
    return model

In [None]:
keras_reg = keras.wrappers.scikit_learn.KerasRegressor(build_model)

In [None]:
keras_reg.fit(X_train, y_train, epochs=100,
              validation_data=(X_valid, y_valid),
              callbacks=[keras.callbacks.EarlyStopping(patience=10)])

In [None]:
mse_test = keras_reg.score(X_test, y_test)

In [None]:
y_pred = keras_reg.predict(X_new)

In [None]:
np.random.seed(42)
tf.random.set_seed(42)

In [None]:
from scipy.stats import reciprocal
from sklearn.model_selection import RandomizedSearchCV

param_distribs = {
    "n_hidden": [0, 1, 2, 3],
    "n_neurons": np.arange(1, 100),
    "learning_rate": reciprocal(3e-4, 3e-2),
}

rnd_search_cv = RandomizedSearchCV(keras_reg, param_distribs, n_iter=10, cv=3, verbose=2)
rnd_search_cv.fit(X_train, y_train, epochs=100,
                  validation_data=(X_valid, y_valid),
                  callbacks=[keras.callbacks.EarlyStopping(patience=10)])

In [None]:
rnd_search_cv.best_params_

In [None]:
rnd_search_cv.best_score_

In [None]:
rnd_search_cv.best_estimator_

In [None]:
rnd_search_cv.score(X_test, y_test)

In [None]:
model = rnd_search_cv.best_estimator_.model
model

In [None]:
model.evaluate(X_test, y_test)