(ch:keras-tf)=
# 케라스와 텐서플로우

**감사의 글**

아래 내용은 프랑소와 숄레의 
[Deep Learning with Python(2판)](https://github.com/fchollet/deep-learning-with-python-notebooks)의 
소스코드 내용을 참고해서 작성되었습니다.
자료를 공개한 저자에게 진심어린 감사를 전합니다.

**소스코드**

여기서 언급되는 코드를
[(구글 코랩) 케라스와 텐서플로우](https://colab.research.google.com/github/codingalzi/dlp2/blob/master/notebooks/NB-keras_and_tf.ipynb)에서 
직접 실행할 수 있다.

**슬라이드**

본문 내용을 요약한 [슬라이드](https://github.com/codingalzi/dlp2/raw/master/slides/slides-keras_and_tf.pdf)를 다운로드할 수 있다.

**주요 내용**

케라스와 텐서플로우를 이용한 딥러닝의 활용법을 소개한다.

## 딥러닝 주요 라이브러리

### 텐서플로우

텐서플로우는 파이썬에 기반한 머신러닝 플랫폼이며,
머신러닝 모델의 훈련에 필요한 텐서 연산을 지원한다.
넘파이<font size='2'>Numpy</font> 패키지와 유사하지만 보다 많은 기능을 제공한다. 

- 그레이디언트 자동 계산
- GPU, TPU 등 고성능 병렬 하드웨어 가속기 활용 가능
- 여러 대의 컴퓨터 또는 클라우드 컴퓨팅 서비스 활용 가능
- C++(게임), 자바스크립트(웹브라우저), TFLite(모바일 장치) 등과 호환 가능

텐서플로우는 또한 단순한 패키지 기능을 넘어서는 머신러닝 플랫폼 역할도 수행한다.

- TF-Agents: 강화학습 연구 지원
- TFX: 머신러닝 프로젝트 운영 지원
- TensorFlow-Hub: 사전 훈련된 머신러닝 모델 제공

### 케라스

딥러닝 모델 구성 및 훈련에 효율적으로 사용될 수 있는 다양한 수준의 API를 제공하며,
텐서플로우의 프론트엔드<font size='2'>front end</font> 인터페이스 기능을 수행한다.
원래 텐서플로우와 독립적으로 개발되었지만 텐서플로우 2.0부터 텐서플로우 라이브러리의 최상위 프레임워크<font size='2'>framework</font>로 포함됐다.

<div align="center"><img src="https://drek4537l1klr.cloudfront.net/chollet2/v-7/Figures/keras_and_tf.png" style="width:600px;"></div>

<p><div style="text-align: center">&lt;그림 출처: <a href="https://www.manning.com/books/deep-learning-with-python-second-edition">Deep Learning with Python(2판)</a>&gt;</div></p>

:::{admonition} 모듈, 패키지, 라이브러리, 프레임워크
:class: note

한 번 구현한 파이썬 코드를 다른 파이썬 파일의 코드에서 공유해서 사용할 수 있도록 하기 위해 모듈<font size='2'>module</font>을 활용한다. 
파이썬 모듈은 간단하게 말하면 하나의 파이썬 소스코드 파일이며, 확장자로 .py 가 사용된다. 모듈에는 보통 서로 연관된 함수와 클래스 등을 저장한다.
하나의 모듈이 독립적으로 제공되기도 하지만 다른 모듈과 함께 하나의 모음집으로 제공되기도 한다. 
모음집의 크기와 용도에 따라 패키지, 라이브러리, 프레임워크 등 다양한 이름으로 불린다.

- 패키지<font size='2'>package</font>: 모듈을 모아놓은 디렉토리(폴더)
- 라이브러리<font size='2'>library</font>: 모듈, 패키지 등 재사용이 가능한 코드의 모음집을 통칭헤서 부르는 이름
- 프레임워크<font size='2'>framework</font>: 라이브러리 보다 포괄적인 개념. 
    라이브러리가 도구 모음집만 제공하는 반면에 프레임워크는 라이브러리와 함께 라이브러리를 쉽게 적용할 수 있는 
    틀<font size='2'>frame</font>과 아키텍처<font size='2'>architecture</font>를 함께 제공
:::

### 딥러닝 주요 라이브러리 약력

- 2007년: 씨아노<font size='2'>Theano</font> 공개. 
    텐서를 이용한 계산 그래프, 미분 자동화 등을 최초로 지원한 딥러닝 라이브러리.
- 2015년 3월: 케라스 라이브러리 공개. Theano를 백앤드로 사용하는 고수준 패키지.
- 2015년 11월: 텐서플로우 라이브러리 공개.
- 2016년: 텐서플로우가 케라스의 기본 백엔드로 지정됨.
- 2016년 9월: 페이스북이 개발한 파이토치<font size='2'>PyTorch</font> 공개.
- 2017년: Theano, 텐서플로우, CNTK(마이크로소프트), MXNet(아마존)이 케라스의 백엔드로 지원됨.
    현재 Theano, CNTK 등은 더 이상 개발되지 않으며, MXNet은 아마존에서만 주로 사용됨.
- 2018년 3월: PyTorch와 Caffe2를 합친 PyTorch 출시(페이스북과 마이크로소프트의 협업)
- 2019년 9월: 텐서플로우 2.0부터 케라스가 텐서플로우의 최상위 프레임워크로 지정됨.
- 2023년 가을: Keras Core가 케라스 3.0으로 출시 예정. 텐서플로우, PyTorch, JAX의 프론트엔드 기능 지원.

:::{admonition} Keras Core
:class: note

파이토치 또한 텐서 연산을 지원하는 딥러닝 라이브러리이다.
텐서플로우와 케라스의 조합이 강력하지만 신경망의 보다 섬세한 조정은 약하다는 지적을 많이 받는 반면에
파이토치는 상대적으로 보다 자유롭게 신경망을 구성할 수 있다고 평가된다.
텐서플로우와 케라스의 조합이 여전히 보다 많이 사용되지만 딥러닝 연구에서 파이토치의 활용 또한 점점 늘고 있다.
선호도에 대한 논쟁이 지난 몇 년간 있어 왔지만 상대적으로 약해질 것으로 기대된다.
이유는 케라스 3.0부터 텐서플로우뿐만 아니라 파이토치도 케라스의 지원을 받기 때문이다.

<div align="center"><img src="https://github.com/codingalzi/dlp2/blob/master/jupyter-book/imgs/ch03-keras-core.png?raw=true" style="width:500px;"></div>

:::

### 딥러닝 개발환경

딥러닝 신경망 모델의 훈련을 위해서 GPU를 활용할 것을 강력히 추천한다.
GPU를 사용하지 않으면 모델의 훈련이 너무 느려진다.
[구글 코랩](https://colab.research.google.com/?hl=ko)을 이용하면
특별한 준비 없이 바로 신경망 모델을 GPU와 함께 훈련시킬 수 있다.
구글 코랩은 주피터 노트북을 사용하는데, 주피터 노트북 사용법과
구글 코랩에서 GPU를 이용하는 방법은 검색을 통해 쉽게 확인할 수 있다.

하지만 딥러닝 모델 훈련을 많이 시키려면 NVIDIA 그래픽카드가 장착된 
개인용 컴퓨터를 활용하는 것이 좋다.
운영체제는 [Ubuntu](https://ubuntu.com/download/desktop) 또는 윈도우 11을 추천한다.

- 윈도우 11에서 GPU를 지원 텐서플로우 설치: [WSL2에 NVIDIA CUDA 드라이버 12.0, Toolkit 과 cuDNN 설치](https://github.com/codingalzi/dlp2/blob/master/INSTALL.md) 참고

- 우분투에서 GPU 지원하는 텐서플로우 설치: [Anaconda와 conda 환경 활용](https://github.com/ageron/handson-ml3/blob/main/INSTALL.md) 참고

보다 전문적인 딥러닝 연구를 위해 대용량의 메모리와 고성능의 CPU, GPU가 필요한 경우
직접 모든 장비를 마련하기는 어려울 수 있다.
대신 [구글 클라우드 플랫폼](https://cloud.google.com/) 또는 
[아마존 웹서비스(AWS EC2)](https://aws.amazon.com/ko/?nc2=h_lg) 등에서
유료로 지원되는
고성능 클라우드 컴퓨팅 서비스를 활용하는 것이
경우에 따라 상대적으로 많이 저렴할 수 있다.

## 케라스 신경망 모델의 핵심 API

신경망 모델은 층<font size='2'>layer</font>으로 구성된다.
모델에 사용되는 층의 종류와 층을 쌓는 방식에 따라
모델이 처리할 수 있는 데이터와 훈련 방식이 달라지는데
케라스 라이브러리가 층을 구성하고 훈련 방식을 관장하는 다양한 API를 제공한다.

### 층

**층의 기능**

층은 입력 데이터를 지정된 방식에 따라 다른 모양의 데이터로 변환하는 
**포워드 패스**<font size='2'>forward pass</font>를 담당한다.
또한 데이터 변환에 사용되는 가중치<font size='2'>weight</font>와 편향<font size='2'>bias</font>도
저장한다.

**층의 종류**

층의 종류에 따라 입력 배치 데이터셋 텐서의 모양이 달라진다.
많이 사용되는 층 클래스는 다음과 같다.

- `Dense` 클래스
    - 밀집층 생성
    - `(배치 크기, 특성 수)` 모양의 2D 텐서로 입력된 데이터셋 처리.
- `LSTM` 또는 `Conv1D` 클래스
    - 순차 데이터와 시계열 데이터 분석에 사용되는 순환층 생성
    - `(배치 크기, 타임스텝 수, 특성 수)` 모양의 3D 텐서로 입력된 순차 데이터셋 처리.
- `Conv2D` 클래스
    - 합성곱 신경망(CNN) 구성에 사용되는 합성곱층 생성
    - `(배치 크기, 가로, 세로, 채널 수)` 모양의 4D 텐서로 제공된 이미지 데이터셋 처리.
    
케라스를 활용하여 딥러닝 모델을 구성하는 일은 호환 가능한 층들을 적절하게 연결하여 층을 쌓는 것을 의미한다.

**`tf.keras.layers.Layer` 클래스**

케라스의 모든 층 클래스는 `tf.keras.layers.Layer` 클래스를 상속한다.
그리고 상속되는 `__call__()` 메서드가 
가중치와 편향 텐서를 초기화하고 입력 데이터셋을 출력 데이터셋으로 변환하는 
포워드 패스를 수행한다.
단, 가중치와 편향이 이미 생성되어 있다면 새로 생성하지 않고 그대로 사용한다. 

`tf.keras.layers.Layer` 클래스에서 선언된 `__call__()` 메서드가 하는 일을 간략하게 나타내면 다음과 같다. 

```python
def __call__(self, inputs):
    if not self.built:
        self.build(inputs.shape)
        self.built = True
    return self.call(inputs)
```

위 코드에 사용된 인스턴스 변수와 메서드는 다음과 같으며 모두 
`tf.keras.layers.Layer`로부터 상속된다.

- `self.built`: 모델 훈련에 사용될 가중치와 편향이 준비되어 있는지 여부 기억
- `self.build(inputs.shape)`: 입력 데이터셋의 모양 정보를 이용하여 
    적절한 모양의 가중치 텐서와 편향 텐서를 생성하고 초기화한다.
    - 가중치 텐서 초기화: 정규 분포를 이용한 무작위 초기화
    - 편향 텐서 초기화: 0 벡터로 초기화
- `self.call(inputs)`: 아핀 변환, 활성화 함수 등을 이용한 포워드 패스.
    즉 입력 데이터셋을 출력 텐서로 변환해서 반환

**`Dense` 클래스 직접 구현하기**

{numref}`%s절 <sec:nn-mnist>`에서 MNIST 데이터셋을 이용한 분류 모델에 사용된
신경망 모델은 연속으로 쌓은 두 개의 `Dense` 층으로 구성된다.

```python
model = keras.Sequential([
    layers.Dense(512, activation="relu"),
    layers.Dense(10, activation="softmax")
])
```

`Dense` 클래스와 유사하게 작동하는 클래스를 직접 정의하려면 
상속해야 하는 `keras.layers.Layer` 클래스의 `__call()__` 메서드에 의해 호출되는
`build()` 메서드와 `call()` 메서드를 구현해야 한다.
아래 `SimpleDense` 클래스가 `Dense` 클래스의 기능을 단순화하여 구현한다.

두 메서드의 정의에 사용된 매개변수와 메서드는 다음과 같다.

- `units`: 출력 샘플의 특성 수 지정
- `activation`: 활성화 함수 지정
- `input_shape`: 입력값(`inputs`)으로 얻은 입력 배치의 2D 모양 정보. 둘째 항목이 입력 샘플의 특성 수.
- `add_weight(모양, 초기화방법)`: 지정된 모양의 텐서 생성 및 초기화. `Layer` 클래스에서 상속.

```python
from tensorflow import keras

class SimpleDense(keras.layers.Layer):
    def __init__(self, units, activation=None):
        super().__init__()
        self.units = units           # 유닛 개수 지정
        self.activation = activation # 활성화 함수 지정

    # 가중치와 편향 초기화
    def build(self, input_shape):
        input_dim = input_shape[-1]   # 입력 샘플의 특성 수
        self.W = self.add_weight(shape=(input_dim, self.units),
                                 initializer="random_normal")
        self.b = self.add_weight(shape=(self.units,),
                                 initializer="zeros")

    # 데이터 변환(포워드 패스)
    def call(self, inputs):
        y = tf.matmul(inputs, self.W) + self.b
        if self.activation is not None:
            y = self.activation(y)
        return y
```

:::{prf:example} `SimpleDense` 층의 데이터 변환
:label: simpledense

모델 훈련 과정에서 포워드 패스는 층에서 층으로 이어지는 연속된 데이터 변환으로 이뤄진다.
`SimpleDense` 층을 이용하여 입력 데이터셋이 어떻게 변환되어 다음 층으로 전달되는 과정을 살펴본다.

아래 코드에서 `my_dense` 변수는 하나의 `SimpleDense` 층을 가리킨다.

- 유닛 수: 512개
- 활성화 함수: `relu`

```python
>>> my_dense = SimpleDense(units=512, activation=tf.nn.relu)
```

아래 코드는 입력 배치 데이터셋으로 사용할 (128, 784) 모양의 텐서를 생성한다.

- 128: 배치 크기
- 784: MNIST 데이터셋의 손글씨 이미지 한 장의 특성 수(`28 * 28 = 128`)

```python
>>> input_tensor = tf.ones(shape=(128, 784))
```

이제 `my_dense`를 함수 호출하듯이 사용하면 출력값이 계산된다.
즉, 포워드 패스가 실행된다.
층은 입렵 데이터셋을 처리할 때 입력 데이터셋의 모양을 확인하기에 
굳이 입력 데이터셋에 대한 정보를 미리 요구하지 않는다.


```python
>>> output_tensor = my_dense(input_tensor)
```

내부적으로는 `__call__()` 메서드가 호출되어 다음 사항들이 연속적으로 처리된다. 

- 가중치 텐서와 와 편향 텐서가 생성되지 않은 경우
    - `(784, 512)` 모양의 가중치 텐서 `W` 생성 및 무작위 초기화. 782는 입력 샘플의 특성 수, 512는 층의 유닛 수.
    - `(512, )` 모양의 편향 텐서 `b` 생성 및 `0`으로 초기화. 512는 층의 유닛 수.
    - 포워드 패스: 생성된 가중치와 편향을 이용하여 출력값 계산.

- 가중치 텐서와 와 편향 텐서가 생성되어 있는 경우. 즉 훈련이 반복되는 경우.
    - 포워드 패스: 역전파로 업데이트된 가중치와 편향을 이용하여 출력값 계산.

층의 출력값은 `(128, 32)` 모양의 텐서다.
이유는 각 데이터 샘플의 784개의 특성이 32개의 특성으로 변환되었기 때문이다.

```python
>>> print(output_tensor.shape)
(128, 512)
```
:::

### 모델

앞서 살펴 본 `Sequential` 모델은 층을 일렬로 쌓는 모델이며
각각의 층은 이전 층에서 전달된 배치 데이터셋을 변환해서 다음 층으로 전달한다.

**`tf.keras.Model` 클래스**

`Sequential` 클래스를 포함하여 케라스에서 지원되는 모든 모델 클래스는 `tf.keras.Model` 클래스를 상속한다.
예를 들어 `Sequential` 클래스를 이용하여 정의된 MNIST 분류 모델을 `SimpleDense` 층을 이용하여 직접 다음과 같이 정의할 수 있다.

```python
class MySequential(keras.Model):
    def __init__(self, list_layers): # 층들의 리스트 지정
        super().__init__()
        self.list_layers = list_layers

    # 포워드 패스: 층과 층을 연결하는 방식으로 구현
    def call(self, inputs):
        outputs = inputs
        for layer in self.list_layers:
            outputs = layer(outputs)
        return outputs
```

아래 두 개의 층을 이용하여 모델을 지정하고 다중 클래스 분류 모델에 맞게 모델을 컴파일한다.

```python
layer_1 = SimpleDense(units=512, activation=tf.nn.relu)   # 첫째 밀집층
layer_2 = SimpleDense(units=10, activation=tf.nn.softmax) # 둘째 밀집층

model = MySequential([layer_1, layer_2])
```

:::{admonition} 직접 구현한 `Dense` 층과 케라스의 `Dense` 층의 차이점
:class: note

`keras.layers.Dense` 층을 이용한다면 다음과 같이 활성화 함수를 문자열로 지정할 수 있다.

```python
layer_1 = Dense(units=512, activation='relu')   # 첫째 밀집층
layer_2 = Dense(units=10, activation='softmax') # 둘째 밀집층

model = MySequential([layer_1, layer_2])
```
:::

**모델을 하나의 층으로 활용하기**

기존에 정의된 모델을 다른 모델을 구성할 때 하나의 층으로 활용할 수도 있다.
이런 이유로 `tf.keras.Model` 클래스는 `tf.keras.layers.Layer` 클래스를 
상속하도록 설계되어 있다.
`tf.keras.Model` 클래스의 활용법에 대한 보다 자세한 설명은 {numref}`%s장 <ch:working_with_keras>`을 참고한다.

**모델의 학습과정과 층의 구성**


모델의 학습과정은 전적으로 층의 구성방식에 의존한다. 
그리고 층의 구성 방식은 주어진 데이터셋과 모델이 해결해야 하는 문제에 따라 달라진다.
층을 구성할 때 특별히 정해진 규칙은 없지만 
문제 유형에 따른 권장 모델이 다양하게 개발되어 있다.

앞으로 보다 복잡하고 다양한 방식으로 층을 구성하는 방식들을 살펴볼 것이다.
예를 들어, 아래 그림은 {numref}`%s장 자연어 처리 <ch:nlp>`에서 소개하는
트랜스포머<font size='2'>Transformer</font> 모델의 복잡한 층 연결 구조를 보여준다.

<div align="center"><img src="https://drek4537l1klr.cloudfront.net/chollet2/v-7/Figures/transformer0001.png" style="width:500px;"></div>

<p><div style="text-align: center">&lt;그림 출처: <a href="https://www.manning.com/books/deep-learning-with-python-second-edition">Deep Learning with Python(2판)</a>&gt;</div></p>

**모델 컴파일**

선언된 모델을 훈련시키려면 다음 세 가지 설정을 추가로 지정해야 한다.

- 손실 함수
    - 훈련 중 모델의 성능이 얼마나 나쁜지 측정.
    - 가중치와 편향 의존하는 함수
    - 가중치와 편향에 대해 미분 가능해야 함.
    - 옵티마이저가 역전파를 통해 모델의 성능을 향상시키는 방향으로 모델의 가중치를 업데이트할 때 참고하는 함수임.
- 옵티마이저
    - 가중치와 편향을 업데이트하는 역전파 반복 실행
- 평가지표 
    - 훈련과 테스트 과정을 모니터링 할 때 사용되는 모델 평가 지표.
    - 손실 함수와는 달리 훈련에 사용되지 않음.
    - 단순히 모델 성능 평가에 사용됨.

케라스에서 기본으로 제공하는 옵티마이저, 손실 함수, 평가지표는 문자열로 지정할 수 있다.

```python
model = keras.Sequential([keras.layers.Dense(1)])
model.compile(optimizer="rmsprop",
              loss="mean_squared_error",
              metrics=["accuracy"])
```

각각의 문자열은 특정 파이썬 객체를 가리킨다.

| 문자열 | 파이썬 객체 |
| :--- | :--- |
| `"rmsprop"` | `keras.optimizers.RMSprop()` |
| `"mean_squared_error"` | `keras.losses.MeanSquaredError()` |
| `"accuracy"` | `keras.metrics.BinaryAccuracy()]` |

따라서 지정된 문자열을 사용하는 대신 파이썬 객체를 직접 지정해도 된다.
만약 사용자가 직접 구현한 클래스의 객체를 이용하려면
앞서 `SimpleDense`를 통해 본 것처럼 적절한 클래스를 상속하면서
동시에 필수 메서드를 모두 적절하게 재정의해야<font size='2'>overriding</font> 한다.

```python
model.compile(optimizer=keras.optimizers.RMSprop(),
              loss=keras.losses.MeanSquaredError(),
              metrics=[keras.metrics.BinaryAccuracy()])
```

다음 두 가지의 경우엔 문자열 대신 해당 객체를 지정해야 한다.
- 예를 들어, 기본값과 다른 학습률(`learning_rate`)을 사용하는 옵티마이저를 지정하는 경우
- 사용자가 직접 정의한 객체를 사용하는 경우

아래 코드는 직접 객체를 지정하는 방식으로 모델을 컴파일하는 형식을 보여준다.
```python
model.compile(optimizer=keras.optimizers.RMSprop(learning_rate=1e-4),
              loss=사용자정의손실함수객체,
              metrics=[사용자정의평가지표_1, 사용자정의평가지표_2])
```

일반적으로 가장 많이 사용되는 옵티마이저, 손실함수, 평가지표는 다음과 같으며
앞으로 다양한 예제를 통해 적절한 옵티마이저, 손실함수, 평가지표를 선택하는 방법을 살펴볼 것이다.

옵티마이저: 다양한 옵티마이저의 장단점에 대해서는 [Hands-on Machine Learning 3판](https://www.oreilly.com/library/view/hands-on-machine-learning/9781098125967/)의 11장에 정리되어 있다.

- SGD
- SGD + momentum
- Adagrad
- RMSprop
- Adam
- Nadam
- AdamW

등등.

손실 함수: 일반적으로 모델의 종류에 따라 손실 함수를 선택한다.

| 손실 함수 | 용도 |
| :---: | :---: |
| CategoricalCrossentropy | 다중 클래스 분류 |
| SparseCategoricalCrossentropy | 다중 클래스 분류. 정수형 (벡터) 타깃 |
| BinaryCrossentropy | 이진 분류 |
| MeanSquaredError | 회귀 |
| KLDivergence | 다중 클래스 분류 |
| CosineSimilarity | 회귀와 분류 모두. 문장 번역, 물건 추천, 이미지 분류 등 |
| 등등 | |

평가지표: 일반적으로 모델 종류와 목적에 따라 평가 지표를 선택한다.

| 평가지표 | 용도 |
| :---: | :---: |
| CategoricalAccuracy | 다중클래스 분류 정확도  측정|
| SparseCategoricalAccuracy | 다중클래스 분류 정확도. 정수형 (벡터) 타깃 사용|
| BinaryAccuracy | 이진 분류 정확도 측정 |
| AUC | 다중 클래스 분류 AUC 측정 |
| Precision | 다중 클래스 분류 정밀도 측정 |
| Recall | 다중 클래스 분류 재현율 측정 |
| 등등 | |

### 훈련 루프

모델을 컴파일한 다음에 `fit()` 메서드를 호출하면
모델은 스텝 단위로 반복되는 **훈련 루프**<font size='2'>training loop</font>가 작동한다.
지정된 에포크 만큼 또는 학습이 충분히 이루어졌다는 평가가 내려질 때까지
훈련을 반복한다.

**지도학습 모델 훈련**

모델을 훈련시키려면 `fit()` 메서드를 적절한 인자들과 함께 호출해야 한다.

```python
training_history = model.fit(
    inputs,
    targets,
    epochs=5,
    batch_size=128
)
```

- (지도 학습 모델의 경우) 훈련셋(inputs)과 타깃셋(targets): 보통 넘파이 어레이 또는 텐서플로우의 `Dataset` 객체 사용
- 에포크(`epochs`): 전체 훈련 세트를 몇 번 훈련할 지 지정
- 배치 크기(`batch_size`): 하나의 스텝 과정에서 사용되는 데이터 묶음(배치)의 크기

**`History` 객체: 훈련 결과**

모델의 훈련 결과로 `History` 객체가 반환된다.
예를 들어 `History` 객체의 `history` 속성은 에포크별로 계산된 손실값과 평가지표값을
사전 자료형으로 가리킨다.

```python
>>> training_history.history
{'loss': [0.2729695439338684,
  0.11179507523775101,
  0.07302209734916687,
  0.0526457279920578,
  0.04022042825818062],
 'accuracy': [0.9212833046913147,
  0.9672333598136902,
  0.9783666729927063,
  0.9844833612442017,
  0.988099992275238]}
```

**검증 데이터 활용**

머신러닝 모델 훈련의 목표는 훈련셋에 대한 높은 성능이 아니라
훈련에서 보지 못한 새로운 데이터에 대한 정확한 예측이다.
훈련 중에 또는 훈련이 끝난 후에 모델이 새로운 데이터에 대해 정확한 예측을 하는지
여부를 판단하도록 할 수 있다.

이를 위해 전체 데이터셋을 훈련셋과 검증셋<font size='2'>validation dataset</font>으로 구분한다.
훈련셋과 검증셋의 비율은 보통 8대2 또는 7대3 정도로 하지만
훈련셋이 매우 크다면 검증셋의 비율을 보다 적게 잡을 수 있다.
훈련셋 자체가 매우 작은 경우엔 검증셋을 따로 분리하기 보다는 K-겹 교차 검증 등을 사용해야 한다.

훈련셋과 검증셋이 서로 겹치지 않도록 주의해야 한다.
그렇지 않으면 훈련 중에 모델이 검증셋에 포함된 데이터를 학습하기에
정확환 모델 평가를 할 수 없게 된다.

*훈련 중 모델 검증*

아래 코드는 미리 지정된 검증셋 `val_inputs`와 검증 타깃값 `val_targets`를
`validation_data`의 키워드 인자로 지정해서
모델 훈련 중에 에포크 단위로 측정하도록 한다.

```python
model.fit(
    training_inputs,
    training_targets,
    epochs=5,
    batch_size=16,
    validation_data=(val_inputs, val_targets)
)
```

검증셋에 대한 손실값과 정확도도 훈련중에 계산된다.

```python
>>> training_history.history
{'loss': [0.02950882911682129,
  0.021471761167049408,
  0.015012570656836033,
  0.011033009737730026,
  0.0080801947042346],
 'accuracy': [0.991428554058075,
  0.9937618970870972,
  0.9962857365608215,
  0.9974523782730103,
  0.9982380867004395],
 'val_loss': [0.029974577948451042,
  0.03373847156763077,
  0.03262251615524292,
  0.03768538683652878,
  0.03493628650903702],
 'val_accuracy': [0.9906111359596252,
  0.9896666407585144,
  0.9901666641235352,
  0.9882222414016724,
  0.9900555610656738]}
```

*훈련 후 모델 검증*

훈련이 끝난 모델의 성능 검증하려면 `evaluate()` 메서드를 이용한다.
배치 크기(`batch_size`)를 지정하여 배치 단위로 학습하도록 한다.

```python
>>> loss_and_metrics = model.evaluate(val_inputs, val_targets, batch_size=128)
```

반환값으로 지정된 손실값과 평가지표를 담은 리스트가 생성된다.

```python
>>> print(loss_and_metrics)
[0.29411643743515015, 0.5333333611488342]
```

### 예측

모델의 훈련과 검증이 완료되면 실전에서 새로운 데이터에 대한 예측을 진행한다.
데이터셋에 포함된 모든 데이터에 대한 예측을 한 번에 실행할 수 있으며
두 가지 방식이 존재한다.

**모델 적용**

모델을 마치 함수처럼 이용한다. 

```python
predictions = model(new_inputs)
```

내부적으론 앞서 설명한 `__call()__` 메서드가 실행된다.
따라서 `call()` 메서드를 사용하는 포워드 패스가 실행되어
예측값이 계산된다.

하지만 이 방식은 입력 데이터셋 전체를 대상으로 한 번에 계산하기에
데이터셋이 너무 크면 계산이 너무 오래 걸리거나 메모리가 부족해질 수 있다.
따라서 배치를 활용하는 `predict()` 메서드를 활용할 것을 추천한다.

**`predict()` 메서드**

훈련된 모델의 `predict()` 메서드는 배치 크기를 지정하면
배치 단위로 예측값을 계산한다.

```python
predictions = model.predict(new_inputs, batch_size=128)
```

## 연습 문제

1. [(실습) 케라스와 텐서플로우](https://colab.research.google.com/github/codingalzi/dlp2/blob/master/excs/exc-keras_and_tf.ipynb)