## tf.keras.layers.Dense
    
Dense란 신경망 구조의 가장 기본적인 형태를 의미.  
즉, 아래의 수식을 만족하는 기본적인 신경망 형태의 층을 만드는 함수

\begin{align}
\mathbf{y=f(Wx+b)}
\end{align}

위 수식에서 x는 입력 벡터, b는 편향 벡터, W는 가중치 행렬, f는 활성화 함수이다.  
Dense 층을 구성하는 기본적인 방법은 가중치인 W와 b를 가각ㄱ 변수로 선언한 후 행렬 곱을 통해 구하는 방법.  
다음과 같이 직접 가중치 변수를 모두 정의해야 함.

In [1]:
import tensorflow as tf

W = tf.Variable(tf.random.uniform([5, 10], -1.0, 1.0))  
b = tf.Variable(tf.zeros([10]))

y = tf.matmul(W, x) + b

위와 같이 하나하나 선언하여 직접 곱하고, 더해야 하나 **Dense**를 이용하면 한 줄로 위의 코드 작성 가능  
keras의 Dense를 사용하려면 우선 객체를 생성해야 함.

dense = tf.kieras.layers.Dense( ... )

이렇게 생성한 Dense 층 객체에 입력값을 넣어야 함.  
입력값을 넣기 위해서는 객체를 생성할 때 함께 넣거나 생성한 후 따로 적용하는 방법이 있음

#### 1. 객체 생성 후 다시 호출하면서 입력값 설정  
dense = tf.keras.layers.Dense( ... )  
output = dense(input)


#### 2. 객체 생성 시 입력값 설정  
output = tf.keras.layers.Dense( ... )(input)

Dense 층을 만들 때 여러 인자를 통해 가중치와 편향 초기화 방법, 활성화 함수의 종류 등 여러 가지를 옵션으로 정할 수 있음.  
객체를 생성할 때 지정할 수 있는 인자는 다음과 같음.

__init__(  
    units,  
    activation = None,  
    use_bias = True,   
    kernel_initializer = 'glorot_uniform',  
    bias_initializer = 'zeros',  
    kernel_regularizer = None,  
    bias_regularizer = None,   
    activity_regularizer = None,  
    kernel_constraint = None,  
    bias_constraint = None,  
    **kwargs  
)

각 인자값이 의미하는 바가 무엇인지 하나씩 알아보자.

* units : 출력 값의 크기. Integer 혹은 Long  
* activation : 활성화 함수  
* use_bias : 편향(b)을 사용할지 여부. Boolean 값 형태.  
* kernel_initializer : 가중치(W) 초기화 함수  
* bias_initializer : 편향 초기화 함수  
* kernel_regularizer : 가중치 정규화 방법  
* bias_regularizer : 편향 정규화 방법  
* activity_regularizer : 출력 값 정규화 방법  
* kernel_constraint : Optimizer에 의해 업데이트 된 이후에 가중치에 적용되는 부가적인 제약 함수(예 : norm constraint, value constriant)  
* bias_constraint : Optimizer에 의해 업데이트 된 이후에 편향에 적용되는 부가적인 제약 함수(예 : norm constraint, value constraint)

#### 예제  
입력값에 대해 활성화 함수로는 sigmoid 함수, 출력값은 10개의 값을 출력하는 완전 연결 계층(Fully Connected Layer) 정의해보기

In [11]:
INPUT_SIZE = (20, 1)

inputs = tf.keras.layers.Input(shape = INPUT_SIZE)
output = tf.keras.layers.Dense(units = 10, activation = tf.nn.sigmoid)(inputs)

10개의 노드를 가지는 은닉층이 있고 최종 출력 값은 2개의 노드가 있는 신경망 구조를 생각해보자.

In [12]:
INPUT_SIZE = (20, 1)

inputs = tf.keras.layers.Input(shape = INPUT_SIZE)
hidden = tf.keras.layers.Dense(units = 10, activation = tf.nn.sigmoid)(inputs)
output = tf.keras.layers.Dense(units = 2, activation = tf.nn.sigmoid)(hidden)

### tf.keras.layers.Dropout

신경망 모델을 만들 때 생기는 여러 문제점 중 대표적인 문제점은 바로 **Overfitting**  
이는 정규화(Regularization) 방법을 통해 해결하는데, 그중 가장 대표적인 방법이 **dropout**  

텐서플로는 드롭아웃을 쉽게 모델에 적용할 수 있게 간단한 모듈을 제공하는데, 이 모듈을 이용하면 특정 keras.layers의 입력값에 드롭아웃을 적용할 수 있다.  
사용법은 dense 층 만드는 방법과 유사하게 Dropout 객체를 생성해서 사용하면 된다.

tf.keras.layers.Dropout( ... )

#### 1. 객체 생성 후 다시 호출하면서 입력값 설정  
dropout = tf.keras.layers.Dropout( ... )
output = dropout(input)

#### 2. 객체 생성 시 입력값 설정
output = tf.keras.layers.Dropout( ... )(input)

드롭아웃의 인자들을 살펴보자.

init(
rate,  
noise_shape = None,  
seed = Nont,  
**kwargs,  
)

* rate : 드롭아웃을 적용할 확률. 확률 값이므로 0 ~ 1 사이의 값이며 예를 들어 dropout = 0.2면 전체 입력값 중에서 20%를 0으로 만든다.
* noise_shape : 정수형의 1D-tensor 값을 받음. 여기서 받은 값은 shape을 뜻하는데, 이 값을 지정하여 특정 값만 드롭아웃을 적용할 수 있음. 예를 들어, 입력값이 이미지일 때 noise_shape을 지정하면 특정 채널에서만 드롭아웃이 가능.
* seed : 드롭아웃의 경우 지정된 확률 값을 바탕으로 무작위로 드롭아웃을 적용하는데, 이때 임의의 선택을 위한 시드 값을 의미. seed 값은 정수형이며, 같은 seed 값을 가지는 드롭아우스이 경우 동일한 드롭아웃 결과를 가짐.

In [47]:
INPUT_SIZE = (20, 1)

inputs = tf.keras.layers.Input(shape = INPUT_SIZE)
dropout = tf.keras.layers.Dropout(rate = 0.5)(inputs)

텐서플로에서 드롭아웃은 tf.keras.layers 뿐만 아니라 tf.nn 모듈에도 있는데, 두 모듈의 차이점은  
tf.keras.layers.dropout의 경우 확률을 0.2로 지정했을 때 노드의 20%를 0으로 만드는 데 비해  
tf.nn.dropout의 경우 확률을 0.2로 지정했을 때 80%를 0으로 만든다는 것.

In [45]:
inputs = tf.keras.layers.Input(shape = INPUT_SIZE)
dropout = tf.keras.layers.Dropout(rate = 0.2)(inputs)
hidden = tf.keras.layers.Dense(units = 10, activation = tf.nn.sigmoid)(dropout)
output = tf.keras.layers.Dense(units = 2, activation = tf.nn.sigmoid)(hidden)

Tensor("input_29:0", shape=(None, 1, 28, 28), dtype=float32)


위 처럼 드롭아웃을 적용하려는 층의 노드를 객체에 적용하면 됨.  
위 예제는 입력값에 드롭아웃을 적용한 후 Dense 층 지나도록 설정한 것.

### tf.keras.layers.Conv1D  

합성곱(Convolution) 연산 중 Conv1D에 대해 알아보자.  
텐서플로의 합성곱 연산은 Conv1D, Conv2D, Conv3D로 나눠지는데 우선 이 세 개가 어떤 차이점이 있는지 알아보자.  

우리가 흔히 알고 있는 기본적인 이미지에 적용하는 합성곱 방식은 Conv2D.  
일반적으로 두 가지 기준으로 구분 가능하다.  
1. 합성곱이 진행되는 방향  
2. 합성곱 결과로 나오는 출력값

* Conv1D
  - 합성곱의 방향 : 한 방향(가로)
  - 출력값 : 1-D Array(vector)
* Conv2D
  - 합성곱의 방향 : 두 방향(가로, 세로)
  - 출력값 : 2-D Array(matrix)
* Conv3D
  - 합성곱의 방향 : 세 방향(가로, 세로, 높이)
  - 출력값 : 3-D Array(tensor)

배치 크기와 합성곱이 적용되는 필터의 개수도 고려해야 하므로 출력값이 위와 동일하게 나오지는 않는다.  
위의 경우는 단순히 배치의 경우는 고려하지 않고 합성곱 필터를 하나만 적용했을 때라고 생각하면 됨.  

자연어 처리 분야에서 사용하는 합성곱의 경우 각 단어(혹은 문자) 벡터의 차원 전체에 대해 필터를 적용시키기 위해 주로 **Conv1D**를 사용.  

그렇다면 Conv1D를 사용하는 방법을 알아보자

#### 1. 객체 생성 후 다시 호출하면서 입력값 설정  
conv1d = tf.keras.layers.Conv1D( ... )  
output = conv1d(input)

#### 2. 객체 생성 시 입력값 설정
output = tf.keras.layers.Conv1D( ... )(input)

합성곱도 피렅의 크기, 필터의 개수, 스트라이드 값 등을 객체 생성 시 인자로 설정할 수 있다.  
인자 값에 따라 학습 성능이 크게 달라지므로 어떤 선택 사항이 있는지와 각 인자가 의미하는 바에 대해 정확하게 알고 있는 것이 중요.  

__init__(  
filters,  
kernel_size,  
strides = 1,  
padding = 'valid',  
data_format = 'chanels_last',  
dilation_rate = 1,  
activation = None,  
use_bias = True,  
kernel_initializer = 'glorot_uniform',  
bias_initializer = 'zeros',  
kernel_regularizer = None,  
bias_regularizer = None,  
activity_regularizer = None,  
kernel_constraint = None,  
bias_constraint = None,  
**kwargs)


구조는 몇 가지 제외하고 이전에 알아본 Dense와 비슷하다.  
다른점은 합성곱 연산 수행 할 필터와 관련된 부분!  
또한 합성곱은 기본적으로 필터의 크기를 필요로 하는데, 이 경우 Conv1D는 필터의 높이(high)는 필요하지 않음.  
Conv1D의 필터는 입력값의 차원 수와 높이가 동일하게 연산되기 때문에 필터의 가로 길이만 설정하면 됨.  
즉, 필터의 가로에 적용되는 kernel_size만 설정하면 됨.  
그리고 총 몇 개의 필터를 사용할지 filters  인자를 통해 정해야 함.  
또한 패딩을 사용해 입력값과 출력값의 가로 크기를 똑같이 하고 싶으면 padding = "same"을 지정하면 입력과 출력의 가로 길이가 같아짐.  
그 외 다양한 옵션을 위한 인자를 알아보자.  

* filters : 필터의 개수, 정수형. 출력의 차원 수를 의미
* kernel_size : 필터의 크기로서, 정수 혹은 정수의 리스트. 튜플 형태로 지정. 합성곱이 적용되는 윈도우(window)의 길이를 나타냄. 
* strides : 적용할 스트라이드의 값으로서 정수 혹은 정수의 리스트, 튜플 형태로 지정. 1이 아닌 값을 지정할 경우 dilation_rate는 1 외외의 값을 지정하지 못함. 
* padding : 패딩 방법. "VALIE" 또는 "SAME"
* data_format : 데이터의 표현 방법 선택. "channel_last"혹은 "channel_first"를 지정할 수 있음. channel_last의 경우 데이터는 batch, length, channels)형태여야 하고, channel_first의 경우 데이터는 (batch, channels, length) 형태.
* dilation_rate : dilation 합성곱 사용 시 적용할 dilation 값으로서, 정수 혹은 정수의 리스트, 튜플 형태로 지정. 1이 아닌 값을 지정하면 strides 값으로 1 이외의 값을 지정하지 못함. 
* activation : 활성화 함수
* use_bias : 편향(b)을 사용할지 여부. Boolean 값 형태
* kernel_initializer : 가중치(W) 초기화 함수
* bias_initializer : 편향 초기화 함수
* kernel_regularizer : 가중치 정규화 방법
* bias_regularizer : 편향 정규화 방법
* activity_regularizer : 출력 값 정규화 방법
* kernel_constraint : Optimizer에 의해 업데이트된 이후에 가중치에 적용되는 부가적인 제약 함수(예: norm constraint, value constraint)
* bias_constraint : Optimizer에 의해 업데이트 된 이후에 편향에 적용되는 부가적인 제약 함수(예 : norm constraint, value constraint)

Conv1D의 기본적인 사용법을 알아보자. 

In [63]:
INPUT_SIZE = (1, 28, 28)

inputs = tf.keras.layers.Input(shape = INPUT_SIZE[1:])
conv = tf.keras.layers.Conv1D(
         filters=10,
         kernel_size=3,
         padding='same',
         activation=tf.nn.relu)(inputs)

In [64]:
INPUT_SIZE = (1, 28, 28)

inputs = tf.keras.layers.Input(shape = INPUT_SIZE[1:])
dropout = tf.keras.layers.Dropout(rate = 0.2)(inputs)
conv = tf.keras.layers.Conv1D(
         filters=10,
         kernel_size=3,
         padding='same',
         activation=tf.nn.relu)(dropout)

### tf.keras.layers.MaxPool1D

합성곱 신경망과 함께 쓰이는 기법 중 하나는 풀링.  
feature map의 크기를 줄이거나 주요한 특징을 뽑아내기 위해 합성곱 이후에 적용되는 기법.  

풀링네는 주로 두가지 풀링 기법이 사용되는데, 이는 맥스 풀링(max-pooling)과 평균 풀링(average-pooling)이 있음.  
- max-pooling : feature map에서 최대값만을 뽑아내는 방식
- average-pooling : feature map에 대해 전체 값들을 평균한 값을 뽑는 방식

맥스 풀링도 합성곱과 같이 세 가지 형태로 모델이 구분돼 있음. (MaxPool1D, MaxPool2D, MaxPool3D) -> 합성곱과 똑같은 원리  
자연어 처리에 주로 사용되는 것은 합성곱과 동일하게 MaxPool1D -> 한 방향으로만 풀링이 진행.  

#### 1. 객체 생성 후 apply 함수를 이용해 입력값 설정
max_pool = tf.keras.layers.MaxPool1D( ... )  
max_pool.apply(input)  

#### 2. 객체 생성 시 입력값 설정
max_pool = tf.keras.layers.MaxPool1D( ... )(input)

__init__(  
pool_size = 2,  
strides = None,  
padding = 'valid',  
data_format = None,  
**kwargs)

* pool_size : 풀링을 적용할 필터의 크기. 정수값.
* strides : 적용할 스트라이드 값. 정수 혹은 None 값.
* padding : 패딩 방법. "valid" 또는 "same".
* data_format : 데이터의 표현 방법. "channel_last" 혹은 "channel_first". channel_last의 경우(batch, length, channels) 형태, channel_first의 경우 데이터는 (batch, channels, length) 형태여야 함.

예제)  
입력값이 합성곱과 맥스 풀링을 사용한 후 완전 연결 계층을 통해 최종 출력 값이 나오는 구조 만들기. 그리고 입력값에는 드롭아웃 적용. 그리고 맥스 풀링 결과값을 완전 연결 계층으로 연결하기 위해서 행렬을 벡터로 만들어야함. (이때, tf.keras.layers.Flatten 사용.)

In [77]:
INPUT_SIZE = (1, 28, 28)

inputs = tf.keras.Input(shape = INPUT_SIZE[1:])
dropout = tf.keras.layers.Dropout(rate = 0.2)(inputs)
conv = tf.keras.layers.Conv1D(
          filters=10,
          kernel_size=3,
          padding='same',
          activation=tf.nn.relu)(dropout)
max_pool = tf.keras.layers.MaxPool1D(
            pool_size = 3,
            padding = 'same')(conv)
flatten = tf.keras.layers.Flatten()(max_pool)
hidden = tf.keras.layers.Dense(units = 50, activation = tf.nn.relu)(flatten)
output = tf.keras.layers.Dense(units = 10, activation = tf.nn.softmax)(hidden)

## TensorFlow 2.0

### API 정리 (API Cleanup)
기존의 텐서플로 1.x 버전에서는 같은 기느을 수행하는 다양한 API가 다양한 패키지에 속해있었다.  
그뿐만 아니라 복잡하게 흩어져 있던 다양한 API들을 모두 파악하고 사용하기가 매우 어려웠다.  
텐서플로 2.0에서는 명료하고 사용하기 편하도록 동일한 기능의 다양한 API를 하나로 통합하고, 잘 사용하지 않는 다양한 API를 제거했다.  

### 이거모드 (Eager execution)
기존에는 텐서플로에서의 실행 방식은 우선 텐서플로 API를 이용해 그래프를 만든 후 별도 세션을 통해 해당 그래프를 실행하는 방식.  
따라서 연산 그래프 만든 후 session.run()으로 추가 실행해야 값 확인 가능했음.  
그러나 현재는 파이썬과 동일한 이거 모드로 실행되어 연산을 구성하면서 바로바로 값 확인 가능.  

### 모델 구축
텐서플로 2.0에서 keras를 활용해 모델을 구축하고 학습하는 것을 권장.  
keras API는 고수준(high-level) API로서 사용하기 간편할 뿐더러 매우 유연하고 높은 성능을 보여줌.  
keras를 활용한 모델 구축 방법은 크게 다음과 같다.  
- Sequential API
- Funtional API
- Functional / Sequential API
  - \+ Custom Layers
- Subclassing (Custom Model

각 방법을 통해 모델 구축하는 과정을 하나씩 알아보자.

#### Sequential API
tf.keras.Sequential이 keras를 활용해 모델을 구축할 수 있는 가장 간단한 형태의 API.  
이 모듈을 이용하면 간단한 순차적인 Layer의 stack을 구현할 수 있음.  
예를 들면 다음과 같은 방법으로 fully-connected layer 구현이 가능.  

In [78]:
from tensorflow.keras import layers

model = tf.keras.Sequential()
model.add(layers.Dense(64, activation = 'relu'))
model.add(layers.Dense(64, activation = 'relu'))
model.add(layers.Dense(10, activation = 'softmax'))

Sequential 인스턴스 생성 후 해당 인스턴스에 여러 layer를 순차적으로 더하기만 하면 모델이 완성.  
이렇게 만든 모델을 입력값을 더한 순서에 맞게 layer들을 통과시킨 후 최종 output을 뽑아오게 됨.  

그에 반해 모델 구현에 제약이 있는데, 모델의 층들이 순차적으로 구성돼 있지 않은 경우에는 Sequential 모듈을 사용해 구현하기가 어려울 수 있음.  
예) VQA(Visual Question Answering) 문제는 사진 데이터에서 특징을 뽑는 layer와 질문 텍스트 데이터에서 특징을 뽑는 두 layer가 각기 순차적으로 존재.  
따라서 최종적으로 출력값을 뽑기 위해서 이 두 값을 합쳐야 하는데 이런 경우에는 Sequential 모듈로는 제약이 발생.

#### Functional API
Sequential 모듈은 간단한 layer들의 스택 구조에는 적합하지만 복잡한 모델의 경우 여러 구현상의 제약이 잇을 수 있음.  
예를 들어, 다음과 같은 경우 사용하기 어려움.  
- 다중 입력값 모델(Multi-input models)
- 다중 출력값 모델(Multi-output models)
- 공유 층을 활용하는 모델(Models with shared layers)
- 데이터 흐름이 순차적이지 않은 모델(Models with non-sequential data flows)

이러한 모델 구현시 Functional API 또는 Subclassing 방식을 사용하는 것이 적절.  

Functional API를 통해 위에서 정의한 모델과 동일한 모델을 만들어보자. 

In [81]:
inputs = tf.keras.Input(shape=(32,))
x = layers.Dense(64, activation = 'relu')(inputs)
x = layers.Dense(64, activation = 'relu')(x)
predictions = layers.Dense(10, activation = 'softmax')(x)

#### Custom Layer
앞에서는 Sequential API와 Functional API를 사용하기 위해 keras의 layers 패키지에 정의된 레이어를 사용해 구현함.  
대부분 구현하고자 하는 모듈의 경우 해당 패키지에 구현돼있지만 새로운 연산을 하는 레이어 혹으느 편의를 위해 여러 레이어를 하나로 묶은 레이어를 구현해야 하는 경우가 있음.  
이때 사용자 정의 층(custom layer)을 만들어 사용하면 됨.  
앞에서 정의한 모델에서는 dense 층이 여러 번 사용된 신경망을 사용.  
이 신경망을 하나의 레이어로 묶어 재사용성을 높이고 싶으면 다음과 같은 새로운 사용자 정의 층으로 정의하면 됨. 

In [88]:
class CustomLayer(layers.Layer) :
    
    # 하이퍼파라미터가 객체 생성 시 호출되도록 __init__메서드에서 정의
    def __init_(self, hidden_dimension, hidden_dimension2, output_dimension) :
        self.hidden_dimension = hidden_dimension
        self.hidden_dimension2 = hidden_dimension2
        self.output_dimension = output_dimension
        super(CustomLayer, self).__init__()
    
    # 모델의 가중치와 관련된 값은 build 메서드에서 생성되도록 정의
    def build(self, input_shape) :
        self.dense_layer1 = layers.Dense(self.hidden_dimension, activation = 'relu')
        self.dense_layer2 = laeyrs.Dense(self.hidden_dimension2, activation = 'relu')
        sekf,dense_laeyr3 = layers.Dense(self.output_dimension, activation = 'softmax')
    
    # call 메서드에서 정의한 값들을 이용해 해당 층의 logic을 정의.
    def call(self, inputs) :
        x = self.dense_layer1(inputs)
        x = self.dense_layer2(x)
        
        return self.dense_layer3(x)

In [89]:
from tensorflow.keras import layers

model = tf.keras.Sequential()
model.add(CustomLayer(64, 64, 10))

#### Subclassing (Custom Model)
가장 자유도가 높은 모델.  
tf.keras.Model을 상속받고 모델 내부 연산들을 직접 구현하는 모델.  
모델 클래스를 구현할 때는 객체를 생성할 때 호출되는 __init__ 메서드와 생성된 인스턴스를 호출할 때 (즉, 모델 연산이 사용될 때) 호출되는 call 메서드만 구현하면 됨.

In [90]:
class MyModel(tf.keras.Model) :
    
    def __init__ (self, hidden_dimension, hidden_dimension2, output_dimension) :
        super(MyModel, self).__init__(name = 'my model')
        self.dense_layer1 = layers.Dense(hidden_dimension, activation = 'relu')
        self.dense_layer2 = layers.Dense(hidden_dimension2, activation = 'relu')
        self.dense_layer3 = layers.Dense(hidden_dimension3, activation = 'softmax')
        
    def call(self, inputs) :
        x = self.dense_laeyr1(inputs)
        x = self.dense_layer2(x)
        
        return self.dense_layer3(x)

구현 방법은 Custom Layer를 만드는 방식과 매우 유사ㅏ.  
__init__ 메서드에서 모델에 사용될 층과 변수를 정의하고, call 메서드에서는 정의한 내용을 활용해 모델 연산을 진행.  

### 모델 학습
tensorflow 2.0 공식 가이드에서 모델 학습에 대해 권장하는 방법은 크게 두 가지로 나뉨. 

1. 케라스 모델의 내장 API를 활용
2. 학습, 검증, 예측 등 모든 과정을 GradientTape 객체를 활용해 직접 구현하는 방법

첫 번째 방법의 경우 대부분 keras model의 메서드로 이미 구현돼 있어 간편.  
두 번재 방법의 경우 첫 번째 방법과 비교했을 때 일일이 구현해야 한다는 단점이 있지만 좀 더 복잡한 로직을 유연하고 자유롭게 구현 가능.

#### 내장 API를 활용하는 방법
이미 정의 된 keras의 모델 객체가 있다고 가정해보자.  
이 모델 객체는 keras의 모델 객체이기 때문에 여러 메서드가 이미 내장돼 있다.  
따라서 내장 메서드를 간단히 사용만 하면 됨.  

먼저 해야 할 일은 학습 과정을 정의 하는 것.  
즉, 학습 과정에서 사용될 손실 함수(loss function), 옵티마이저(Optimizer), 평가에 사용될 지표(metric)등을 정의하면 됨.

In [92]:
model.compile(optimizer = tf.keras.optimizers.Adam(),
             loss = tf.keras.losses.CategoricalCrossentropy(),
             metrics = [tf.keras.metrics.Accuracy()])

참고로 위와 같이 객체 형식으로 지정해도 되지만 다음과 같이 문자열 형태로 지정해도 됨.

In [93]:
model.compile(optimizer = 'adam',
             loss = 'categorical_crossentropy',
             metrics = ['accuracy'])

정의된 모델 객체를 대상으로 학습, 평가, 에측 메서드를 호출하면 정의한 값들을 활용해 학습이 진행됨.  
즉, 다음과 같이 fit 메서드를 호출하면 데이터들이 모델을 통과하며 학습이 진행됨.  
아울러 학습이 진행되면서 각 에폭 당 모델의 성능(손실함수, 정확도) 등이 출력되는 것을 확인할 수 있음.  

In [None]:
model.fit(x_train, y_train,
          batch_size = 64,
          epochs = 3)

학습 과정에서 각 epoch 마다 검증을 진행하는 것도 가능.  
evaluate  메서드를 사용해 검증할 수 있지만 매번 epoch을 호출해야 한다는 번거로움이 있음.  
따라서 epoch 마다 검증 겨로가를 보기 위해서는 fit 함수에 검증 데이터를 추가로 넣으면 됨. 

In [None]:
model.fit(x_train, y_train,
          batch_size = 64,
          epochs = 3,
          validation_data = (x_val, y_val))