# optimization & training

In [34]:
#모델 학습을 해보자
import tensorflow as tf
from tensorflow.keras import layers
from tensorflow.keras import datasets

In [35]:
(train_x, train_y),(test_x, test_y) = datasets.mnist.load_data()

In [36]:
#모델에  input의 shape를 알려주고
#클래스 개수를 알려줘야한다.
input_shape = (28,28, 1)
num_classes = 10
inputs = layers.Input(shape=input_shape)
#인풋을 이렇게 바로 줄 수 있다.
#첫레이여만 inputs가 들어가는 것이다.
#filter32 개
net = layers.Conv2D(32,3,padding='SAME')(inputs)
net = layers.Activation('relu')(net)
net = layers.Conv2D(32,3,padding='SAME')(net)
net = layers.Activation('relu')(net)
net = layers.MaxPool2D((2,2))(net)
net = layers.Dropout(0.25)(net)
# net.shape TensorShape([None, 28, 28, 32])가 된다. max pooling으로 크기가 줄어든 것

net = layers.Conv2D(64,3,padding='SAME')(net)
net = layers.Activation('relu')(net)
net = layers.Conv2D(64,3,padding='SAME')(net)
net = layers.Activation('relu')(net)
net = layers.MaxPool2D((2,2))(net)
net = layers.Dropout(0.25)(net)

#net.shape TensorShape([None, 7, 7, 64])
#위가 feature extraction 아래가 fully connected
net = layers.Flatten()(net)
net = layers.Dense(512)(net)
net = layers.Activation('relu')(net)
net = layers.Dropout(0.5)(net)
net = layers.Dense(10)(net)
#마지막에 출력되는 output layer에는 클래스를 10개로 바꾸어줘야 한다.
#그래서 클래스 개수만큼 노드를 만들어줘야 하고, 이 부분의 확률 값이 답이다.
net = layers.Activation('softmax')(net)
model = tf.keras.Model(inputs=inputs, outputs=net, name='BASIC_CNN')

In [37]:
model.summary()

Model: "BASIC_CNN"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
input_2 (InputLayer)         [(None, 28, 28, 1)]       0         
_________________________________________________________________
conv2d_4 (Conv2D)            (None, 28, 28, 32)        320       
_________________________________________________________________
activation_6 (Activation)    (None, 28, 28, 32)        0         
_________________________________________________________________
conv2d_5 (Conv2D)            (None, 28, 28, 32)        9248      
_________________________________________________________________
activation_7 (Activation)    (None, 28, 28, 32)        0         
_________________________________________________________________
max_pooling2d_2 (MaxPooling2 (None, 14, 14, 32)        0         
_________________________________________________________________
dropout_3 (Dropout)          (None, 14, 14, 32)        0 

# 학습 과정  
## Data -> model -> logit > result
##    model <-  optm <-  loss < logit

# 모델에서 예측을 하고, loss를 계산하고, optm를 해보자
## Optimization
    - 모델 학습하기 전 설정
 - Loss Function
 - Optimization
 - Metrics

In [38]:
#Loss function 방법 확인
# categorical vs binary
# 클래스가 두 개 인 경우(cat vs dog)는 binary_cross_entropy 를 사용한다.
# 클래스가 여러개 인 경우는 categorical_crossentropy를 사용한다
loss = 'binary_crossentropy'
loss = 'categorical_crossentropy'

In [39]:
#만약 one-hot-encoding을 안했다면
#spqrse_categorical_crossentropy를 사용한다.
tf.keras.losses.sparse_categorical_crossentropy

#원핫 인코딩을 했다면
tf.keras.losses.categorical_crossentropy

<function tensorflow.python.keras.losses.categorical_crossentropy(y_true, y_pred, from_logits=False, label_smoothing=0)>

In [40]:
#onehot encoding을 한 binary 클래스라면
tf.keras.losses.binary_crossentropy

<function tensorflow.python.keras.losses.binary_crossentropy(y_true, y_pred, from_logits=False, label_smoothing=0)>

In [41]:
#우리는 one-hot-encoding을 하지 않을 때로 하자
loss_func = tf.losses.sparse_categorical_crossentropy
loss_func

<function tensorflow.python.keras.losses.sparse_categorical_crossentropy(y_true, y_pred, from_logits=False, axis=-1)>

# Metrics
## 모델을 평가하는 방법
### accuracy를 이름으로 넣는 방법

In [42]:
#accuracy는 전체 문제에서 몇 개를 맟추었냐
#두 방법이 있다.

In [43]:
metrics = ['accuracy']

In [44]:
tf.keras.metrics.Accuracy()

<tensorflow.python.keras.metrics.Accuracy at 0x1c68b0daa08>

In [45]:
tf.keras.metrics.Precision()

<tensorflow.python.keras.metrics.Precision at 0x1c68b0dd408>

In [46]:
#우리는 tf.keras.metrics.Accuracy() 이걸 사용하자
#리스트 안에 넣어줘야 한다.
#그 이유는 평가를 할 때, list안에 recall, precision 등을 넣어줄 수 있기 때문이다.
# metrics = [tf.keras.metrics.Accuracy(), 'recall', 'precision'] 이렇게 말이다.
metrics = [tf.keras.metrics.Accuracy()]
metrics

[<tensorflow.python.keras.metrics.Accuracy at 0x1c68b0da1c8>]

In [47]:
#우리는 loss function을 정해주었고, 이에 따른 accuracy를 얻도록 하였다
#optimization을 하도록 하자

# compile
## optimizer 적용
- 'sgd'
- 'msprop'
- 'adam'

In [48]:
optm = tf.keras.optimizers.Adam()
optm

<tensorflow.python.keras.optimizer_v2.adam.Adam at 0x1c68a7cafc8>

In [None]:
#loss는 sparse_categorical_crossenctropy이고
#optm은  adam을 사용
#이제 model에 compile을 해줘야 한다.
model.compile(optimizer=optm, loss = loss_func, metrics=metrics)

# Prepare Dataset
학습에 사용할 데이터 셋을 준비

In [None]:
train_x.shape , train_y.shape

In [None]:
#차원이 4차원으로 들어가야하는데, 3차원이다.
#즉, channel이 없다. 그래서 차원을 늘려줘야 한다.
test_x.shape , test_y.shape

In [None]:
#기존에 늘리던 방법
tf.expand_dims(train_x, - 1).shape

In [None]:
#차원 수 늘리기 텐서플로 공식 홈페이지에서 추천해주는 방법
train_x[:,:,:,tf.newaxis].shape
##차원 수 늘리기 텐서플로 공식 홈페이지에서 추천해주는 방법2 spread 사용
train_x = train_x[... , tf.newaxis]
train_x.shape

In [None]:
test_x = test_x[..., tf.newaxis]
test_x.shape

In [None]:
#Rescaling
import numpy as np
np.min(train_x) , np.max(train_x)

In [None]:
#0과 1사이의 값으로 rescaling을 해주자
train_x.dtype

In [None]:
train_x = train_x / 255.
test_x = test_x/ 255.

In [None]:
np.min(train_x) , np.max(train_x)

# Training
본격적으로 학습 들어가기
학습용 하이퍼파라미터 설정
- num_epochs
- batch_size

In [None]:
#epoch은 batch 사이즈에 맞게 한 번 모델 적용을 시킨 것
#책을 한 번 다 봤다면 1 에폭, 2번 봤다면 2 에폭
#실제로 할 때는 에폭 수를 늘려줘야 한다.
num_epochs = 1
batch_size = 32
#책이 6만 장인데, 32장 씩 읽어가는 것이다.
type(num_epochs)

In [None]:
#실제로 우리가 한 것은
# 1, 모델을 설계(모델에 layer을 담아줌)
# 2, optm 을 설정해주었다. compile
# 3, model.fit을 해주어야 
# evaluation할 때는 shuffle을 안해도 된다
# shuffle을 하는 이유는 bias에 걸린다. overfitting에 걸린다는 것이다.
# 인간이 책을 보고 공부하는데, 6 챕터를 하나씩하나씩 보다보면, 이전에 공부했던 것들은 까먹게 된다.
# bias에 걸리게 되는 것이다.
model.fit(train_x, train_y,
         batch_size=batch_size,
         shuffle=True,
         epochs = num_epochs)

# Check History
학습 과정(History) 결과 확인