In [1]:
# 텐서플로우 프레임워크
import tensorflow as tf

# 케라스(딥러닝 모델) 라이브러리
from tensorflow import keras

# 시각화 라이브러리
import matplotlib.pyplot as plt

# 넘파이
import numpy as np

# 데이터 분류 라이브러리
from sklearn.model_selection import train_test_split

# 딥러닝 랜덤규칙 정의(모든 사람이 정확하게 일치하지는 않음)
tf.keras.utils.set_random_seed(42)
tf.config.experimental.enable_op_determinism()

In [2]:
# 데이터 불러오기 (X_train, y_train, X_test, y_test)
(X_train, y_train), (X_test, y_test) = keras.datasets.fashion_mnist.load_data()

In [3]:
X_train_scaled = X_train / 255.0
X_test_scaled = X_test / 255.0
X_train_scaled.shape, X_test_scaled.shape

((60000, 28, 28), (10000, 28, 28))

In [4]:
# - reshape() : 차원 변경 reshape(행, 열), -1은 행 전체를 의미
X_train_scaled_2d = X_train_scaled.reshape(-1, 28*28)
X_test_scaled_2d = X_test_scaled.reshape(-1, 28*28)

In [5]:
X_train_scaled_2d, X_val_scaled_2d, y_train, y_val  = train_test_split(X_train_scaled_2d, y_train, random_state=42, test_size=0.2)

# 계층 추가하는 3가지 방법

#### 1. 계층을 먼저 만들고, 신경망 모델 생성 시 추가하는 방법


In [6]:
# 입력 계층 생성하기
# - 출력갯수 : 100개
# - 활성화함수 : sigmoid
# - 입력갯수 : 784개
# - 계층 변수명 : dense1

In [7]:
dense1 = keras.layers.Dense(
    units=100,
    activation="sigmoid",
    input_shape=(784, )
)

In [8]:
# 출력 계층 생성하기
# - 출력갯수 : 10개
# - 활성화함수 : softmax
# - 입력갯수 : 100개
# - 계층 변수명 : dense2

In [9]:
dense2 = keras.layers.Dense(
    units=10,
    activation="softmax"
)

In [10]:
model = keras.Sequential([dense1, dense2])
model

<keras.engine.sequential.Sequential at 0x1f7ee2f2a30>

In [11]:
model.summary()

Model: "sequential"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 dense (Dense)               (None, 100)               78500     
                                                                 
 dense_1 (Dense)             (None, 10)                1010      
                                                                 
Total params: 79,510
Trainable params: 79,510
Non-trainable params: 0
_________________________________________________________________


#### 2. 모델 생성과 동시에 계층 생성하는 방식

In [12]:
model2 = keras.Sequential([
    # 입력계층 생성
    keras.layers.Dense(
        units=100,
        activation="sigmoid",
        input_shape=(784, ),
        name="Input_Layer"   # 레이어 이름 정의
    ),
    
    # 출력계층 생성
    keras.layers.Dense(
        units=10,
        activation="softmax",
        name="Output_Layer"
    )
], name="Model2") # 모델 이름 정의

In [13]:
model2.summary()

Model: "Model2"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 Input_Layer (Dense)         (None, 100)               78500     
                                                                 
 Output_Layer (Dense)        (None, 10)                1010      
                                                                 
Total params: 79,510
Trainable params: 79,510
Non-trainable params: 0
_________________________________________________________________


#### 3. 모델 생성 후, 계층 추가(add)하는 방식(가장 많이 사용하는 방식)

In [14]:
# 모델 생성
model3 = keras.Sequential()

In [15]:
# 입력계층(Input layer) 추가
model3.add(
    keras.layers.Dense(
        units=100,
        activation="sigmoid",
        input_shape=(784, ),
        name="Input_Layer"
    )
)

In [16]:
# 출력계층(output layer) 추가
model3.add(
    keras.layers.Dense(
        units=10,
        activation="softmax",
        name="Output_Layer"
    )
)

In [17]:
model3.summary()

Model: "sequential_1"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 Input_Layer (Dense)         (None, 100)               78500     
                                                                 
 Output_Layer (Dense)        (None, 10)                1010      
                                                                 
Total params: 79,510
Trainable params: 79,510
Non-trainable params: 0
_________________________________________________________________


In [18]:
# 모델 환경 설정
model.compile(
    loss="sparse_categorical_crossentropy",
    metrics="accuracy"
)
model2.compile(
    loss="sparse_categorical_crossentropy",
    metrics="accuracy"
)
model3.compile(
    loss="sparse_categorical_crossentropy",
    metrics="accuracy"
)

In [19]:
model3.fit(X_train_scaled_2d, y_train, epochs=50)

Epoch 1/50
Epoch 2/50
Epoch 3/50
Epoch 4/50
Epoch 5/50
Epoch 6/50
Epoch 7/50
Epoch 8/50
Epoch 9/50
Epoch 10/50
Epoch 11/50
Epoch 12/50
Epoch 13/50
Epoch 14/50
Epoch 15/50
Epoch 16/50
Epoch 17/50
Epoch 18/50
Epoch 19/50
Epoch 20/50
Epoch 21/50
Epoch 22/50
Epoch 23/50
Epoch 24/50
Epoch 25/50
Epoch 26/50
Epoch 27/50
Epoch 28/50
Epoch 29/50
Epoch 30/50
Epoch 31/50
Epoch 32/50
Epoch 33/50
Epoch 34/50
Epoch 35/50
Epoch 36/50
Epoch 37/50
Epoch 38/50
Epoch 39/50
Epoch 40/50
Epoch 41/50
Epoch 42/50
Epoch 43/50
Epoch 44/50
Epoch 45/50
Epoch 46/50
Epoch 47/50
Epoch 48/50
Epoch 49/50
Epoch 50/50


<keras.callbacks.History at 0x1f7f7672e20>

In [20]:
model3.evaluate(X_train_scaled_2d, y_train)



[0.12910765409469604, 0.9540625214576721]

In [21]:
model3.evaluate(X_val_scaled_2d, y_val)



[0.3884243071079254, 0.8894166946411133]

In [22]:
model3.evaluate(X_test_scaled_2d, y_test)



[0.4307788610458374, 0.878000020980835]

# 성능 향상하기

In [23]:
"""
<성능 향상 방버>
 - 데이터 양 증가시키기
 - 하이퍼파라미터 튜닝
 - 레이러 계층 추가 또는 제거
"""

'\n<성능 향상 방버>\n - 데이터 양 증가시키기\n - 하이퍼파라미터 튜닝\n - 레이러 계층 추가 또는 제거\n'

# 성능향상을 위한 은닉계층 추가

In [24]:
model = keras.Sequential()
model

<keras.engine.sequential.Sequential at 0x1f7ee61bf40>

In [25]:
# 입력 계층(Input Layer) 생성
# - 차원 축소 계층으로 생성(전처리 계층) : flatten()
model.add(
    keras.layers.Flatten(
        input_shape=(28,28),
        name="Flatten_input_Layer"
    )
)

In [26]:
# 은닉 계층(Hidden Layer) 생성
model.add(
    keras.layers.Dense(
        units=100,
        activation="relu",
        name="Hidden_Layer"
    )
)

In [27]:
# 출력 계층(Output Layer) 생성
model.add(
    keras.layers.Dense(
        units=10,
        activation="softmax",
        name="Output_Layer"
    )
)

In [28]:
model.summary()

Model: "sequential_2"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 Flatten_input_Layer (Flatte  (None, 784)              0         
 n)                                                              
                                                                 
 Hidden_Layer (Dense)        (None, 100)               78500     
                                                                 
 Output_Layer (Dense)        (None, 10)                1010      
                                                                 
Total params: 79,510
Trainable params: 79,510
Non-trainable params: 0
_________________________________________________________________


In [29]:
model.compile(
    loss="sparse_categorical_crossentropy",
    metrics="accuracy"
)

In [30]:
(X_train, y_train), (X_test, y_test) = keras.datasets.fashion_mnist.load_data()

In [31]:
X_train_scaled = X_train / 255.0
X_test_scaled = X_test / 255.0
X_train_scaled.shape, X_test_scaled.shape

((60000, 28, 28), (10000, 28, 28))

In [32]:
X_train_scaled, X_val_scaled, y_train, y_val  = train_test_split(X_train_scaled, y_train, random_state=42, test_size=0.2)

In [33]:
model.fit(X_train_scaled, y_train, epochs=50)

Epoch 1/50
Epoch 2/50
Epoch 3/50
Epoch 4/50
Epoch 5/50
Epoch 6/50
Epoch 7/50
Epoch 8/50
Epoch 9/50
Epoch 10/50
Epoch 11/50
Epoch 12/50
Epoch 13/50
Epoch 14/50
Epoch 15/50
Epoch 16/50
Epoch 17/50
Epoch 18/50
Epoch 19/50
Epoch 20/50
Epoch 21/50
Epoch 22/50
Epoch 23/50
Epoch 24/50
Epoch 25/50
Epoch 26/50
Epoch 27/50
Epoch 28/50
Epoch 29/50
Epoch 30/50
Epoch 31/50
Epoch 32/50
Epoch 33/50
Epoch 34/50
Epoch 35/50
Epoch 36/50
Epoch 37/50
Epoch 38/50
Epoch 39/50
Epoch 40/50
Epoch 41/50
Epoch 42/50
Epoch 43/50
Epoch 44/50
Epoch 45/50
Epoch 46/50
Epoch 47/50
Epoch 48/50
Epoch 49/50
Epoch 50/50


<keras.callbacks.History at 0x1f7d1439c70>

In [35]:
model.evaluate(X_train_scaled, y_train)



[0.13061928749084473, 0.9568125009536743]

In [36]:
model.evaluate(X_val_scaled, y_val)



[0.6738640666007996, 0.8809166550636292]

In [37]:
model.evaluate(X_test_scaled, y_test)



[0.7528171539306641, 0.871999979019165]

# 성능 향상하기 : 옵티마이저(Optimizer) 하이퍼파라미터 사용하기

In [None]:
# - 옵티마이저는 모델 환경설정, 즉 컨파일(compile) 시에 설정한다.

In [None]:
"""
<옵티마이저(Optimizer, 최적화) 기법>
 - 손실을 줄여나가기 위한 최적화(Optimizer) 방법을 의미함
 - 손실을 줄여나가는 최적화 방법으로 "경사하강법" 이론이 적용됩니다.
 - 특성들의 시작 위치에서 목적지(종속변수 위치)까지 도달하기 위한
   기울어진 방향을 찾기 위한 방법을 의미합니다.
 - "경사하강법" 이론을 적용한 여러가지 방법들중 하나를 선택하여 정의
 - 옵티마이저(최적화) 방법 
   : SGD(확률적경사하강법) < Adagrad < RMSProp < Adam, 이외 등등
 - 옵티마이저 설정 위치 : model.compile(optimizer="옵티마이저(최적화) 방법중 1개")
 
<옵티마이저(최적화) 방법 정의>
 * SGD(확률적 경사하강법)
  - 특성이 현재 위치에서 목적지까지 도달하는 과정 중에 보폭을 크게하여
    많은 길을 거치면서(극단적으로 방향을 바꿉니다.) 빠르게 탐색
  - 지그 재그 모양으로 탐색하면서 나아가는 방법
  - 아래 옵티마이저 방법들은 SGD를 근간으로 향상된 방법들 입니다.
  - 단점 : 보폭을 크게하면서 방향을 근단적으로 바꾸기 때문에 
           주변을 정밀하게 확인하기 어려움
         : 보폭을 크게하기 때문에, 목적지를 건너 띄는 경우도 발생함
                                 (종속변수를 잘 못 찾는 경우 발생)
   
 * Adagrad
  - SGD의 큰 보폭에 대한 단점을 보완한 방법...
  - 학습률(보폭)을 적절하게 설정하기 위해 학습률 감소(보폭을 짧게)라는 기술 사용
  - 학습 진행 중에 학습률을 줄여가는 방법 사용
  - 처음에는 학습률(보폭)을 크게 학습하다가,
    점점 작게(보폭을 짧게) 학습한다는 개념을 적용
  - 이미 학습된 곳은 보폭을 크게하고, 학습이 완료되었던 곳은 보폭을 짧게 세밀하게 탐색
  - 손실이 더 이상 줄어들지 않으면(손실이 0이면) 종료
  - 단점, 목적지에 도달하지 않더라도 손실이 0이면 종료하는 단점이 있음
 
 * RMSProp
  - Adagrad는 학습량을 점점 작게 학습하기 때문에
    학습률(보폭)이 0이 되어 갱신되지 않는(학습되지 않는) 시점이 발생할 수 있는 
    단점이 있음.
  - Adagrad의 단점을 보완하여,
    과거(이전)의 기울기 값을 반영하는 방식을 적용함
  - 먼 과거의 기울기(경사) 값은 조금만 반영하고,
    최근 기울기(경사)를 많이 반영하는 방식으로 처리됨
  - 과거 데이터를 저장해 놓아야 하기 때문에, 다소 훈련 시간이 걸림
  - 옵티마이저의 기본값(default)으로 사용됨, 생략가능
  
 * Adam
  - 공이 굴러가듯이 모멘텀(Momentum, 관성=방향담당)과 RMSProp을 융합한 방법
  - 방향(momentum)과 학습률(보폭)을 적절하게하여 탐색함
  - 자주 사용되는 기법으로, 좋은 결과를  얻을 수 있는 방법으로 유명함
  
 * Momentum(모멘텀)
  - 관성과 가속도를 적용하여 이동하던 방향으로 좀 더 유연하게 작동함
  - 메모리 사용이 많은 단점이 있음
    (과거 데이터를 저장해 놓고, 다음 과정에서 방향성(관성)을 이어 받아서 사용하게 됨)
"""