1. 패션데이터셋 읽어들이기 : 변수는 기존과 동일
2. 데이터 스케일링 : 변수는 기존과 동일
3. 2차원 데이터로 변경
4. 훈련 : 검증 = 8:2로 분리 : 변수는 기존과 동일

In [None]:
### 텐서플로 프레임워크 사용
# - 사용 라이브러리 : keras

### 텐서플로우 프레임워크(패키지라고도 칭함)
import tensorflow as tf

### 케라스 라이브러리 불러들이기
from tensorflow import keras

### 시각화 라이브러리 불러들이기
import matplotlib.pyplot as plt

### 넘파이
import numpy as np

### 훈련 및 테스트 데이터로 분류하는 라이브러리
from sklearn.model_selection import train_test_split

### 딥러닝 랜덤 규칙 정의하기
# - 딥러닝에서의 랜덤 규칙은 항상 일정하게 유지되지는 않음
# - 딥러닝 모델 내부에서 훈련을 위한 데이터를 임의로 추출하여 사용(사람이 관여 안함)
tf.keras.utils.set_random_seed(42)
# tf.config.experimental.enable_op_determinism()

In [None]:
### keras에서 제공하는 데이터 라이브러리 : Fashion MNIST
# - 이미지 데이터로 되어있음

### 데이터셋 읽어들이기
# - 반환되는 데이터 : train(독립, 종속), test(독립, 종속) 총 4개 데이터 변수로 반환됨
(train_input, train_target), (test_input, test_target) = keras.datasets.fashion_mnist.load_data()

print(train_input.shape, train_target.shape)
print(test_input.shape, test_target.shape)

(60000, 28, 28) (60000,)
(10000, 28, 28) (10000,)


In [None]:
### 이미지 픽셀 데이터를 0~1사이의 값으로 변환하기
# - 이미지 픽셀 데이터의 범위는 0~255의 범위값으로 구성되어 있음
# - 따라서, 각 픽셀의 값을 255로 나눠주면, 0~1사이의 값으로 일반화가 가능함
# - 훈련 및 테스트 독립변수의 데이터를 모두 255로 나누어서 전처리하기
#   (255.0의 소숫점으로 나눠줌)
train_scaled_255 = train_input / 255.0
test_scaled_255  = test_input / 255.0

In [4]:
### 2차원 데이터로 변환
train_scaled_2d = train_scaled_255.reshape(-1, 28 * 28)
test_scaled_2d = test_scaled_255.reshape(-1, 28 * 28)

train_scaled_2d.shape, test_scaled_2d.shape

((60000, 784), (10000, 784))

In [5]:
### 훈련(train_scaled, train_target)
### 검증(val_scaled, val_target)
train_scaled, val_scaled, train_target, val_target = train_test_split(
    train_scaled_2d, train_target, test_size=0.2, random_state=42
)

print(train_scaled.shape,   train_target.shape)
print(val_scaled.shape,     val_target.shape)
print(test_scaled_2d.shape, test_target.shape)

(48000, 784) (48000,)
(12000, 784) (12000,)
(10000, 784) (10000,)


### 신경망 모델에 계층(Layer) 추가하는 방법(3가지)

#### 1. 계층(Layer)을 먼저 만들고, 신경망 모델 생성 시 추가하는 방법

In [7]:
### 입력계층 생성하기
# - 변수명 : dense1
# - 활성화 함수 : sigmoid 사용
# - 출력 데이터 갯수 : 100개
# - 입력 데이터 갯수 : 784개
dense1 = keras.layers.Dense(
    # 출력갯수
    units = 100,
    # 활성화 함수
    activation = "sigmoid",
    # 입력 데이터 갯수
    input_shape = (784, )
)
dense1

<keras.layers.core.dense.Dense at 0x220971099a0>

In [8]:
### 출력계층 생성하기
# - 변수명 : dense2
dense2 = keras.layers.Dense(
    # 최종 출력갯수(종속변수 범주 갯수)
    units = 10,
    # 다중분류
    activation = "softmax"
)
dense2

<keras.layers.core.dense.Dense at 0x22113964910>

In [9]:
### 신경망 모델 생성과 동시에 미리 생성한 계층 추가하기
model = keras.Sequential([dense1, dense2])
model.summary()

Model: "sequential"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 dense (Dense)               (None, 100)               78500     
                                                                 
 dense_1 (Dense)             (None, 10)                1010      
                                                                 
Total params: 79,510
Trainable params: 79,510
Non-trainable params: 0
_________________________________________________________________


#### 2. 신경망 모델 생성 시에 계층(Layer)을 함께 추가하는 방식

In [10]:
### 신경망 모델 생성하기
model2 = keras.Sequential([
    # 입력계층 생성 및 추가
    keras.layers.Dense(units=100, activation="sigmoid",
                        input_shape=(784,), name="Input_Layer"),

    # 출력계층 생성 및 추가
    keras.layers.Dense(units=10, activation="softmax", name="Output-Layer")

   # 모델 이름 정의 
], name="Model2")

model2.summary()

Model: "Model2"


_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 Input_Layer (Dense)         (None, 100)               78500     
                                                                 
 Output-Layer (Dense)        (None, 10)                1010      
                                                                 
Total params: 79,510
Trainable params: 79,510
Non-trainable params: 0
_________________________________________________________________


#### 3. 신경망 모델을 먼저 생성 후 add()함수를 이용해서 계층(Layer) 추가하는 방식(가장 많이 사용됨)

In [6]:
### 모델 생성하기
model3 = keras.Sequential(name="Model3")
model3

<keras.engine.sequential.Sequential at 0x17475c0b730>

In [7]:
### 입력계층 생성 및 추가하기
model3.add(
    keras.layers.Dense(units=100, activation="sigmoid", 
                        input_shape=(784,), name="Input-Layer")
)
model3.summary()

Model: "Model3"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 Input-Layer (Dense)         (None, 100)               78500     
                                                                 
Total params: 78,500
Trainable params: 78,500
Non-trainable params: 0
_________________________________________________________________


In [8]:
### 출력계층 생성 및 모델에 추가하기
model3.add(
    keras.layers.Dense(units=10, activation="softmax", name="Output-Layer")
)

model3.summary()

Model: "Model3"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 Input-Layer (Dense)         (None, 100)               78500     
                                                                 
 Output-Layer (Dense)        (None, 10)                1010      
                                                                 
Total params: 79,510
Trainable params: 79,510
Non-trainable params: 0
_________________________________________________________________


In [None]:
## 모델 환경 설정하기
## 훈련 데이터로 10회만 훈련
model3.compile(
    loss = "sparse_categorical_crossentropy",
    metrics = "accuracy"
)

with tf.device("/CPU:0"):
    model3.fit(train_scaled, train_target, epochs=10)

NameError: name 'model3' is not defined

### 훈련모델 성능 검증(평가) 하기

In [16]:
### 훈련데이터로 평가하기
train_score = model3.evaluate(train_scaled, train_target)
print(f"훈련 손실율 : {train_score[0]}, 훈련 정확도 : {train_score[1]}")

### 검증데이터로 평가하기
val_score = model3.evaluate(val_scaled, val_target)
print(f"검증 손실율 : {val_score[0]}, 검증 정확도 : {val_score[1]}")

훈련 손실율 : 0.22533667087554932, 훈련 정확도 : 0.9178541898727417
검증 손실율 : 0.3407609760761261, 검증 정확도 : 0.8844166398048401


### 성능향상

- 모델 성능 향상 방법
    - 데이터 증가시키기
    - 하이퍼파라메터 튜닝
        - 반복횟수 증/감(epochs)
        - 출력계층을 제외한 계층에서의 활성화(activation)함수 변경
        - 배치 사이즈
        - 출력계층을 제회한 계층에서의 출력 데이터의 갯수(units)
        - 은닉계층(Hidden Layer)을 추가 또는 제거(일반적으로 추가 후 영향이 없으면 제거)
        - 이외 성능에 영향을 미치는 하이퍼파라메터 많음

#### 성능향상 - 은닉계층(Hidden Layer) 추가

1. 모델생성 : 변수명은 model
2. 출력계층 생성 : 기존과 동일
3. 은닉계층 생성 : 계층은 자유롭게 생성
4. 출력계층 생성
5. 훈련 횟수 10회로 훈련까지 진행

In [18]:
model = keras.Sequential(name="Model")

model.add(
    keras.layers.Dense(units=100, activation="sigmoid", 
                        input_shape=(784,), name="Input-Layer")
)
model.add(
    keras.layers.Dense(units=50, activation="relu", name="Hidden-Layer")
)
model.add(
    keras.layers.Dense(units=10, activation="softmax", name="Output-Layer")
)

model.compile(
    loss = "sparse_categorical_crossentropy",
    metrics = "accuracy"
)

with tf.device("/CPU:0") :
    model.fit(train_scaled, train_target, epochs=10)

train_score = model.evaluate(train_scaled, train_target)
val_score = model.evaluate(val_scaled, val_target)
print(f"훈련 손실율 : {train_score[0]}, 훈련 정확도 : {train_score[1]}")
print(f"검증 손실율 : {val_score[0]}, 검증 정확도 : {val_score[1]}")


Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10
훈련 손실율 : 0.25779613852500916, 훈련 정확도 : 0.9048958420753479
검증 손실율 : 0.3360101282596588, 검증 정확도 : 0.8861666917800903


#### 성능향상 : 모델 설정 시 옵티아미저(Optimizer) 설정(최적화 기법)

- 옵티마이저(Optimizer, 최적화) 기법
    - 손실을 줄여나가기 위한 최적화(Optimizer) 방법을 의미함
    - 손실을 줄여나가는 최적화 방법으로 "경사하강법" 이론이 적용
    - 특성들의 시작 위치에서 목적지(종속변수 위치)까지 도달하기 위한 기울어진 방향을 찾기 위한 방법을 의미
    - "경사하강법" 이론을 적용한 여러가지 방법들중 하나를 선택하여 정의
    - 옵티마이저(최적화) 방법
        - SGD(확률적경사하강법) < Adagrad < RMSProp < Adam, 이외 등등
    - 옵티마이저 설정 위치 : model.compile(optimizer="옵티마이저(최적화) 방법중 1개")
 
- 옵티마이저(최적화) 방법 정의
    * SGD(확률적 경사하강법)
        - 특성이 현재 위치에서 목적지까지 도달하는 과정 중에 보폭을 크게하여 많은 길을 거치면서(극단적으로 방향을 바꿈) 빠르게 탐색
    - 지그 재그 모양으로 탐색하면서 나아가는 방법
    - 아래 옵티마이저 방법들은 SGD를 근간으로 향상된 방법들임
    - 단점 : 보폭을 크게하면서 방향을 근단적으로 바꿈 - > 주변을 정밀하게 확인하기 어려움
        - 보폭을 크게하기 때문에, 목적지를 건너 띄는 경우도 발생함(종속변수를 잘 못 찾는 경우 발생)
   
    * Adagrad
        - SGD의 큰 보폭에 대한 단점을 보완한 방법
        - 학습률(보폭)을 적절하게 설정하기 위해 학습률 감소(보폭을 짧게)라는 기술 사용
        - 학습 진행 중에 학습률을 줄여가는 방법 사용
        - 처음에는 학습률(보폭)을 크게 학습하다가 점점 작게(보폭을 짧게) 학습한다는 개념을 적용
        - 이미 학습된 곳은 보폭을 크게하고, 학습이 완료되었던 곳은 보폭을 짧게 세밀하게 탐색
        - 손실이 더 이상 줄어들지 않으면(손실이 0이면) 종료
        - 단점, 목적지에 도달하지 않더라도 손실이 0이면 종료하는 단점이 있음
 
    * RMSProp
        - Adagrad는 학습량을 점점 작게 학습하기 때문에 학습률(보폭)이 0이 되어 갱신되지 않는(학습되지 않는) 시점이 발생할 수 있는 단점이 있음
        - Adagrad의 단점을 보완하여 과거(이전)의 기울기 값을 반영하는 방식을 적용함
        - 먼 과거의 기울기(경사) 값은 조금만 반영하고 최근 기울기(경사)를 많이 반영하는 방식으로 처리됨
        - 과거 데이터를 저장해 놓아야 하기 때문에, 다소 훈련 시간이 걸림
        - 옵티마이저의 기본값(default)으로 사용됨, 생략가능
 
    * Adam
        - 공이 굴러가듯이 모멘텀(Momentum, 관성=방향담당)과 RMSProp을 융합한 방법
        - 방향(momentum)과 학습률(보폭)을 적절하게하여 탐색함
        - 자주 사용되는 기법으로, 좋은 결과를  얻을 수 있는 방법으로 유명함
 
    * Momentum(모멘텀)
        - 관성과 가속도를 적용하여 이동하던 방향으로 좀 더 유연하게 작동함
        - 메모리 사용이 많은 단점이 있음 (과거 데이터를 저장해 놓고, 다음 과정에서 방향성(관성)을 이어 받아서 사용하게 됨)

In [None]:
### 옵티마이저(optimazer) 적용하기
# - 모델 설정시 적용
# - 디폴트 옵티마이저 : RMSProp
model.compile(
    optimizer = "sgd",
    loss = "sparse_categorical_crossentropy",
    metrics = "accuracy"
)

with tf.device("/CPU:0"):
    model.fit(train_scaled, train_target, epochs=10)

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


In [None]:
model = keras.Sequential(name="Model")

model.add(
    keras.layers.Dense(units=100, activation="sigmoid", 
                        input_shape=(784,), name="Input-Layer")
)
model.add(
    keras.layers.Dense(units=50, activation="relu", name="Hidden-Layer")
)
model.add(
    keras.layers.Dense(units=10, activation="softmax", name="Output-Layer")
)


### 옵티마이저(optimazer) 적용하기
# - 모델 설정시 적용
# - 디폴트 옵티마이저 : RMSProp
model.compile(
    optimizer = "adam",
    loss = "sparse_categorical_crossentropy",
    metrics = "accuracy"
)

# with tf.device("/CPU:0"):
model.fit(train_scaled, train_target, epochs=10)

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


<keras.callbacks.History at 0x1772848fc70>

##### 성능향상 : 옵티마이저에 학습률(보폭의 크기) 정의하기

- 학습률(Learning Rate)
    - 경사를 내려 올 때의 "보폭"이라고 이해
    - 옵티마이저 4개는 객체(클래스)로 되어 있음
    - 클래스 생성 시에 학습률(learning_rate)을 정의 할 수 있음
    - 학습률이 작을 수록 -> 보폭이 작음
    - 학습률이 높을 수록 -> 보폭이 큼
    - 가장 손실이 작은 위치를 찾아서 움직이도록 작동
    - 이때 가장 손실이 작은 위치는 모델이 스스로 찾아주기에 사람이 관여하지 않음
    - 학습률(learning_rate) 값의 범위 : 0.1~0.0001 (기본값은 0.01, 생략가능)
    - 학습률의 값에 따라서 -> 훈련 성능에 영향을 미침 => 하이퍼파라메터 대상이 됨

    - 과적합을 해소하기 위한 튜닝 방법으로 사용되기도 함
        * 과대적합이 발생한 경우 : 학습률을 크게(보폭을 크게)
        * 과소적합이 발생한 경우 : 학습률을 작게(보폭을 작게)
