In [1]:
from tensorflow import keras

In [5]:
### 데이터 읽어 들이기
(train_input, train_target), (test_input, test_target) = \
     keras.datasets.fashion_mnist.load_data()
    
print(train_input.shape, train_target.shape)    
print(test_input.shape, test_target.shape)

(60000, 28, 28) (60000,)
(10000, 28, 28) (10000,)


In [6]:
### 정규화 하기
train_scaled = train_input / 255.0
train_scaled.shape

(60000, 28, 28)

In [7]:
### 픽셀 데이터를 1차원으로 만들기
train_scaled = train_scaled.reshape(-1, 28*28)
train_scaled.shape

(60000, 784)

In [8]:
### 훈련 및 검증데이터로 분류하기
from sklearn.model_selection import train_test_split

train_scaled, val_scaled, train_target, val_target = \
         train_test_split(train_scaled, train_target,
                          test_size=0.2, random_state=42)

print(train_scaled.shape, train_target.shape)
print(val_scaled.shape, val_target.shape)

(48000, 784) (48000,)
(12000, 784) (12000,)


# 인공신경망 모델에 신경망층 추가 방법(3가지)

### 1. 신경망층 추가방법(1)
##### - 층을 먼저 만들고, 신경망 모델 생성시 추가

In [9]:
### 입력층 생성하기
### 784의 입력데이터를 이용해서 손실이 적은 100개 추출
dense1 = keras.layers.Dense(100, activation="sigmoid",
                            input_shape=(784,))

### 출력계층 생성하기
### 입력계층을 통해 추출된 100개 데이터를 입력으로 받아서
#    최종 10개로 분류(확률적으로 분류됨)
# 출력계층의 활성화 함수 : sigmoid와 softmax 둘중 하나 사용
dense2 = keras.layers.Dense(10, activation="softmax")

In [10]:
### 심층신경망 만들기(신경망층이 여러개인 경우, 심층신경망이라고 칭함)
### 모델생성
model = keras.Sequential([dense1, dense2])
model

<keras.engine.sequential.Sequential at 0x17c9682ae50>

In [11]:
### 모델 구조 확인하기
model.summary()

### dense1 파라미터 갯수 = 784 * 100 +100 = 78500
### dense2 파라미터 갯수 = 100 * 10 + 10 = 1010

Model: "sequential"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 dense (Dense)               (None, 100)               78500     
                                                                 
 dense_1 (Dense)             (None, 10)                1010      
                                                                 
Total params: 79,510
Trainable params: 79,510
Non-trainable params: 0
_________________________________________________________________


### 2. 신경망 계층 추가방법(2)
##### - 신경망 모델 생성시에 신경망층 함께 생성

In [12]:
model = keras.Sequential([keras.layers.Dense(100, activation="sigmoid",
                                             input_shape=(784,), name="hidden-layer"),
                          keras.layers.Dense(10, activation="softmax", name="out-layer")], name="Model")
model

<keras.engine.sequential.Sequential at 0x17c96b2f4f0>

In [13]:
### 모델 구조 확인하기
model.summary()

Model: "Model"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 hidden-layer (Dense)        (None, 100)               78500     
                                                                 
 out-layer (Dense)           (None, 10)                1010      
                                                                 
Total params: 79,510
Trainable params: 79,510
Non-trainable params: 0
_________________________________________________________________


### 3. 신경망 계층 추가방법(3)
##### - 신경망모델 생성후, add()함수를 이용해서 계층 추가
##### - 가장 많이 사용되는 방식

In [14]:
### 1. 모델 생성하기
model = keras.Sequential()
model

<keras.engine.sequential.Sequential at 0x17c965acc70>

In [15]:
### 2. 생성된 모델에 계층 추가하기
model.add(keras.layers.Dense(100, activation="sigmoid",
                                             input_shape=(784,)))

model.add( keras.layers.Dense(10, activation="softmax"))       

In [16]:
### 모델 구조 확인하기
model.summary()

Model: "sequential_1"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 dense_2 (Dense)             (None, 100)               78500     
                                                                 
 dense_3 (Dense)             (None, 10)                1010      
                                                                 
Total params: 79,510
Trainable params: 79,510
Non-trainable params: 0
_________________________________________________________________


In [18]:
### 3. 모델 설정하기(compile)
### - 손실함수 : 다중분류(숫자) 사용
model.compile(loss="sparse_categorical_crossentropy",
               metrics="accuracy")

In [20]:
### 4. 훈련시키기
model.fit(train_scaled, train_target, epochs=10)

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


<keras.callbacks.History at 0x17c97021af0>

In [21]:
### 검증(평가) 하기
score = model.evaluate(val_scaled, val_target)
print("손실율 = ", score[0], " / 정확도 = ", score[1])

손실율 =  0.3262518346309662  / 정확도 =  0.8828333616256714


In [None]:
"""
< 손실함수(loss function) >
 - 손실함수는 실제값과 예측값의 차이를 수치화해주는 함수
 - 이 두값의 차이, 즉, 오차가 클수록 솜실함수의 값은 크고,
                       오차가 작을수록 손실함수의 값은 작음
 - "회귀"와 같이 연속 데이터를 사용하는 경우에는 "평균제곱오차" 사용
 - "분류"에서는 크로스 엔트로피를 주로 사용
 - 딥러닝의 학습 과정은 손실함수의 값이 최소화 되는 지점의
   가중치와 편향을 찾는 것이 목적임

< 손실 함수로 사용되는 함수들 >
 1. MSE(Mean Squared Error, 평균제곱오차)
  - 연속형 변수를 예측할 때 사용됨
  - compile()함수에서 loss 속성에 "mse" 라고 작성하여 사용함
  
 2. Categorical Corssentropy
  - 다중분류 시에 사용됨
  - target 데이터의 형태가 원-핫 인코딩된 형태인 경우 사용
  
 3. Binary Crossentropy
  - target 데이터의 분류형태가 0 또는 1과 같이 이진분류시 사용됨
  - 출력층의 활성화함수로 시그모이드(sigmoid) 함수를 사용함
  
 4. Sparse Categorical Croessentropy
  - target 데이터의 형태가 0, 1, 2...와 같은 숫자형태인 경우 사용
  - 출력층의 활성화 함수로는 소프트맥스(softmax) 함수를 사용함
  
 ** 주로 3번과 4번이 많이 사용됨  
"""

In [None]:
"""
< 활성화 함수 (Activation Function) >
 - 손실에 따른 출력을 담당하는 함수
 - 데이터를 결정하기 위한 함수로 
   -> 중간단계의 계층(은닉층)에서 출력 갯수에 맞는 결과를 결정하기 위한 
      활성화 함수가 사용되며,
   -> 출력단계의 계층(출력층)에서는 최종 target 데이터를 결정하기 위한
      활성화함수가 사용됨
   
< 사용되는 활성화 함수 >
 1. 시그모이드(Sigmoid) 함수
  - logistic function 이라고도 함
  - 시그모이드 함수의 결과값이 0과 1 사이의 값으로 결정하게 됨
  - y의 값이 0.5를 기준으로 0.5보다 크면 1, 작으면 0으로 결정
  - 이진분류시에 주로 사용됨
  - 손실함수는 Binary Crossentropy 사용
  
 2. Tanh(Hypterbolic Tangent) 함수
  - 시그모이드 함수의 향상된 함수
  - -1에서 1사이의 값으로 결정하게 됨
  - 0보다 크면 1, 음수의 갑ㅄ은 모두 0으로 결정하게 됨
  - 시그모이드보다 결정 범위가 크기에 학습이 효율적이라고 평하고 있음
  - 중간 계층에 주로 사용
  
 3. 렐루(ReLU, Rectified Linear Unit) 함수
  - 0과 1의 값으로 처리
  - 0보다 작으면 모두 0으로, 0보다 크면 1로 처리함
  - 0보다 작은 값이 발생하지 않는다는 장점이 있음
  - 중간 계층에 주로 사용
  
 4. 소프트맥스(SoftMax) 함수
  - 0.0에서 1.0 사이의 실수의 범위로 사용
  - 여러개의 target값 중에 가장 높은 결정값을 선택하게 되며,
  - 여래개의 target값 들은 0.0~1.0 사이의 확률로 나타남
  - target 값의 모든 값의 합은 1.0이 됨
  - 출력층에 주로 사용
  - 손실계수로는 Sparse Categorical Croessentropy가 사용됨
  
 5. Leaky ReLU
  - ReLU의 향상된 함수
  - 0보다 작은 값들을 허용하게 하여 훈련의 효율을 높였음
  
### 딥러닝 계층을 사용하는 방법
 - 1. 다른 누군가가 만들어 놓은 모델을 그대로 사용
 - 2. 계층을 추가 또는 수정 또는 제거하면서
 - 3. 사용하는 데이터에 가장 적함한(정확도가 높은) 모델을 완성
"""

# 전처리 계층 사용하기

In [23]:
### 모델 생성하기
model = keras.Sequential()

### 전처리계층 추가하기
# - 훈련에 사용되지는 않음
# - Flatten()
#     : 1차원으로 만들어주는 계층     *** 중요 ***
#     : 입력 차원을 모두 일렬로 펼치는 역할 수행
#     : 입력에 곱해지는 가중치나 절편이 없음
#     : 인공 신경망의 성능에 기여하지 않음(훈련에 사용되지 않음의 의미)  *** 중요 ***
#     : 입력층과 은닉층 사이에 위치함
#     : 보통 입력층 바로 뒤에 위치하는 것이 일반적임
model.add(keras.layers.Flatten(input_shape=(28,28)))    # 1차원으로 만든거라고 함

### 은닉계층(hidden layer) 추가하기
model.add(keras.layers.Dense(100, activation="relu"))

### 출력계층(output layer) 추가하기
model.add(keras.layers.Dense(10, activation="softmax"))

model.summary()


### 훈련에 사용되는 신경망층은 2개임
# - 전처리 계층은 훈련에 포함되지 않음

Model: "sequential_3"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 flatten (Flatten)           (None, 784)               0         
                                                                 
 dense_4 (Dense)             (None, 100)               78500     
                                                                 
 dense_5 (Dense)             (None, 10)                1010      
                                                                 
Total params: 79,510
Trainable params: 79,510
Non-trainable params: 0
_________________________________________________________________


In [24]:
### 데이터 읽어 들이기
(train_input, train_target), (test_input, test_target) = \
     keras.datasets.fashion_mnist.load_data()
    
print(train_input.shape, train_target.shape)    
print(test_input.shape, test_target.shape)

### 정규화 하기
train_scaled = train_input / 255.0
print(train_scaled.shape)

### 훈련 및 검증데이터로 분류하기
from sklearn.model_selection import train_test_split

train_scaled, val_scaled, train_target, val_target = \
         train_test_split(train_scaled, train_target,
                          test_size=0.2, random_state=42)

print(train_scaled.shape, train_target.shape)
print(val_scaled.shape, val_target.shape)

### 픽셀 데이터를 1차원으로 만드는 것은
# - 모델 생성시 만든 전처리계층인 Flatern 사용

(60000, 28, 28) (60000,)
(10000, 28, 28) (10000,)
(60000, 28, 28)
(48000, 28, 28) (48000,)
(12000, 28, 28) (12000,)


In [25]:
### 컴파일 : 훈련모델 손실함수 설정
model.compile(loss="sparse_categorical_crossentropy",
              metrics="accuracy")

In [26]:
### 훈련시키기
model.fit(train_scaled, train_target, epochs=5)

Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5


<keras.callbacks.History at 0x17c94463e50>

In [27]:
### 검증(평가)하기
score = model.evaluate(val_scaled, val_target)
score



[0.3531873822212219, 0.8791666626930237]

### 옵티마이저를 이용한 모델 클래스 설정

In [None]:
"""
< 옵티마이저(optimizer) >
 - 딥러닝에서 빠르고 정확하게 학습하는 것을 목표로 나온 속성
 - 주로 경사하강법(Gradient Descent Algorithm) 기반의 알고리즘을 지정
 - 경사하강법의 옵티마이저 :  SGD 기반으로 딥러닝 모델들이 향상되고 있음
 - 다양한 경사하강법 알고리즘들이 있음
 - compile() 함수에 설정함
"""

In [30]:
### 경사하강법을 적용
model.compile(optimizer="sgd",
              loss="sparse_categorical_crossentropy",
              metrics="accuracy")


### 위와 동일
sgd = keras.optimizers.SGD()
model.compile(optimizer=sgd,
              loss="sparse_categorical_crossentropy",
              metrics="accuracy")

In [None]:
### 학습율(learning_rate)
# - 기본값은 0.01   # --> 값을 작게할수록 훈련시간이 오래걸린다고 함
# - 값이 커질수록 훈련 강도를 낮아지게 됨
# - 가중치를 최적화하는데 있어서, 학습율의 값은 매우 중요하게 적용됨
# - 학습율의 값은 하이퍼파라메터 튜닝을 통해 찾아내어 작성할 수도 있음
# - 학습율은 경사를 내려오면서 얼마만큼 이동할 것인지를 결정하는 값임
#   (사람의 걸음걸이 중 보폭 이라고 생각하시면 됩니다...)

sgd = keras.optimizers.SGD(learning_rate=0.1)

In [None]:
### 모멘텀(momentum)
# - 학습율과 동일하게 최적화 알고리즘임
# - 물릭학에서 사용하는 운동량과 동력을 뜻함
# - 랜덤하게 지그재그로 내려오면서 최적화(최단경사 이동거리)되는 것을
#   해결하기 위해서 나온 알고리즘
# - ** 관성과 가속도를 적용한 알고리즘임 **
# - 이동하던 한 방향으로 좀 더 이동할 수 있도록 하기 위해 적용된 개념

### 모멘텀 중요 특징
# - 현재 이동하는 방향과는 별개로, 과거에 이동했던 방향을 기억하고 있음
# - 과거의 방향으로 일정량(학습율)을 추가하여 이동을 하게됨
# - 메모리 사용량이 많아지는 단점이 있음

### nesterov(네스테로프)
# - 모멘텀 최적화의 변종 알고리즘
# - 현재 위치가 아니라,
#   모멘텀의 방향으로 조금 앞서서 경사를 계산

sgd = keras.optimizers.SGD(momentum=0.9, nesterov=True)

### 적응적 학습율(adaptive learning rate)

In [None]:
### 모델이 최적점(목표하는 지점)에 다달았을 때 학습률(보폭)을
#   낮추게 되면, 안정적으로 최적점에 도달(수렴)할 것이라는 가능성이
#   높아진다는 개념에서 나온 알고리즘
# - 케라스 모델이 자동으로 학습율을 조정하게됨
# - 학습율을 자동으로 조정하는 것을 "적응적 학습율" 이라고 칭합니다.
#   (사람이 직접 처리해 주지 않아도 됨)
# - 적응적학습율의 기본 학습율은 0.01임  #--> 디폴트로 쓰는게 가장 좋음
# - 적응적 학습율을 적용한 알고리즘
#    : adagrad, rmsprop, adam
adagrad = keras.optimizers.Adagrad()
model.compile(optimizer=adagrad,
              loss="sparse_categorical_crossentropy",
              metrics="accuracy")

In [None]:
### 적응적학습율의 디폴트 알고리즘은 rmsprop임
rmsprop = keras.optimizers.RMSprop()
model.compile(optimizer=rmsprop,
              loss="sparse_categorical_crossentropy",
              metrics="accuracy")

In [None]:
adam = keras.optimizers.Adam()
model.compile(optimizer=adam,
              loss="sparse_categorical_crossentropy",
              metrics="accuracy")

In [31]:
### 인공신경망 모델 생성하기
model = keras.Sequential()

### 전처리 계층 추가하기
model.add(keras.layers.Flatten(input_shape=(28,28)))

### 훈련계층(은닉계층) 추가하기
model.add(keras.layers.Dense(100, activation="relu"))

### 출력계층 추가하기
model.add(keras.layers.Dense(10, activation="softmax"))

model.summary()

Model: "sequential_4"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 flatten_1 (Flatten)         (None, 784)               0         
                                                                 
 dense_6 (Dense)             (None, 100)               78500     
                                                                 
 dense_7 (Dense)             (None, 10)                1010      
                                                                 
Total params: 79,510
Trainable params: 79,510
Non-trainable params: 0
_________________________________________________________________


In [32]:
### compile 설정하기
# adam 적용적 학습율 적용
# - adam : 방향과 학습율 두가지 모두를 적절하게 처리하기 위한 알고리즘
# - 옵티마이저로 가장 먼저 적용하면 좋음
model.compile(optimizer="adam",
              loss="sparse_categorical_crossentropy",
              metrics="accuracy")

In [35]:
### 훈련시키기
model.fit(train_scaled, train_target, epochs=5)

Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5


<keras.callbacks.History at 0x17c93cc4dc0>

In [36]:
### 모델 검증(평가)하기
score = model.evaluate(val_scaled, val_target)
score



[0.32925283908843994, 0.878083348274231]

In [43]:
### 옵티마이저 3가지를 처리하면서 최저손실율과 최대정확도 찾아보기
def getBestEval(opt, epoch) :
    model = keras.Sequential()
    model.add(keras.layers.Flatten(input_shape=(28,28)))
    model.add(keras.layers.Dense(100, activation="relu"))
    model.add(keras.layers.Dense(10, activation="softmax"))
    model.compile(optimizer=opt,
                  loss="sparse_categorical_crossentropy",
                  metrics="accuracy")
    model.fit(train_scaled, train_target, epochs=epoch)
    rs_eval = model.evaluate(val_scaled, val_target)
    return rs_eval

In [45]:
### 옵디마니저 3가지 실행
optimizers = ["adagrad", "rmsprop", "adam"]
best_eval = 0.0
best_opt = ""

best_loss = 1.0
best_loss_opt = ""

for opt in optimizers :
    rs = getBestEval(opt, 2)
    print("opt=", opt, " | rs=", rs)
    
    ### 가장 낮은 손실율과 이때 옵티마이저 확인하기
    if best_loss > rs[0] :
        best_loss = rs[0]
        best_loss_opt = opt
        print("best_loss_opt=", best_loss_opt,
             " | best_loss=", best_loss,
             " | rs[0]=", rs[0])
        
    
    ### 가장 낮은 정확도와 이때 옵티마이저 확인하기
    if best_eval > rs[1] :
        best_eval = rs[1]
        best_opt = opt
        print("best_loss_opt=", best_opt,
             " | best_loss=", best_eval,
             " | rs[0]=", rs[1])
    
print(best_opt, best_eval, "/", best_loss_opt, best_loss)        

Epoch 1/2
Epoch 2/2
opt= adagrad  | rs= [0.7369889616966248, 0.7584166526794434]
best_loss_opt= adagrad  | best_loss= 0.7369889616966248  | rs[0]= 0.7369889616966248
Epoch 1/2
Epoch 2/2
opt= rmsprop  | rs= [0.3795769512653351, 0.862416684627533]
best_loss_opt= rmsprop  | best_loss= 0.3795769512653351  | rs[0]= 0.3795769512653351
Epoch 1/2
Epoch 2/2
opt= adam  | rs= [0.3793168067932129, 0.8632500171661377]
best_loss_opt= adam  | best_loss= 0.3793168067932129  | rs[0]= 0.3793168067932129
 0.0 / adam 0.3793168067932129
