In [None]:
# 인공신경망에서 심층을 여러 개 둔 것이 심층 신경망

In [5]:
from tensorflow import keras
(x_train,y_train),(x_target,y_target) = keras.datasets.fashion_mnist.load_data()
x_train.shape # 3차원 배열

(60000, 28, 28)

In [6]:
# 사이킷런 이용하여 스케일링 하기
# - 2차원 배열만 허용

# 3차원 --> 2차원으로 차수 변환
x_train_2d = x_train.reshape(-1, 28*28)

from sklearn.preprocessing import StandardScaler
ss = StandardScaler()
x_train_scaled = ss.fit_transform(x_train_2d)
x_train_scaled.shape

(60000, 784)

In [7]:
# 8:2 로 분류
from sklearn.model_selection import train_test_split
x_train_sc, x_target_sc, y_train_sc, y_target_sc = train_test_split(x_train_scaled, y_train, test_size=0.2)

In [8]:
x_train_sc.shape, y_train_sc.shape

((48000, 784), (48000,))

In [11]:
# 이진 분류의 출력층 -> 시그모이드 함수
# 다중 분류의 출력층 -> 소프트맥스 함수

# 은닉층 만들기
dense1 = keras.layers.Dense(100, activation='sigmoid', input_shape=(28*28,)) # 튜플 형태로 주기
# 100개의 결과(뉴런) 생성
# 출력할 때는 다중 분류이므로 소프트맥스 함수를 이용하나,
# 은닉층을 만들 땐, 데이터가 중첩되지 않게 곡선을 사용해야 하므로 시그모이드 함수 사용한 것

# 출력층 만들기
dense2 = keras.layers.Dense(10, activation='softmax')
# 마지막에 출력을 해주는 층이므로 input_shape로 변환해 줄 필요 X

model = keras.Sequential([dense1, dense2])

In [12]:
model.summary()
# 은닉층 100개 생성, 마지막 출력층 10개로 구성, 출력층에서 소프트맥스함수 이용하여 분류를 한 것이 정답(뉴런)
# - 은닉층은 784개의 데이터가 100개로 압축된 것
# - Param : 784 * 100 + 100(절편) --> 784개의 데이터를 각각 100번씩 훈련하고 훈련할 때마다 하나의 절편값이 함께 더해져 나온 값
# - Param : 100 * 10 + 10(절편)

Model: "sequential_1"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 dense_2 (Dense)             (None, 100)               78500     
                                                                 
 dense_3 (Dense)             (None, 10)                1010      
                                                                 
Total params: 79,510
Trainable params: 79,510
Non-trainable params: 0
_________________________________________________________________


In [13]:
# 항상 위처럼 구성하는 것은 아님
# 다르게 구성해 보기 (층 한꺼번에 구성)

model = keras.Sequential([
    keras.layers.Dense(100, activation='sigmoid', input_shape=(28*28,)),
    keras.layers.Dense(10, activation='softmax')
], name = '패션 MNIST 모델' # 모델명 주기
)

In [15]:
model.summary()

Model: "패션 MNIST 모델"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 dense_4 (Dense)             (None, 100)               78500     
                                                                 
 dense_5 (Dense)             (None, 10)                1010      
                                                                 
Total params: 79,510
Trainable params: 79,510
Non-trainable params: 0
_________________________________________________________________


In [19]:
# 또 다른 구성 방법 (층을 하나씩 생성)

model = keras.Sequential()
model.add(keras.layers.Dense(100, activation='sigmoid', input_shape=(28*28,)),)
model.add(keras.layers.Dense(10, activation='softmax'))

# 둘 중 편한 방법으로 사용하면 됨

In [20]:
model.summary()

Model: "sequential_2"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 dense_8 (Dense)             (None, 100)               78500     
                                                                 
 dense_9 (Dense)             (None, 10)                1010      
                                                                 
Total params: 79,510
Trainable params: 79,510
Non-trainable params: 0
_________________________________________________________________


In [22]:
model.compile(loss='sparse_categorical_crossentropy', metrics='accuracy')
model.fit(x_train_sc, y_train_sc, epochs=5)

Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5


<keras.callbacks.History at 0x1f692ccad00>

In [32]:
# 층 여러 개 주기

model = keras.Sequential()
model.add(keras.layers.Dense(500, activation='sigmoid', input_shape=(28*28,)),) # 784 * 500 + 500
# model.add(keras.layers.Dense(400, activation='sigmoid') # 500 * 400 + 400
# model.add(keras.layers.Dense(300, activation='sigmoid') # 400 * 300 + 300
# model.add(keras.layers.Dense(200, activation='sigmoid') # 300 * 400 + 400
# model.add(keras.layers.Dense(100, activation='sigmoid') # 200 * 100 + 100

# 그런데 input_shape()값을 모두 동일하게 (28*28, ) 적용하거나, 다른 값을 지정해 주거나,
# 첫째값 제외 나머지 input_shape()값은 생략하는 경우 모두 동일한 결과값이 나옴...왜?

# --> 첫번째 입력층을 지정해 준다 하더라도 최초의 입력층값을 시작으로 적용하고
#     다음층부터는 input_shape값을 무시하기 때문

model.add(keras.layers.Dense(10, activation='softmax'))

In [33]:
model.summary()

Model: "sequential_5"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 dense_22 (Dense)            (None, 500)               392500    
                                                                 
 dense_23 (Dense)            (None, 10)                5010      
                                                                 
Total params: 397,510
Trainable params: 397,510
Non-trainable params: 0
_________________________________________________________________


In [35]:
model.compile(loss='sparse_categorical_crossentropy', metrics='accuracy')
model.fit(x_train_sc, y_train_sc, epochs=5)

Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5


<keras.callbacks.History at 0x1f6939486d0>

#### 초기 인공지능의 신경망의 은닉층에 많이 사용된 활성화 함수는 시그모이드
#### 오른쪽이나 왼쪽으로 갈수록 0과 1에 가까운 수를 반환하기 때문에 
#### 함수 적용 효과가 떨어지고 결과값도 큰 차이가 없음

#### 따라서 가중치를 즉각적으로 반영하기 위해...relu 함수 사용
##### - relu : 이미지 처리에 좋은 성능을 낸다.

In [38]:
# Flatten 층은 데이터를 1차원으로 펼쳐 입력 시켜주는 층
model = keras.Sequential()
model.add(keras.layers.Flatten(input_shape=(28*28,))) # flatten은 참여를 해주는 것은 아니기 때문에 파라미터 값이 0
model.add(keras.layers.Dense(500, activation='relu'))
model.add(keras.layers.Dense(10, activation='softmax'))

In [39]:
model.compile(loss='sparse_categorical_crossentropy', metrics='accuracy')
# 하나의 평가방법만 쓰는 것처럼 알 수 있으니, 여러 방법을 쓸 때에는 리스트 형식으로 넣어주어야 정확도가 높아짐
model.fit(x_train_sc, y_train_sc, epochs=5)

Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5


<keras.callbacks.History at 0x1f695480b80>

In [40]:
x_target_sc.shape, y_target_sc.shape

((12000, 784), (12000,))

In [41]:
model.evaluate(x_target_sc, y_target_sc)



[0.5083163380622864, 0.8770833611488342]

### 인공신경망은 기본적으로 확률적 경사 하강법이므로 기본만 사용하면 머신러닝과 비슷함
#### SGDClassifier (로지스틱 회귀) : sklearn에서 제공

#### 인공신경망 + 은닉층 + 은닉층 + ... + 은닉층 n --> keras에서 제공
#### 은닉층의 결과를 뉴런, 즉 출력층이라고 하며
#### 은닉층이 마지막 출력을 뜻하면 그것이 곧 출력층 (활성화 함수 : softmax)
#### 그 외 은닉층 : sigmoid (선형 회귀의 식을 곡선으로 만들어 다음 결과가 중첩되지 않도록 하기 위함)

#### - sigmoid 단점 : 값이 증가할수록 변화가 거의 없으므로 어떤 상황을 즉각적으로 반영할 수 없음 --> relu 함수로 개선
#### - relu :  0보다 클 때는 실제값을 반영하고, 0보다 작을 때는 전부 0으로 처리
    ** 은닉층을 사용한 경우가 사용하지 않은 경우 보다 약간 개선된 것을 확인할 수 있음 **

In [42]:
# compile() --> 경사하강법...optimizers의 디폴트값인 RMSprop 알고리즘 사용 --> 확률적 경사 하강법 (하나씩 꺼내는 것)
# optimizers.SGD() -->  (나머지는) 미니배치 경사하강법
# 특히 신경망에 하이퍼 파라미터값이 많음 (은닉층 또한 하이퍼 파라미터)

In [44]:
sgd = keras.optimizers.SGD(learning_rate=0.01) # Default : 0.001
model.compile(optimizer=sgd, loss='sparse_categorical_crossentropy', metrics='accuracy')
# model 디자인은 바뀌지 않음
# complie을 해 주면 모델의 성능을 다시 측정, 그러나 compile을 안하고 fit만 해주면 훈련 횟수가 누적돼버림
model.fit(x_train_sc, y_train_sc, epochs=5)
# dense값이 모두 동일한 상태에서 옵티마이저값만 바꿔주었는데도
# 처음부터 90%가 넘는 확률이 출력됨

Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5


<keras.callbacks.History at 0x1f695744df0>

In [45]:
sgd = keras.optimizers.SGD(learning_rate=0.1) # Default : 0.001 --> 0.1
model.compile(optimizer=sgd, loss='sparse_categorical_crossentropy', metrics='accuracy')
model.fit(x_train_sc, y_train_sc, epochs=5)

Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5


<keras.callbacks.History at 0x1f6957dfe50>

In [57]:
# SGD 클래스에는 momentum 함수도 존재함 (Default : 0)
#      momentum : 내려오는 속도, like 산에서 달려 내려오기
#      nesterov=True값을 주어야 momentum이 실행됨

model = keras.Sequential()
model.add(keras.layers.Flatten(input_shape=(28*28,))) # compile 두 번 이상하면 Error이므로 모델 다시 초기화
model.add(keras.layers.Dense(500, activation='relu'))
model.add(keras.layers.Dense(10, activation='softmax'))

# 매개변수 튜닝 전 sgd.get_config()로 기본 파라미터 디폴트값 확인하기

sgd = keras.optimizers.SGD(momentum=0.9, nesterov=True) 
model.compile(optimizer=sgd, loss='sparse_categorical_crossentropy', metrics='accuracy')
model.fit(x_train_sc, y_train_sc, epochs=5)
# 에포크가 많을 때의 성능을 보는 것임
# 여기에서는 정확도가 현저히 떨어짐

Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5


<keras.callbacks.History at 0x1f6d20cdd00>

#### *'인공신경망 optimizer gif' 검색하여 영상으로 보다 쉽게 이해하기*

In [61]:
# learning_rate값 기본값으로 줬을 때
# 네스테로프 모멘텀 : 속도, 모멘텀 최적화 2번 반복하여 구현

model = keras.Sequential()
model.add(keras.layers.Flatten(input_shape=(28*28,))) # compile 두 번 이상하면 Error이므로 모델 다시 초기화
model.add(keras.layers.Dense(500, activation='relu'))
model.add(keras.layers.Dense(10, activation='softmax'))

sgd = keras.optimizers.SGD() # learning_rate : 0.01    momentum : 0
model.compile(optimizer=sgd, loss='sparse_categorical_crossentropy', metrics='accuracy')
model.fit(x_train_sc, y_train_sc, epochs=5)
model.evaluate(x_target_sc, y_target_sc)

Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5


[0.3449268937110901, 0.8784999847412109]

### 촘촘히 내려가는 게 아니라 듬성듬성 내려가는 것을 구현하는 알고리즘...
### Adagrad & RMSProps(Optimizers의 Default)
### - 모델이 최적점에 가까이 갈수록 학습율(learning_rate)을 낮출 수 있고,
###   이렇게 하면 안정적으로 최적점에 도착할 가능성이 높음 --> 적응적 학습율
### - 매개변수 튜닝을 안 해 주어도 됨

In [62]:
model = keras.Sequential()
model.add(keras.layers.Flatten(input_shape=(28*28,))) # compile 두 번 이상하면 Error이므로 모델 다시 초기화
model.add(keras.layers.Dense(500, activation='relu'))
model.add(keras.layers.Dense(10, activation='softmax'))

# 매개변수 튜닝 전 adagrad.get_config()로 기본 파라미터 디폴트값 확인하기 (함수 마다 다름)

adagrad = keras.optimizers.Adagrad() # learning_rate : 0.001    momentum : 0
model.compile(optimizer=adagrad, loss='sparse_categorical_crossentropy', metrics='accuracy')
model.fit(x_train_sc, y_train_sc, epochs=5)
model.evaluate(x_target_sc, y_target_sc)

Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5


[0.41383904218673706, 0.8544166684150696]

In [60]:
# 모멘텀 최적화와 RMSProps의 장점을 묶은 게...Adam
model = keras.Sequential()
model.add(keras.layers.Flatten(input_shape=(28*28,))) # compile 두 번 이상하면 Error이므로 모델 다시 초기화
model.add(keras.layers.Dense(500, activation='relu'))
model.add(keras.layers.Dense(10, activation='softmax'))

# 매개변수 튜닝 전 adam.get_config()로 기본 파라미터 디폴트값 확인하기 (함수 마다 다름)

adam = keras.optimizers.Adam() # learning_rate : 0.01    momentum : 0
model.compile(optimizer=adam, loss='sparse_categorical_crossentropy', metrics='accuracy')
model.fit(x_train_sc, y_train_sc, epochs=5)
model.evaluate(x_target_sc, y_target_sc)

Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5


[0.39452749490737915, 0.8798333406448364]

# 이론적으로는 optimizers 중 Adam의 성능이 가장 좋음

In [2]:
# 옵티마이저
# - SGD : 기본 경사하강법의 옵티마이저
#   - learning_mate : 0.01
#   - momentum 값을 0 이상 주면 momentum(움직임) 최적화 수행
#   - nesterov=True 설정 --> nesterov momentum 최적화 수행

# - Adagrad
#   - learning_mate : 0.001
#   - 그라디언트를 제곱하고 누적하여 학습율로 나누어 제공
#   - initial_accumulator_value : Default : 0.1

# - RMSprops
#   - learning_mate : 0.001
#   - 그라디언트를 제곱하고 누적하여 학습율로 나누지만 최근의 그라디언트를 사용하기 위해 '지수 감소'를 사용
#   - rho(감소비율) : Dafault : 0.9

# - Adam
#   - learning_mate : 0.01
#   - momentum 을 최적화 하기 위해 그라디언트 지수를 감소시키는데,
#     평균을 조절하기 위해 beta_1 매개변수 사용
#     beta_1 : Default : 0.9