In [60]:
# input_layer,  Hidden_layer, output_layer

# 소프트맥스 함수를 쓰기 이전에 활성화 함수는 시그모이드

import tensorflow as tf

tf.keras.utils.set_random_seed(42)

In [61]:
# 이미지 데이터셋 로드

from tensorflow import keras


(train_input,train_target), (test_input,test_target)=keras.datasets.fashion_mnist.load_data()

In [62]:
from sklearn.model_selection import train_test_split

# 정규화
train_scaled=train_input/255.0

# 평탄화
train_scaled=train_scaled.reshape(-1,28*28)

train_scaled, val_scaled, train_target, val_target = train_test_split(
    train_scaled, train_target, test_size=0.2, random_state=42
)

In [63]:
# 1) 계층 구조 설정

# 첫번째 계층 설정
# 뉴런 개수는 100개 이고, 활성화함수로 sigmoid 함수를 사용
# 인풋 레이어는 데이터 형태가 (784,)
dense1 = keras.layers.Dense(100, activation='sigmoid', input_shape=(784,))

# 두번째 계층 설정
# 뉴런 갯수는 10개, 이는 클래스의 개수와 동일
# 특정 클래스에 속할 확률을 나타내야 하기 때문에 활성화 함수는 모든 뉴런의 출력값 합이 1로 만들어 주는 소프트 맥스 함수를 사용한다
dense2=keras.layers.Dense(10,activation='softmax')  # input_shape를 쓸 필요가 없음, 처음에만 작성하면 됨

In [64]:
# 2) 모델 만들기
# Sequential 함수에 리스트 객체로 전달
model=keras.Sequential([dense1,dense2])  # 순서대로


In [65]:
# 모델 개요 확인

# 입력층 뉴런 * 은닉층 뉴런 + 은닉층 절편값(활성함수 연산값) = 78500
# 은닉층 뉴런 * 출력증 뉴런 + 출력층 절편값(활성함수 연산값) = 1010

model.summary()

Model: "sequential_11"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 dense_16 (Dense)            (None, 100)               78500     
                                                                 
 dense_17 (Dense)            (None, 10)                1010      
                                                                 
Total params: 79510 (310.59 KB)
Trainable params: 79510 (310.59 KB)
Non-trainable params: 0 (0.00 Byte)
_________________________________________________________________


### 층을 추가하는 다른 방법

In [66]:
# Sequential 매서드 안에서 Dense를 정의하는 것
model=keras.Sequential([
    keras.layers.Dense(100,activation='sigmoid', input_shape=(784,), name='hidden'),
    keras.layers.Dense(10,activation='softmax',name='output')],
    name='패션 mnist 분류 모델'
)

In [67]:
model.summary()

Model: "패션 mnist 분류 모델"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 hidden (Dense)              (None, 100)               78500     
                                                                 
 output (Dense)              (None, 10)                1010      
                                                                 
Total params: 79510 (310.59 KB)
Trainable params: 79510 (310.59 KB)
Non-trainable params: 0 (0.00 Byte)
_________________________________________________________________


In [68]:
## 모델을 먼저 만들고 모델에 계층을 추가하는 방법(가장 많이 사용함)
model=keras.Sequential()
model.add(keras.layers.Dense(100,activation='sigmoid',input_shape=(784,), name='hidden'))
model.add(keras.layers.Dense(10,activation='softmax',name='output'))

In [69]:
model.summary()

Model: "sequential_12"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 hidden (Dense)              (None, 100)               78500     
                                                                 
 output (Dense)              (None, 10)                1010      
                                                                 
Total params: 79510 (310.59 KB)
Trainable params: 79510 (310.59 KB)
Non-trainable params: 0 (0.00 Byte)
_________________________________________________________________


In [70]:
## 모델 컴파일 
model.compile(loss='sparse_categorical_crossentropy',metrics='accuracy')

In [71]:
model.fit(train_scaled,train_target,epochs=5)

Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5


<keras.src.callbacks.History at 0x1c9077de8d0>

### Relu activation

In [72]:
# 비선형성을 갖는 Relu 사용
# 최종 활성화 전에 은닉층에서 사용하는 활성화 함수
# 양수가 입력되기 전에는 모두0, 양수가 입력되면 값을 내뱉은 비선형 함수
# 기울기 소실 문제를 완화하고 수렴 속도를 높임
# 선형 함수만 사용하면 신경망이 아무리 깊어도 선형모델과 동일해지므로 비선형 데이터에 피팅되기 어려움
# 따라서 활성화 함수로 relu를 가장 많이 사용함(sigmoid와 함께)

In [73]:
model=keras.Sequential()
model.add(keras.layers.Flatten(input_shape=(28,28)))
model.add(keras.layers.Dense(100,activation='relu'))
model.add(keras.layers.Dense(10,activation='softmax'))

In [74]:
model.summary()

Model: "sequential_13"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 flatten_5 (Flatten)         (None, 784)               0         
                                                                 
 dense_18 (Dense)            (None, 100)               78500     
                                                                 
 dense_19 (Dense)            (None, 10)                1010      
                                                                 
Total params: 79510 (310.59 KB)
Trainable params: 79510 (310.59 KB)
Non-trainable params: 0 (0.00 Byte)
_________________________________________________________________


In [75]:
(train_input,train_target), (test_input,test_target)=keras.datasets.fashion_mnist.load_data()

# 정규화
train_scaled=train_input/255.0

train_scaled, val_scaled, train_target, val_target = train_test_split(
    train_scaled, train_target, test_size=0.2, random_state=42
)


In [76]:
model.compile(loss='sparse_categorical_crossentropy',metrics='accuracy')
model.fit(train_scaled,train_target,epochs=5)

Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5


<keras.src.callbacks.History at 0x1c9078d77d0>

In [77]:
# 예측
model.evaluate(val_scaled,val_target)



[0.37893083691596985, 0.8698333501815796]

### Optimizer : 최적화

In [79]:
## SGD
# 매 단계(epoch)에서 일부 훈련 샘플만 사용하여 모델의 가중치를 업데이트
# 학습률(Learning_rate)은 각 에폭에서 가중치 적용도를 뜻함
# 학습률이 너무 높아서 가중치 반영률이 너무 높으면 오버피팅, 너무 낮으면 언더피팅

# nesterov : 가속
# momentum : 이전 학습률의 반영률
sgd=keras.optimizers.SGD(learning_rate=0.1,momentum=0.9,nesterov=True)
config=sgd.get_config()
print(config)

{'name': 'SGD', 'weight_decay': None, 'clipnorm': None, 'global_clipnorm': None, 'clipvalue': None, 'use_ema': False, 'ema_momentum': 0.99, 'ema_overwrite_frequency': None, 'jit_compile': False, 'is_legacy_optimizer': False, 'learning_rate': 0.1, 'momentum': 0.9, 'nesterov': True}


In [80]:
# 컴파일러에 옵티마이저를 넘겨주면 됨
model.compile(optimizer=sgd, loss='sparse_categorical_crossentropy', metrics='accuracy')

In [81]:
### AdaGrad
# 딥러닝의 손실률 최적화 알고리즘인 옵티마이저 SGD는 학습률과 속도를 수동으로 조절해야 함
# 데이터에 따라 해당 매개변수의 기울기 제곱합의 제곱근으로 나누어서 학습률과 속도를 자동으로 조절함
adagrad=keras.optimizers.Adagrad()
model.compile(optimizer=adagrad,loss='sparse_categorical_crossentropy',metrics='accuracy')

In [82]:
### RMSprop()
# Adagrad는 단점이 존재, 기울기 제곱합을 누적하기 때문에 매개변수의 값에 너무 큰 영향을 받음(뒤로 갈수록)
# 학습률이 급격하게 감소하거나 늘어날 수 있음
# 따라서, 기울기 제곱합을 누적하지 않고 기울기 제곱의 지수이동평균을 사용하는 RMSprop
rmsprop=keras.optimizers.RMSprop()
model.compile(optimizer=rmsprop,loss='sparse_categorical_crossentropy',metrics='accuracy')

In [86]:
# adam -> optimizer의 최상급
model=keras.Sequential()
model.add(keras.layers.Flatten(input_shape=(28,28)))
model.add(keras.layers.Dense(100,activation='relu'))
model.add(keras.layers.Dense(10,activation='softmax'))

In [87]:
model.compile(optimizer='adam',loss='sparse_categorical_crossentropy',metrics='accuracy')

In [88]:
model.fit(train_scaled,train_target,epochs=5)

Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5


<keras.src.callbacks.History at 0x1c916174ad0>

In [89]:
model.evaluate(train_scaled,train_target)



[0.2887270748615265, 0.893791675567627]