In [1]:
import warnings
warnings.filterwarnings('ignore')

#### 패션 MNIST
- 구두, 가방, 옷 등의 이미지로 구성
- 총 10개의 class
- 28pixel * 28pixel = 784개의 Feature로 구성
- Sample수는 70000개 이다. 

In [2]:
# 데이터 불러오기
from tensorflow import keras

(train_input, train_target),(test_input, test_target) = \
                            keras.datasets.fashion_mnist.load_data()

In [4]:
train_target[:5]

array([9, 0, 0, 3, 0], dtype=uint8)

In [6]:
train_input.shape

(60000, 28, 28)

In [5]:
# 정규화
train_scaled = train_input / 255.0

In [7]:
# 1차원으로 shape 변경 
train_scaled = train_scaled.reshape(-1, 28*28)
train_scaled.shape

(60000, 784)

In [8]:
# train과 valid data 분리 
from sklearn.model_selection import train_test_split

train_scaled, val_scaled, train_target, val_target = \
                            train_test_split(
                                train_scaled, 
                                train_target,
                                random_state=42
                            )


---
#### Deep Learning Model 만들기

- 입력층 : 배열의 갯수가 28*28이므로 784개의 입력층 
- 은닉층 1개 : 갯수가 정해있지 않으나 출력층 보다는 많아야 하고 입력층 보다는 적어야 한다. 
- 은닉층은 활성화함수를 사용하지 않으면 수학식 연산전개시 별 구분이 되지 않는다. 
- 출력층 : 다중분류이어서 Softmax함수를 사용, 이진분류인 경우에는 Sigmoid를 사용 

#### Layer를 추가하는 방법 - 1

In [9]:
# Layer 만들기
dense1 = keras.layers.Dense(
                100,
                activation='sigmoid',
                input_shape=(784,)
)# 은닉층

dense2 = keras.layers.Dense(
                10,
                activation='softmax'
)# 출력층

In [10]:
# 전체 모델에 층을 추가하자

model = keras.Sequential(
            [dense1, dense2]
)

In [11]:
# Summary
model.summary()

----
#### Layer에 추가하는 방법 - 2

In [12]:
model = keras.Sequential(
    [
        keras.layers.Dense(100, activation='sigmoid', input_shape=(784,), name='hidden'),
        keras.layers.Dense(10, activation='softmax', name='output')
    ], 
    name = '패션 MNIST 모델'
)

In [13]:
model.summary()

----
#### Layer를 추가하는 방법 - 3

In [None]:
model = keras.Sequential()
model.add(
    keras.layers.Dense(100, activation='sigmoid', input_shape=(784,))
)

model.add(
    keras.layers.Dense(10, activation='softmax')
)
model.summary()

> 제일 많이 사용하는 방법이다.    
model.add와 model.add사이에 파이썬 코드를 넣어 처리 가능하다.    

----
#### 손실함수 

In [15]:
model.compile(
    loss='sparse_categorical_crossentropy',
    metrics=['accuracy']
)

#### 모델 훈련

In [17]:
model.fit(
    train_scaled,
    train_target,
    epochs=5
)

Epoch 1/5
[1m1407/1407[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m2s[0m 1ms/step - accuracy: 0.7520 - loss: 0.7731
Epoch 2/5
[1m1407/1407[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m2s[0m 1ms/step - accuracy: 0.8469 - loss: 0.4261
Epoch 3/5
[1m1407/1407[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m2s[0m 1ms/step - accuracy: 0.8635 - loss: 0.3813
Epoch 4/5
[1m1407/1407[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m2s[0m 1ms/step - accuracy: 0.8714 - loss: 0.3554
Epoch 5/5
[1m1407/1407[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m2s[0m 1ms/step - accuracy: 0.8772 - loss: 0.3475


<keras.src.callbacks.history.History at 0x25b005b40e0>

#### Relu 활성화 함수
- Sigmoid함수는 숫자가 무한대로 커지게 되면 데이터의 차이가 거의 없다는 단점이 있다. 
- 이를 해결한것이 Relu함수인데, 인공신경망에 기여한 바가 크며 음수는 모두 0으로 양수는 항상 최대값을 출력하는 함수 

In [18]:
model = keras.Sequential()
model.add(keras.layers.Flatten(input_shape=(28, 28))) # 입력층을 2차원 원래데이터로 사용
model.add(keras.layers.Dense(100, activation='relu')) # 은닉층
model.add(keras.layers.Dense(10, activation='softmax')) # 출력층
model.summary()

In [22]:
# 새로운 Data Set 준비

(train_input, train_target), (test_input, test_target) = \
                                keras.datasets.fashion_mnist.load_data()

train_scaled = train_input / 255.0

train_scaled, val_scaled, train_target, val_target = \
                    train_test_split(
                        train_scaled,
                        train_target,
                        random_state=42    
                    )

train_scaled.shape

(45000, 28, 28)

In [23]:
# 손실함수
model.compile(
    loss='sparse_categorical_crossentropy',
    metrics=['accuracy']
)

# 학습
model.fit(train_scaled, train_target, epochs=5)

Epoch 1/5
[1m1407/1407[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m2s[0m 1ms/step - accuracy: 0.7637 - loss: 0.6782
Epoch 2/5
[1m1407/1407[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m2s[0m 1ms/step - accuracy: 0.8544 - loss: 0.4074
Epoch 3/5
[1m1407/1407[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m2s[0m 1ms/step - accuracy: 0.8703 - loss: 0.3622
Epoch 4/5
[1m1407/1407[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m2s[0m 1ms/step - accuracy: 0.8767 - loss: 0.3414
Epoch 5/5
[1m1407/1407[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m2s[0m 1ms/step - accuracy: 0.8849 - loss: 0.3212


<keras.src.callbacks.history.History at 0x25b016a6960>

In [24]:
# 검증 데이터로 확인
model.evaluate(val_scaled, val_target)

[1m469/469[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 992us/step - accuracy: 0.8764 - loss: 0.3620


[0.36154770851135254, 0.8759333491325378]

----
#### Optimizer(최적화 알고리즘)
- 훈련시 optimize를 사용하여 최적화 알고리즘을 구성한다.
- 보통 사용하는 것이 확률적 경사하강법 optimizer이다. 
- SGD에서 개선된 확률적 경사하강법으로는 모멘텀이나 아담등이 있다.
- 적응적 학습률(learning rate) 옵티마이저는 경사가 급한곳은 빨리 이동하고 경사가 급하지 않은 곳은 천천히 이동하며 최적값을 찾는다. 

In [25]:
# 적용방법 (확률적 경사 하강법) - 1
model.compile(
    loss = 'sparse_categorical_crossentropy',
    optimizer='sgd',
    metrics=['accuracy']
)

In [26]:
# 적용방법 (확률적 경사 하강법) - 2
sgd = keras.optimizers.SGD()
model.compile(
    loss = 'sparse_categorical_crossentropy',
    optimizer=sgd,
    metrics=['accuracy']
)

In [27]:
# 적용방법 (확률적 경사 하강법) + 학습율 변경 - 3
sgd = keras.optimizers.SGD(learning_rate=0.1) # 기본값은 0.01
model.compile(
    loss = 'sparse_categorical_crossentropy',
    optimizer=sgd,
    metrics=['accuracy']
)

In [28]:
# 적용방법 (Momentum)
sgd = keras.optimizers.SGD(momentum=0.9, nesterov=True) 
model.compile(
    loss = 'sparse_categorical_crossentropy',
    optimizer=sgd,
    metrics=['accuracy']
)

In [29]:
# 적용방법 (Adagrad)
adagrad = keras.optimizers.Adagrad()
model.compile(
    loss = 'sparse_categorical_crossentropy',
    optimizer=adagrad,
    metrics=['accuracy']
)

In [30]:
# 적용방법 (RMSprop)
rmsprop = keras.optimizers.RMSprop()
model.compile(
    loss = 'sparse_categorical_crossentropy',
    optimizer=rmsprop,
    metrics=['accuracy']
)

----
- activation함수 : Relu
- optimizer : adam

In [31]:
model = keras.Sequential()
model.add(keras.layers.Flatten(input_shape=(28, 28)))
model.add(keras.layers.Dense(100, activation='relu'))
model.add(keras.layers.Dense(10, activation='softmax'))

In [32]:
model.compile(
    loss = 'sparse_categorical_crossentropy',
    optimizer = 'adam',
    metrics = ['accuracy']
)

model.fit(train_scaled, train_target, epochs=5)

Epoch 1/5
[1m1407/1407[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m2s[0m 1ms/step - accuracy: 0.7585 - loss: 0.7065
Epoch 2/5
[1m1407/1407[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m2s[0m 1ms/step - accuracy: 0.8492 - loss: 0.4162
Epoch 3/5
[1m1407/1407[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m2s[0m 1ms/step - accuracy: 0.8685 - loss: 0.3650
Epoch 4/5
[1m1407/1407[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m2s[0m 1ms/step - accuracy: 0.8807 - loss: 0.3305
Epoch 5/5
[1m1407/1407[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m2s[0m 1ms/step - accuracy: 0.8887 - loss: 0.3023


<keras.src.callbacks.history.History at 0x25b0dee72c0>

In [33]:
model.evaluate(val_scaled, val_target)

[1m469/469[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 1ms/step - accuracy: 0.8832 - loss: 0.3316  


[0.3318557143211365, 0.8805999755859375]

----
### 딥러닝 구성
#### 딥러닝 신경망의 작업 흐름
##### 1. 입력층(Input Layer)
- 입력 데이터를 받는 층 입니다. 데이터는 숫자로 변환된 상태로 들어 옵니다.    
- 입력층은 데이터의 특징이나 변수를 신경망에 전달 합니다.     

##### 2. 은닉층(Hidden Layer)
- 입력층에서 받은 데이터를 처리하는 중간 단계 입니다. 하나 이상의 은닉층이 있을 수 있습니다.  
- 각 은닉층에서는 활성화 함수(Activation Function)가 적용 됩니다. 이 함수는 각 노드에서 계산된 값을 비선형적으로 변환하여 다음 층으로 전달합니다. 대표적인 활성화 함수로는 ReLu, Sigmoid, Tanh등이 있습니다.   

##### 3. 출력층(Output Layer)
- 은닉층에서 전달된 데이터를 최종적으로 처리하여 결과를 내는 층 입니다.   
- 분류 문제라면 소프트맥수(Softmax)같은 활성화 함수가 사용되어 예측 확률을 계산합니다.   

##### 4. 손실함수(Loss Function)
- 출력층에서 나온 결과와 실제값(정답)을 비교하여 오류를 계산합니다.
- 손실함수는 예측이 얼마나 잘못되었는지 평가 합니다. 
- 대표적인 손실함수로는 회귀문제에 사용되는 MSE(Mean Squared Error)와 분류문제에 사용되는 교차 엔트로피(Cross-Entropy)등이 있습니다.   

##### 5. 최적화 함수(Optimized Function)
- 손실함수에서 계산된 오류를 바탕으로 가중치를 업데이트 합니다. 이를 통해 모델이 더 좋은 예측을 할 수 있도록 학습이 진행 됩니다.  
- 대표적인 최적화 함수로는 확률적 경사하강법(Stochastic Gradient Descent: SGD)와 Adam이 있습니다.
- 최적화 함수는 역전파(Backpropagation)과정에서 가중치(Weight)와 편향(Bias)을 조정하는 역할을 합니다.   

이 과정이 여러 번 반복되면서 신경망은 학습을 통해 더 좋은 결과를 내놓게 됩니다. (Epochs)