<a href="https://colab.research.google.com/github/sungjoonlee427/GDG-AI-STUDY/blob/main/Deep_Neural_Network.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [35]:
from tensorflow import keras
# TensorFlow의 Keras 모듈을 임포트함

(train_input, train_target), (test_input, test_target) = \
  keras.datasets.fashion_mnist.load_data()
# Fashion MNIST 데이터셋을 로드하여 훈련 세트와 테스트 세트로 나눔
# - train_input: 훈련 이미지 데이터 (28x28 크기의 회색조 이미지, 각 픽셀 값은 0~255 범위)
# - train_target: 훈련 데이터에 해당하는 라벨 (10개의 클래스, 0~9 범위의 정수 값)
# - test_input: 테스트 이미지 데이터
# - test_target: 테스트 데이터에 해당하는 라벨
# Fashion MNIST는 의류와 신발 등 10가지 카테고리로 구성된 이미지 데이터셋임

In [36]:
from sklearn.model_selection import train_test_split
# 사이킷런의 train_test_split 함수를 임포트하여 데이터를 훈련 세트와 검증 세트로 나누기 위해 사용함

train_scaled = train_input / 255.0
# train_input 데이터를 255.0으로 나누어 정규화함
# - Fashion MNIST 데이터는 픽셀 값이 0~255 범위로 되어 있음
# - 정규화를 통해 값을 0~1 범위로 변환하여 학습 효율을 높임

train_scaled = train_scaled.reshape(-1, 28*28)
# 데이터 차원을 변경하여 28x28 이미지를 1차원 벡터(784개의 값)로 변환함
# - `-1`은 데이터 샘플 수에 따라 자동으로 크기를 조정하도록 설정
# - 딥러닝 모델에서 입력으로 사용하는 벡터 형태로 데이터 준비

train_scaled, val_scaled, train_target, val_target = train_test_split(
    train_scaled, train_target, test_size=0.2, random_state=42
)
# 정규화된 훈련 데이터를 훈련 세트와 검증 세트로 분리함
# - train_scaled: 훈련 입력 데이터
# - val_scaled: 검증 입력 데이터
# - train_target: 훈련 데이터 라벨
# - val_target: 검증 데이터 라벨
# - `test_size=0.2`: 전체 데이터의 20%를 검증 세트로 할당
# - `random_state=42`: 결과를 재현 가능하도록 랜덤 시드 설정

# 목적:
# - 검증 세트를 사용해 훈련 과정 중 모델의 성능을 평가
# - 과적합(overfitting)을 방지하고 일반화 성능을 확인

In [37]:
dense1 = keras.layers.Dense(100, activation='sigmoid', input_shape=(784,))
# 첫 번째 Dense(완전 연결) 층 정의
# - 100개의 뉴런을 가지며, 활성화 함수로 sigmoid 사용
# - 입력 데이터는 784개의 특성을 가진 1차원 벡터로 설정 (`input_shape=(784,)`)
# - 이 층은 입력 데이터를 처리하여 비선형 변환을 수행하고, 다음 층으로 전달함
# - sigmoid 활성화 함수는 출력값을 0~1 사이로 제한하여 비선형성을 제공

dense2 = keras.layers.Dense(10, activation='softmax')
# 두 번째 Dense 층 정의
# - 10개의 뉴런을 가지며, 활성화 함수로 softmax 사용
# - 이 층은 모델의 출력층으로 사용되며, 10개의 클래스 확률 값을 반환함
# - softmax 활성화 함수는 출력값을 0~1 범위로 정규화하고, 모든 출력의 합이 1이 되도록 함
# - 출력값은 각 클래스에 대한 예측 확률로 해석됨

# 요약:
# - `dense1`: 은닉층으로 입력 데이터의 특징을 추출하는 역할을 수행
# - `dense2`: 출력층으로 각 클래스의 확률을 반환하여 분류 결과를 제공

  super().__init__(activity_regularizer=activity_regularizer, **kwargs)


In [38]:
model = keras.Sequential([dense1, dense2])
# `Sequential` 클래스를 사용해 신경망 모델을 생성
# - `[dense1, dense2]`: 앞에서 정의한 두 개의 Dense 층을 순차적으로 연결
# - 입력 데이터는 dense1 층을 거친 뒤, dense2 층을 통해 최종 출력값을 생성
# - 순차적(Sequential) 모델은 층이 순서대로 연결된 구조를 가짐

model.summary()
# 모델의 구조를 요약해서 출력
# - 층의 이름, 출력 형태, 파라미터 수 등을 확인 가능
# - 출력 내용:
#   1. 각 층의 이름 및 출력 차원 (e.g., (None, 100), (None, 10))
#      - `None`은 입력 데이터의 배치 크기가 지정되지 않았음을 의미
#   2. 각 층에서 학습되는 파라미터 수
#      - dense1: `(784 + 1) * 100` = 78,500 (가중치 78,400개 + 편향 100개)
#      - dense2: `(100 + 1) * 10` = 1,010 (가중치 1,000개 + 편향 10개)
#   3. 총 학습 가능한 파라미터의 수

# 요약:
# - `model`: 두 개의 Dense 층으로 구성된 신경망 모델
# - `model.summary`: 모델의 세부 구조 및 학습 가능한 파라미터의 개수를 검토하여 확인

In [39]:
model = keras.Sequential(
    [
        keras.layers.Dense(100, activation='sigmoid', input_shape=(784,), name='hidden'),
        # 첫 번째 층 (은닉층)
        # - 100개의 뉴런을 가지며, 활성화 함수로 sigmoid 사용
        # - 입력 데이터 형태는 (784,)로 설정 (28x28 이미지의 벡터화된 데이터)
        # - 층의 이름을 'hidden'으로 지정
        # - sigmoid 함수로 비선형성을 추가하여 입력 데이터의 특징을 추출

        keras.layers.Dense(10, activation='softmax', name='output')
        # 두 번째 층 (출력층)
        # - 10개의 뉴런을 가지며, 활성화 함수로 softmax 사용
        # - 각 뉴런은 10개의 클래스에 대한 확률 값을 출력
        # - 층의 이름을 'output'으로 지정
        # - softmax는 출력값을 확률 분포로 변환하여 클래스 확률 반환
    ],
    name='fashion MNIST model'
    # 모델 이름을 'fashion MNIST model'로 지정
)
# `Sequential` 클래스를 사용해 두 층을 순차적으로 연결하여 모델 구성

model.summary()
# 모델의 세부 구조를 요약 출력
# - 각 층의 이름, 출력 차원, 학습 가능한 파라미터의 개수를 표시
# - 출력 내용:
#   1. Layer (층): 'hidden' 및 'output'
#   2. Output Shape (출력 형태): (None, 100), (None, 10)
#      - `None`: 입력 데이터의 배치 크기를 지정하지 않음
#   3. Param # (파라미터 수):
#      - hidden: (784 + 1) * 100 = 78,500
#      - output: (100 + 1) * 10 = 1,010
#   4. Total params (총 파라미터): 79,510

# 요약:
# - 모델 이름과 각 층의 이름을 명시적으로 지정하여 가독성 향상
# - 은닉층과 출력층으로 구성된 신경망 구조를 확인 가능

In [40]:
model = keras.Sequential()
# 빈 Sequential 모델을 생성
# - Sequential은 층을 순차적으로 쌓을 수 있는 컨테이너 역할을 함
# - 모델을 점진적으로 정의할 수 있도록 설정

model.add(keras.layers.Dense(100, activation='sigmoid', input_shape=(784,)))
# 첫 번째 Dense 층 추가
# - 100개의 뉴런을 가지며, 활성화 함수로 sigmoid 사용
# - 입력 데이터는 (784,) 크기의 벡터로, 28x28 크기의 이미지를 1차원 벡터로 펼친 형태
# - `input_shape=(784,)`는 첫 번째 층에서만 사용하며, 이후 층은 자동으로 입력 형태를 유추

model.add(keras.layers.Dense(10, activation='softmax'))
# 두 번째 Dense 층 추가
# - 10개의 뉴런을 가지며, 활성화 함수로 softmax 사용
# - 출력값은 각 클래스에 대한 확률 값을 반환하며, 이 값을 통해 분류를 진행
# - softmax 활성화 함수는 출력값을 확률 분포로 변환하여 각 클래스에 대한 예측 확률 제공

model.summary()
# 모델의 구조를 요약 출력
# - 각 층의 이름, 출력 형태, 학습 가능한 파라미터 수가 표시됨
# - 출력 내용:
#   1. 첫 번째 층 (Dense, 100 뉴런): 출력 형태는 (None, 100)
#      - 파라미터 수: (784 + 1) * 100 = 78,500 (가중치 78,400개 + 편향 100개)
#   2. 두 번째 층 (Dense, 10 뉴런): 출력 형태는 (None, 10)
#      - 파라미터 수: (100 + 1) * 10 = 1,010 (가중치 1,000개 + 편향 10개)
#   3. 총 파라미터 수: 79,510

# 요약:
# - `Sequential` 모델을 사용해 점진적으로 층을 추가하여 신경망 모델을 구성함
# - `model.summary()`로 모델의 구조와 학습 가능한 파라미터를 검토

In [41]:
model.compile(loss='sparse_categorical_crossentropy', metrics=['accuracy'])
# 모델 컴파일 단계
# - `loss='sparse_categorical_crossentropy'`: 다중 클래스 분류 문제에서 사용하는 손실 함수
#   - `sparse_categorical_crossentropy`는 라벨이 정수 인코딩된 경우에 사용
#   - 레이블이 0~9의 클래스 값으로 되어 있으며, 각 클래스에 대한 예측 확률을 비교하여 손실을 계산
# - `metrics=['accuracy']`: 모델 평가 지표로 정확도(accuracy)를 사용
#   - 학습 중 정확도 계산 및 출력
#   - 정확도는 모델이 맞게 분류한 샘플의 비율을 나타냄

model.fit(train_scaled, train_target, epochs=5)
# 모델 학습 단계
# - `train_scaled`: 훈련 데이터의 입력값 (784 크기의 벡터)
# - `train_target`: 훈련 데이터의 정답 라벨 (0~9 범위의 클래스)
# - `epochs=5`: 훈련을 5번의 에포크(epoch) 동안 반복
#   - 에포크는 전체 훈련 데이터를 한 번 모두 사용하는 단위
#   - 여러 에포크를 통해 모델이 점진적으로 개선됨

# 요약:
# - 모델을 컴파일하여 손실 함수와 평가 지표를 설정하고, 학습을 시작
# - 학습을 통해 모델이 훈련 데이터에 적합하게 매개변수를 업데이트
# - 5번의 에포크 동안 학습하여 정확도를 최적화함

Epoch 1/5
[1m1500/1500[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m5s[0m 3ms/step - accuracy: 0.7526 - loss: 0.7656
Epoch 2/5
[1m1500/1500[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m7s[0m 4ms/step - accuracy: 0.8493 - loss: 0.4233
Epoch 3/5
[1m1500/1500[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m10s[0m 4ms/step - accuracy: 0.8634 - loss: 0.3837
Epoch 4/5
[1m1500/1500[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m10s[0m 4ms/step - accuracy: 0.8742 - loss: 0.3433
Epoch 5/5
[1m1500/1500[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m7s[0m 5ms/step - accuracy: 0.8780 - loss: 0.3376


<keras.src.callbacks.history.History at 0x7d200898c7f0>

In [42]:
model = keras.Sequential()
# 빈 Sequential 모델을 생성
# - Sequential 모델은 층을 순차적으로 쌓을 수 있는 간단한 모델 구조

model.add(keras.layers.Flatten(input_shape=(28, 28)))
# 첫 번째 층 (Flatten) 추가
# - `input_shape=(28, 28)`: 입력 데이터의 형태를 28x28 크기의 이미지로 설정
# - Flatten 층은 2D 형태의 데이터를 1D 벡터로 변환하는 역할
# - 이 층을 통해 28x28 이미지를 784개의 요소를 가지는 1차원 배열로 펼침

model.add(keras.layers.Dense(100, activation='relu'))
# 두 번째 층 (Dense) 추가
# - 100개의 뉴런을 가지며, 활성화 함수로 ReLU (Rectified Linear Unit) 사용
# - ReLU는 비선형 활성화 함수로, 음수는 0으로, 양수는 그대로 출력
# - 이 층은 입력 데이터를 처리하여 중요한 특징을 추출

model.add(keras.layers.Dense(10, activation='softmax'))
# 세 번째 층 (출력층) 추가
# - 10개의 뉴런을 가지며, 활성화 함수로 softmax 사용
# - softmax는 각 클래스에 대한 확률을 출력하는 함수
# - 10개의 클래스 중 가장 높은 확률을 가진 클래스를 예측

model.summary()
# 모델의 구조를 요약하여 출력
# - 각 층의 이름, 출력 형태, 학습 가능한 파라미터 수 등을 확인
# - 출력 내용:
#   1. Flatten 층: 입력 크기 (28, 28)을 (784,)로 변환
#      - 파라미터 없음
#   2. Dense 층: 100개의 뉴런을 가진 은닉층
#      - 파라미터 수: (784 + 1) * 100 = 78,500 (가중치 78,400개 + 편향 100개)
#   3. Dense 층: 10개의 뉴런을 가진 출력층
#      - 파라미터 수: (100 + 1) * 10 = 1,010 (가중치 1,000개 + 편향 10개)
#   4. 총 파라미터 수: 79,510

# 요약:
# - 입력 이미지를 1차원 벡터로 변환하고, 은닉층과 출력층을 추가하여 모델을 구성
# - `model.summary()`를 통해 모델의 세부 구조와 학습 가능한 파라미터를 검토

  super().__init__(**kwargs)


In [43]:
(train_input, train_target), (test_input, test_target) = keras.datasets.fashion_mnist.load_data()
# Fashion MNIST 데이터셋을 로드
# - `train_input`: 훈련 이미지 데이터 (28x28 크기, 총 60,000개)
# - `train_target`: 훈련 데이터의 라벨 (0~9, 총 60,000개)
# - `test_input`: 테스트 이미지 데이터 (28x28 크기, 총 10,000개)
# - `test_target`: 테스트 데이터의 라벨 (0~9, 총 10,000개)

train_scaled = train_input / 255.0
# 훈련 데이터를 255.0으로 나누어 정규화
# - Fashion MNIST 데이터는 픽셀 값이 0~255 범위로 되어 있음
# - 정규화를 통해 데이터를 0~1 범위로 변환하여 학습 효율을 높임

train_scaled = train_scaled.reshape(-1, 28*28)
# 데이터 차원을 28x28 이미지에서 1차원 벡터(784차원)로 변환
# - `-1`은 데이터 샘플 수에 따라 자동으로 크기를 조정
# - 모델에 입력될 수 있도록 벡터 형태로 데이터를 준비

train_scaled, val_scaled, train_target, val_target = train_test_split(
    train_scaled, train_target, test_size=0.2, random_state=42
)
# 훈련 데이터를 훈련 세트와 검증 세트로 분리
# - `train_scaled`: 훈련 데이터 입력
# - `val_scaled`: 검증 데이터 입력
# - `train_target`: 훈련 데이터 라벨
# - `val_target`: 검증 데이터 라벨
# - `test_size=0.2`: 전체 데이터의 20%를 검증 세트로 할당
# - `random_state=42`: 데이터 분할을 재현 가능하게 설정 (랜덤 시드)

# 요약:
# - Fashion MNIST 데이터를 불러와서 정규화하고 1차원 벡터로 변환
# - 데이터를 훈련 세트와 검증 세트로 나누어 모델 학습에 사용할 준비를 완료

In [48]:
model.compile(loss='sparse_categorical_crossentropy', metrics=['accuracy'])
# 모델을 컴파일하는 단계
# - `loss='sparse_categorical_crossentropy'`: 다중 클래스 분류 문제에서 사용되는 손실 함수
#   - `sparse_categorical_crossentropy`는 레이블이 정수로 인코딩되어 있을 때 사용하는 손실 함수
#   - 이 손실 함수는 각 클래스에 대한 확률 분포를 계산하고, 모델이 예측한 확률과 실제 라벨을 비교하여 오차를 계산
# - `metrics=['accuracy']`: 학습 과정에서 평가할 지표로 정확도(accuracy)를 설정
#   - 정확도는 모델이 얼마나 정확하게 예측했는지를 평가하는 지표
#   - 정확도는 `(예측이 맞은 샘플 수) / (전체 샘플 수)`로 계산

model.fit(train_scaled.reshape(-1, 28, 28), train_target, epochs=5)
# 모델을 훈련시키는 단계
# - `train_scaled`: 훈련 데이터의 입력값 (28x28 이미지를 벡터로 변환한 데이터)
# - `train_target`: 훈련 데이터의 정답 라벨 (0~9 클래스에 대한 레이블)
# - `epochs=5`: 훈련을 5번의 에포크(epoch) 동안 반복
#   - 각 에포크는 훈련 데이터 전체를 한 번 학습하는 과정
#   - 여러 에포크를 통해 모델은 점진적으로 성능을 향상시킴

# 요약:
# - 모델을 컴파일하여 손실 함수와 평가 지표를 설정하고, 훈련을 시작
# - 훈련 데이터와 라벨을 사용하여 모델을 5번의 에포크 동안 학습시키며, 정확도 지표를 모니터링

Epoch 1/5
[1m1500/1500[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m5s[0m 3ms/step - accuracy: 0.7661 - loss: 0.6706
Epoch 2/5
[1m1500/1500[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m6s[0m 4ms/step - accuracy: 0.8554 - loss: 0.4062
Epoch 3/5
[1m1500/1500[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m4s[0m 3ms/step - accuracy: 0.8671 - loss: 0.3627
Epoch 4/5
[1m1500/1500[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m5s[0m 3ms/step - accuracy: 0.8756 - loss: 0.3436
Epoch 5/5
[1m1500/1500[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m6s[0m 4ms/step - accuracy: 0.8825 - loss: 0.3215


<keras.src.callbacks.history.History at 0x7d2006f74cd0>

In [52]:
model.evaluate(val_scaled.reshape(-1, 28, 28), val_target)
# 모델 성능 평가 단계
# - `val_scaled`: 검증 데이터의 입력값 (훈련 데이터에서 나누어진 검증 세트)
# - `val_target`: 검증 데이터의 정답 라벨 (검증 세트의 클래스 라벨)
# - 이 함수는 검증 데이터에 대해 모델을 평가하고, 손실 함수 값과 지정된 지표(여기서는 정확도)를 반환
#   - 모델이 검증 세트에 대해 얼마나 잘 예측했는지 평가
#   - 반환되는 값은 손실 값과 정확도 값을 포함하며, 각각 모델이 검증 데이터에서 얼마나 잘 수행했는지를 나타냄

# 요약:
# - 검증 세트를 사용하여 모델의 성능을 평가하고, 손실 값과 정확도 값을 확인
# - 학습 데이터가 아닌 검증 데이터에 대한 평가를 통해 모델의 일반화 성능을 확인할 수 있음

[1m375/375[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 2ms/step - accuracy: 0.8723 - loss: 0.3749


[0.372572660446167, 0.8713333606719971]

# 옵티마이저(Optimizer)

옵티마이저는 머신러닝과 딥러닝에서 모델의 학습 과정을 제어하는 중요한 요소로, 손실 함수(loss function)를 최소화하거나 모델의 성능을 최적화하는 데 사용됨.  
모델의 가중치(weight)와 편향(bias)을 업데이트하여 더 나은 예측을 가능하게 함.

---

## 주요 개념

1. **목표**
   - 손실 함수 값을 최소화하는 방향으로 파라미터를 조정함.

2. **입력**
   - 손실 함수의 기울기(gradient) 또는 미분 값을 사용함.

3. **출력**
   - 업데이트된 모델 파라미터를 반환함.

---

## 주요 옵티마이저 종류

### 1. 경사 하강법 (Gradient Descent)
- 모든 데이터셋을 사용하여 기울기를 계산하고 가중치를 업데이트하는 기본적인 옵티마이저.

### 2. 확률적 경사 하강법 (SGD: Stochastic Gradient Descent)
- 하나의 샘플을 기반으로 기울기를 계산하고 빠르게 업데이트함.

### 3. 미니배치 경사 하강법 (Mini-Batch Gradient Descent)
- 데이터를 소규모 배치로 나눠 기울기를 계산하고 업데이트함.

### 4. 모멘텀 (Momentum)
- 경사 하강법의 업데이트 과정에 가속도 효과를 추가하여 기울기의 변동을 완화함.

### 5. 네스테로프 모멘텀 (Nesterov Momentum)
- 모멘텀 최적화의 개선 버전으로, 현재 위치가 아닌 **예측된 위치**에서 기울기를 계산함.

### 6. 적응적 학습률 (Adaptive Learning Rate)
- **개념**: 학습률을 자동으로 조정하여 각 파라미터가 업데이트되는 빈도에 따라 학습률을 조절하는 방식.
- **주요 특징**:
  - 학습 초반에는 큰 학습률, 후반에는 작은 학습률을 사용하여 수렴을 안정화함.
  - 파라미터에 따라 학습률을 다르게 적용.
- **장점**:
  - 수작업으로 학습률을 튜닝할 필요가 줄어듦.
  - 드물게 업데이트되는 파라미터에 적합한 학습률을 제공함.
- **대표 알고리즘**:
  - **Adagrad**: 파라미터별 누적 기울기를 사용해 학습률을 조정.
  - **RMSProp**: Adagrad의 학습률 감소 문제를 해결.
  - **Adam**: 모멘텀과 RMSProp을 결합하여 학습률을 적응적으로 조정.

### 7. Adagrad
- 학습률을 각 파라미터에 대해 동적으로 조정하며, 드물게 업데이트되는 파라미터에 높은 학습률을 제공함.

### 8. RMSProp
- Adagrad의 학습률 감소 문제를 해결하고, 안정적인 학습률을 유지함.

### 9. Adam (Adaptive Moment Estimation)
- 모멘텀과 RMSProp의 장점을 결합하여 빠르고 안정적인 수렴을 제공함.

---

## 비교 요약

| 옵티마이저              | 장점                          | 단점                              |
|------------------------|-----------------------------|----------------------------------|
| 경사 하강법             | 안정적인 수렴                 | 계산 비용 높음                     |
| SGD                   | 빠른 업데이트                 | 수렴이 진동할 수 있음                |
| 모멘텀                 | 빠른 수렴                     | 초반 튜닝 필요                     |
| 네스테로프 모멘텀       | 더 빠르고 정확한 수렴          | 계산량이 약간 증가                  |
| Adagrad               | 드문 파라미터의 학습률 증가      | 학습률 감소로 최적화 어려움            |
| RMSProp               | 학습률 감소 문제 해결          | 복잡한 설정                       |
| Adam                  | 빠르고 안정적인 수렴           | 과적합 가능성                      |

---

## 선택 기준

- **데이터 크기**: 대규모 데이터일수록 Adam, RMSProp 권장.
- **모델 복잡도**: 복잡한 모델에서는 적응형 옵티마이저(Adagrad, Adam 등)가 유리.
- **학습 속도**: 빠른 학습을 원하면 Adam.
- **진동 최소화**: 모멘텀 또는 네스테로프 모멘텀을 선택.
- **학습률 조정 필요성**: 자동 학습률 조정을 원하면 적응적 학습률 기반 옵티마이저 선택.

---

## 참고
- 경사 하강법과 Adam의 조합으로 시작한 후, 데이터와 모델에 따라 최적화 방법을 튜닝하는 것이 일반적.

In [53]:
model = keras.Sequential()
# 빈 Sequential 모델을 생성
# - Sequential 모델은 층을 순차적으로 쌓을 수 있는 간단한 신경망 구조

model.add(keras.layers.Flatten(input_shape=(28, 28)))
# 첫 번째 층 (Flatten) 추가
# - `input_shape=(28, 28)`: 입력 데이터는 28x28 크기의 이미지
# - Flatten 층은 2D 형태의 데이터를 1D 벡터로 변환
# - 28x28 이미지를 784개의 요소를 가지는 1차원 배열로 펼침
# - 이는 신경망이 데이터를 처리할 수 있도록 1차원 벡터로 변환하는 중요한 단계

model.add(keras.layers.Dense(100, activation='relu'))
# 두 번째 층 (Dense) 추가
# - 100개의 뉴런을 가진 은닉층
# - 활성화 함수로 ReLU (Rectified Linear Unit) 사용
# - ReLU는 음수는 0으로, 양수는 그대로 출력하는 비선형 활성화 함수
# - 이 층에서 모델은 입력 데이터를 처리하고 중요한 특징을 추출

model.add(keras.layers.Dense(10, activation='softmax'))
# 세 번째 층 (출력층) 추가
# - 10개의 뉴런을 가진 출력층
# - 각 뉴런은 10개의 클래스에 대한 확률 값을 출력
# - softmax 활성화 함수는 각 클래스에 대한 확률을 반환하여, 모델이 어떤 클래스를 예측하는지 결정
# - 10개의 클래스 중 가장 높은 확률을 가진 클래스를 예측

# 요약:
# - 입력 이미지를 1차원 벡터로 변환하고, 은닉층과 출력층을 추가하여 모델을 구성
# - ReLU 활성화 함수로 은닉층의 비선형성을 추가하고, softmax 함수로 출력 확률을 반환

  super().__init__(**kwargs)


In [56]:
model.compile(optimizer='adam', loss='sparse_categorical_crossentropy', metrics=['accuracy'])
# 모델 컴파일 단계
# - `optimizer='adam'`: Adam 옵티마이저 사용
#   - Adam은 학습률을 자동으로 조정하면서 빠르고 효율적인 최적화를 수행하는 옵티마이저
#   - 두 가지 주요 모멘텀 기법 (배치 모멘텀과 적응적 학습률)을 결합하여 학습 속도를 개선
# - `loss='sparse_categorical_crossentropy'`: 다중 클래스 분류 문제에 적합한 손실 함수
#   - 레이블이 정수로 인코딩된 경우에 사용하는 손실 함수
#   - 이 함수는 모델의 예측 값과 실제 라벨 사이의 차이를 계산하여 오차를 반환
# - `metrics=['accuracy']`: 평가 지표로 정확도를 사용
#   - 모델 학습 중 정확도를 모니터링하여 모델이 얼마나 잘 예측하고 있는지 확인

model.fit(train_scaled.reshape(-1, 28, 28), train_target, epochs=5)
# 모델 훈련 단계
# - `train_scaled`: 훈련 데이터의 입력 값 (28x28 이미지를 1차원 벡터로 변환한 데이터)
# - `train_target`: 훈련 데이터의 정답 라벨 (0~9 클래스에 대한 레이블)
# - `epochs=5`: 훈련을 5번의 에포크(epoch) 동안 반복
#   - 각 에포크는 훈련 데이터 전체를 한 번 학습하는 과정
#   - 여러 에포크를 통해 모델은 점진적으로 성능을 향상시킴

# 요약:
# - Adam 옵티마이저와 sparse_categorical_crossentropy 손실 함수를 사용하여 모델을 컴파일
# - 5번의 에포크 동안 훈련 데이터로 모델을 학습시키며, 학습 중 정확도를 추적

Epoch 1/5
[1m1500/1500[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m6s[0m 3ms/step - accuracy: 0.7698 - loss: 0.6675
Epoch 2/5
[1m1500/1500[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m7s[0m 4ms/step - accuracy: 0.8549 - loss: 0.3997
Epoch 3/5
[1m1500/1500[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m8s[0m 3ms/step - accuracy: 0.8744 - loss: 0.3510
Epoch 4/5
[1m1500/1500[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m6s[0m 4ms/step - accuracy: 0.8819 - loss: 0.3227
Epoch 5/5
[1m1500/1500[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m9s[0m 3ms/step - accuracy: 0.8867 - loss: 0.3080


<keras.src.callbacks.history.History at 0x7d2006ecf040>