<a href="https://colab.research.google.com/github/donghyuun/deep-learning/blob/main/lab_06_1_softmax_classifier.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
import tensorflow as tf
import numpy as np

# 1. Data
# x_data: 입력 데이터 (8개의 샘플, 각 샘플은 4개의 특징을 가짐)
x_data = np.array([
    [1, 2, 1, 1],
    [2, 1, 3, 2],
    [3, 1, 3, 4],
    [4, 1, 5, 5],
    [1, 7, 5, 5],
    [1, 2, 5, 6],
    [1, 6, 6, 6],
    [1, 7, 7, 7]
], dtype=np.float32)

# y_data: 출력 데이터 (원-핫 인코딩된 정답, 각 샘플은 3개의 클래스 중 하나에 속함)
y_data = np.array([
    [0, 0, 1],  # Class 2
    [0, 0, 1],  # Class 2
    [0, 0, 1],  # Class 2
    [0, 1, 0],  # Class 1
    [0, 1, 0],  # Class 1
    [0, 1, 0],  # Class 1
    [1, 0, 0],  # Class 0
    [1, 0, 0]   # Class 0
], dtype=np.float32)

# 클래스의 개수 (3개 클래스: 0, 1, 2)
nb_classes = 3

# 2. Variables
# W: 학습해야 할 가중치 행렬 (크기: [4, 3], 4개의 입력 특징을 3개의 출력 클래스에 매핑)
W = tf.Variable(tf.random.normal([4, nb_classes]), name='weight')

# b: 학습해야 할 절편 (크기: [3], 클래스마다 하나의 절편)
b = tf.Variable(tf.random.normal([nb_classes]), name='bias')

# 3. Hypothesis (Softmax)
def hypothesis(X):
    """
    소프트맥스 함수:
    - 입력 데이터 X와 가중치 W, 절편 b를 사용하여 각 클래스의 확률을 계산.
    - 소프트맥스는 모델의 출력값을 0~1 사이의 확률로 변환하고, 모든 클래스 확률의 합이 1이 되도록 함.
    """
    return tf.nn.softmax(tf.matmul(X, W) + b)  # Z = XW + b -> 소프트맥스

# 4. Cost Function
def cost_fn(X, Y):
    """
    손실 함수 (교차 엔트로피):
    - 모델이 예측한 확률 분포와 실제 정답 분포 간의 차이를 측정.
    - tf.nn.softmax_cross_entropy_with_logits는 소프트맥스와 교차 엔트로피를 결합하여 효율적으로 계산.
    """
    logits = tf.matmul(X, W) + b  # 선형 변환 Z = XW + b
    cost = tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits(labels=Y, logits=logits))
    return cost

# 5. Training
learning_rate = 0.1  # 학습률: 가중치 업데이트 시 변화의 크기 제어
optimizer = tf.optimizers.SGD(learning_rate)  # 경사 하강법(Stochastic Gradient Descent)

# 반복 학습 (2001번)
for step in range(2001):
    # 자동 미분을 위해 GradientTape 사용
    with tf.GradientTape() as tape:
        cost = cost_fn(x_data, y_data)  # 현재 손실 값 계산
    # 손실 함수에 대한 W와 b의 그래디언트 계산
    gradients = tape.gradient(cost, [W, b])
    # 가중치(W)와 절편(b) 업데이트
    optimizer.apply_gradients(zip(gradients, [W, b]))

    # 200번마다 현재 손실 값 출력
    if step % 200 == 0:
        print(f"Step: {step}, Cost: {cost.numpy()}")

# 6. Testing with Multiple Inputs
# 새로운 데이터 (테스트 데이터)
test_data = np.array([
    [1, 11, 7, 9],
    [1, 3, 4, 3],
    [1, 1, 0, 1]
], dtype=np.float32)

# 테스트 데이터에 대해 소프트맥스 확률 계산
predictions = hypothesis(test_data)

# 가장 확률이 높은 클래스를 예측 (argmax: 가장 큰 값의 인덱스 반환)
predicted_classes = tf.argmax(predictions, axis=1)

# 결과 출력
print("Softmax outputs:")  # 각 클래스에 대한 확률 출력
print(predictions.numpy())

print("Predicted classes:")  # 예측된 클래스 출력
print(predicted_classes.numpy())


Step: 0, Cost: 11.103904724121094
Step: 200, Cost: 0.5466301441192627
Step: 400, Cost: 0.4405672550201416
Step: 600, Cost: 0.36289724707603455
Step: 800, Cost: 0.28867483139038086
Step: 1000, Cost: 0.23618562519550323
Step: 1200, Cost: 0.21370355784893036
Step: 1400, Cost: 0.19505411386489868
Step: 1600, Cost: 0.17931973934173584
Step: 1800, Cost: 0.1658668965101242
Step: 2000, Cost: 0.15423692762851715
Softmax outputs:
[[3.35128722e-03 9.96639371e-01 9.42965289e-06]
 [8.87648165e-01 1.01906635e-01 1.04451803e-02]
 [1.27063542e-08 3.43102729e-04 9.99656916e-01]]
Predicted classes:
[1 0 2]
