# Softmax Classification

## 1. 전체 학습코드

In [None]:
import tensorflow as tf
import numpy as np

learning_rate = 0.01
training_cnt = 1000
display_step = 250

X = np.array([[2, 3, 1, 1], [4, 3, 2, 1], [4, 2, 5, 5], [2, 5, 2, 1], [6, 3, 1, 2], [5, 4, 4, 2] ], dtype=np.float32)
Y = np.array([[0, 0, 1], [0, 0 ,1], [0, 1, 0], [0, 1, 0], [1, 0, 0 ], [1, 0 ,0]])

W = tf.Variable(tf.random.normal([4, 3]), name='weight') 
b = tf.Variable(tf.random.normal([3]), name='bias')  

for epoch in range(training_cnt):
    with tf.GradientTape() as tape:
      pred = tf.nn.softmax(tf.matmul(X ,W) + b)
      cost = tf.reduce_mean(-tf.reduce_sum(Y*tf.math.log(pred), axis=1))
    W_grad, b_grad = tape.gradient(cost, [W, b])
    W.assign_sub(learning_rate * W_grad)
    b.assign_sub(learning_rate * b_grad)
    prediction = tf.argmax(pred, 1)
    true_Y = tf.argmax(Y, 1)
    accuracy = tf.reduce_mean(tf.cast(tf.equal(prediction, true_Y), dtype=tf.float32))
    if (epoch+1) % display_step == 0:
        print('\n*****************running****************\n')
        print('Run_count :[{}] cost : [{:0.4f}] \npred : {} \npred_Y : {} \ntrue_Y : {} \naccuracy : {:.2%}% \
              ' .format( (epoch+1), cost, pred, prediction, true_Y, accuracy)
             )
print("Optimization Finished!") 

### 1) 파라메터 값 설정
- 머신러닝을 위한 기초 파라메터
- learning_rate : 값이 너무 적으면 Train 되지 않을 수 있고, 값이 너무 크면 overshooting이 발생할 수 있다.
- training_cnt : data set에 대한 training 반복 횟수


In [None]:
# 파라메터값 설정
learning_rate = 0.01
training_cnt = 1000
display_step = 250  # 원하는 출력 위치 조정

#### 2) 트레이닝 데이터 변수 선언
- 입력으로 들어가는 x data(input 4개), y data(output 3개) 설정
- 레이블 데이터를 one-hot encoding 형태로 구성

In [None]:
X = np.array([[2, 3, 1, 1], [4, 3, 2, 1], [4, 2, 5, 5], [2, 5, 2, 1], [6, 3, 1, 2], [5, 4, 4, 2] ], dtype=np.float32)
Y = np.array([[0, 0, 1], [0, 0 ,1], [0, 1, 0], [0, 1, 0], [1, 0, 0 ], [1, 0 ,0]])

### 3) tf.random.normal
- bias, weight 초기값을 난수로 생성

In [None]:
W = tf.Variable(tf.random.normal([4, 3]), name='weight')
b = tf.Variable(tf.random.normal([3]), name='bias')

### 4) softmax 함수 사용
- 기존 pred 계산에 softmax 함수를 적용하여 출력값의 합이 항상 1이 되게 한다.

In [None]:
pred = tf.nn.softmax(tf.matmul(X ,W) + b)

### 5) cost function
- 교차 엔트로피(cross-entropy) 사용
- 예측값과 실제값 사이의 확률분포 차이 계산

In [None]:
cost = tf.reduce_mean(-tf.reduce_sum(Y*tf.math.log(pred), axis=1))

### 6) 학습
- gradient decent 함수 사용(경사 하강법) 
-  파라미터 $W$, $b$ 에 대해 손실을 미분하는 과정으로, 파라미터를 증가시킬 때 손실이 얼마나 변화하는지를 알아본다. 
- with tf.GradientTape() as tape: 안에서 계산을 하면 tape에 계산 과정을 기록해두었다가 tape.gradient를 이용해서 미분을 자동으로 구할 수 있다

In [None]:
with tf.GradientTape() as tape:
    pred = tf.nn.softmax(tf.matmul(X ,W) + b)
    cost = tf.reduce_mean(-tf.reduce_sum(Y*tf.math.log(pred), axis=1))
W_grad, b_grad = tape.gradient(cost, [W, b])

- $w←w−η∂w$ 의 식으로 파라미터를 수정
- $η$ 는 학습률
- 경사(미분)을 따라 손실을 줄여나가기 때문에 경사하강법이라고 부름
- a.assign_sub(b)는 a = a - b 와 같다

In [None]:
W.assign_sub(learning_rate * W_grad)
b.assign_sub(learning_rate * b_grad)

### 7) 학습된 예측 값을 확인
- 예측된 최대 값의 index 반환
- One-hot encoding 한 Y값도 최대값 1이 있는 index 반환

In [None]:
prediction = tf.argmax(pred, 1)
true_Y = tf.argmax(Y, 1)

### 8) 정확도
- accuracy를 계산하여 분류가 정확한지 확인
- 예측값과 실제 데이터의 일치 여부 계산 
- 아래 코드는 평균을 이용한 정확도 계산

In [None]:
accuracy = tf.reduce_mean(tf.cast(tf.equal(prediction, true_Y), dtype=tf.float32))

## (2) 모델 실행(run/update)
- pred는 softmax 함수를 통해 0~1사이의 값으로 나온다
- pred_Y는 pred에서 나온 최대 예측값의 index 반환
- accuracy는 예측한 Y값이 실제 Y값과 얼마나 일치하는가

In [None]:
for epoch in range(training_cnt):
    with tf.GradientTape() as tape:
        pred = tf.nn.softmax(tf.matmul(X ,W) + b)
        cost = tf.reduce_mean(-tf.reduce_sum(Y*tf.math.log(pred), axis=1))
    W_grad, b_grad = tape.gradient(cost, [W, b])
    W.assign_sub(learning_rate * W_grad)
    b.assign_sub(learning_rate * b_grad)
    prediction = tf.argmax(pred, 1)
    true_Y = tf.argmax(Y, 1)
    accuracy = tf.reduce_mean(tf.cast(tf.equal(prediction, true_Y), dtype=tf.float32))
    if (epoch+1) % display_step == 0:
        print('\n*****************running****************\n')
        print('Run_count :[{}] cost : [{:0.4f}] \npred : {} \npred_Y : {} \ntrue_Y : {} \naccuracy : {:.2%}% \
              ' .format( (epoch+1), cost, pred, prediction, true_Y, accuracy)
             )
print("Optimization Finished!") 

## 2. 기타 학습 방법
- 출력 Y를 one_hot 함수를 이용하여 encoding 한 후 학습
- one_hot으로 늘어난 차원을 reshape로 축소
- softmax_cross_entropy_with_logits 함수 이용

In [None]:
import tensorflow as tf
import numpy as np

learning_rate = 0.01
training_cnt = 1000
display_step = 250

X = np.array([[2, 3, 1, 1], [4, 3, 2, 1], [4, 2, 5, 5], [2, 5, 2, 1], [6, 3, 1, 2], [5, 4, 4, 2] ], dtype = np.float32)
Y = np.array([[2], [2], [1], [1], [0], [0]])

Y_1 = tf.one_hot(Y, 3)  
Y_2 = tf.reshape(Y_1, [-1, 3]) 

W = tf.Variable(tf.random.normal([4, 3]), name='weight') 
b = tf.Variable(tf.random.normal([3]), name='bias')  


with tf.GradientTape() as tape:
    logits = tf.matmul(X ,W) + b
    cost_i = tf.nn.softmax_cross_entropy_with_logits(logits = logits, labels = Y_2)
    cost = tf.reduce_mean(cost_i)

W_grad, b_grad = tape.gradient(cost, [W, b])
W.assign_sub(learning_rate * W_grad)
b.assign_sub(learning_rate * b_grad)

print('Y : {} \none_hot_Y: {} \none_hot_reshape_Y {} ' .format(Y, Y_1,Y_2))

for epoch in range(training_cnt):
    with tf.GradientTape() as tape:
        logits = tf.matmul(X ,W) + b
        cost_i = tf.nn.softmax_cross_entropy_with_logits(logits = logits, labels = Y_2)
        cost = tf.reduce_mean(cost_i)
    W_grad, b_grad = tape.gradient(cost, [W, b])
    W.assign_sub(learning_rate * W_grad)
    b.assign_sub(learning_rate * b_grad)
    pred = tf.nn.softmax(logits)
    prediction = tf.argmax(pred, 1)
    true_Y = tf.argmax(Y_2, 1)
    accuracy = tf.reduce_mean(tf.cast(tf.equal(prediction, true_Y), dtype=tf.float32))
    
    if (epoch+1) % display_step == 0:
        print('\n*****************running****************\n')
        print('Run_count :[{}] cost : [{:0.4f}] \npred : {} \npred_Y : {} \ntrue_Y : {} \naccuracy : {:.2%}% \
              ' .format( (epoch+1), cost, pred, prediction, true_Y, accuracy)
             )
      
     

print("Optimization Finished!") 

### 1) 정수로들어온 클래스 one_hot encoding 하기
- 0,1,2,3,.... 의 정수 클래스를 one_hot 함수 사용하여 변경
- one_hot을 하면 차원이 +1 이 된다.
- reshape를 통해 차원을 다시 맞춰준다.

In [None]:
Y = np.array([[2], [2], [1], [1], [0], [0]], dtype=np.float32)

Y_1 = tf.one_hot(Y, 3)  
Y_2 = tf.reshape(Y_1, [-1, 3]) 

### 2) cost 함수 사용
- softmax_cross_entropy_with_logits_v2 함수 이용
- softmax_cross_entropy_with_logits 함수의 업그레이드 버전
- one_hot encoding한 라벨값 사용

In [None]:
logits = tf.matmul(X ,W) + b
cost_i = tf.nn.softmax_cross_entropy_with_logits(logits = logits, labels = Y_2)
cost = tf.reduce_mean(cost_i)