# 다양한 차원에도 적용할 수 있는 softmax 구현하기

In [None]:
#소프트맥스
#소프트맥스는 overflow 문제로 p93에서의 개선된 수식으로 구현한다.
#입력 신호 중 최댓값을 빼주면서 inf 해결
import numpy as np

### 우선 softmax를 구현하는 간단한 식은 다음과 같다.

In [3]:
x = np.array([1010,990,1000])
c = np.max(x)
np.exp(x - c)/np.sum(np.exp(x - c))

array([  9.99954600e-01,   2.06106005e-09,   4.53978686e-05])

### 아래 방식은 3장에서의 예제를 이용한 softmax function, 1D case

In [4]:
def softmax1d(x):
    c = np.max(x)
    y = np.exp(x - c)/np.sum(np.exp(x - c))
    
    return y

### 교제에서 제공되는 2dimension용 softmax는 아래와 같다. 

In [45]:
def softmax2d(x):
    if x.ndim == 2:
        x = x.T
        x = x - np.max(x, axis=0)
        y = np.exp(x) / np.sum(np.exp(x), axis=0)
        return y.T 

    x = x - np.max(x) # 오버플로 대책
    return np.exp(x) / np.sum(np.exp(x))

##### 하지만 여기서 두 가지 의문이 있다.
###### 1) 왜 dimension이 2인 경우로 한정지었는지
##### 2) Transpose를 굳이 쓴 이유는?
##### 따라서 나는 
##### 1) dimension >= 2인 경우와
##### 2) Transpose를 쓰지 않은 경우의 
##### softmax2를 생성해봄

In [7]:
# dimension이 3일때, softmax1은 어떻게 동작할까?
T = np.random.uniform(size = (3,3,2))
print(T)
T.ndim

[[[ 0.42482327  0.38473878]
  [ 0.14221252  0.3162196 ]
  [ 0.17032797  0.03450079]]

 [[ 0.09736743  0.71473496]
  [ 0.77462675  0.40738586]
  [ 0.41435051  0.83577028]]

 [[ 0.04840138  0.2087723 ]
  [ 0.72847336  0.83675073]
  [ 0.70094989  0.16501865]]]


3

In [8]:
softmax2d(T)

array([[[ 0.0541539 ,  0.0520261 ],
        [ 0.04082192,  0.0485807 ],
        [ 0.04198593,  0.03665345]],

       [[ 0.0390317 ,  0.07236637],
        [ 0.07683294,  0.05321778],
        [ 0.05358972,  0.08167737]],

       [[ 0.03716651,  0.04363148],
        [ 0.07336742,  0.08175749],
        [ 0.07137563,  0.04176361]]])

In [9]:
softmax1d(T)

array([[[ 0.0541539 ,  0.0520261 ],
        [ 0.04082192,  0.0485807 ],
        [ 0.04198593,  0.03665345]],

       [[ 0.0390317 ,  0.07236637],
        [ 0.07683294,  0.05321778],
        [ 0.05358972,  0.08167737]],

       [[ 0.03716651,  0.04363148],
        [ 0.07336742,  0.08175749],
        [ 0.07137563,  0.04176361]]])

### 내가 정의한 것과 같이 1d , 2d 결과는 같게 나온다. 하지만 이 결과가 맞는지 확인해보자. 

교재에서 주어진 softmax2d의 경우에는 Transpose를 이용하여 벡터끼리의 계산을 진행한 것으로 보여진다. 하지만 나는 transpose를 이용하지 않고 axis를 이용하여 계산을 해보겠다.

In [17]:
#3d에서 axis = 1을 기준으로 max를 산출하면 다음과 같은 결과가 나온다. 
np.max(T, axis = 1)

array([[ 0.42482327,  0.38473878],
       [ 0.77462675,  0.83577028],
       [ 0.72847336,  0.83675073]])

In [22]:
np.max(T, axis = 2)

array([[ 0.42482327,  0.3162196 ,  0.17032797],
       [ 0.71473496,  0.77462675,  0.83577028],
       [ 0.2087723 ,  0.83675073,  0.70094989]])

### axis = 2일때가 우리가 원하는 값이 나온다. 결국 axis = dimension - 1로 보여진다. 

In [81]:
def softmaxnd(x):
    x = x - np.expand_dims(np.max(x, axis=x.ndim-1),x.ndim-1)
    #처음에는 reshape를 써봤으나, n차원인 경우에서 표현을 할 때에 더 복잡할 것 같아 expand_dims로 교체
    return np.exp(x) / np.expand_dims(np.sum(np.exp(x), axis=x.ndim-1),x.ndim-1)

In [82]:
y = softmaxnd(T)

In [83]:
np.sum(y)  #9개 쌍이 나오니 1.0*9

9.0

In [84]:
print(y)

[[[ 0.51001978  0.48998022]
  [ 0.45660766  0.54339234]
  [ 0.53390469  0.46609531]]

 [[ 0.3503804   0.6496196 ]
  [ 0.59079211  0.40920789]
  [ 0.39617706  0.60382294]]

 [[ 0.45999298  0.54000702]
  [ 0.47295707  0.52704293]
  [ 0.63086541  0.36913459]]]


In [85]:
#2d 에다가도 적용시켜보자

In [86]:
X = np.random.uniform(size = (2,2))

In [87]:
softmaxnd(X)

array([[ 0.64178713,  0.35821287],
       [ 0.37811807,  0.62188193]])

In [80]:
softmax2d(X)

array([[ 0.55468694,  0.44531306],
       [ 0.58275625,  0.41724375]])

## 2D input을 'softmaxnd', 'softmax2d'에 적용하였을 때, 값이 동일하게 나온다.  softmaxnd 로 여러 차원의 softmax를 구현할 수 있다. 