In [2]:
import numpy as np

# input
X = np.array([1.0,0.5])
print(X.shape)

# weight
W1 = np.array([[0.1,0.3,0.5],[0.2,0.4,0.6]])
print(W1.shape)

# bias
B1 = np.array([0.1,0.2,0.3])
print(B1.shape)

(2,)
(2, 3)
(3,)


In [3]:
def sigmoid(x):
    return 1/(1+np.exp(-x))

In [4]:
result_of_inner1 = np.dot(X,W1) + B1
result_of_sigmoid1 = sigmoid(result_of_inner1)
print(result_of_inner1)
print(result_of_sigmoid1)
print(result_of_sigmoid1.shape)

[0.3 0.7 1.1]
[0.57444252 0.66818777 0.75026011]
(3,)


In [6]:
W2 = np.random.random((3,2))
B2 = np.random.random((2,))
print(W2, W2.shape)
print(B2, B2.shape)

[[0.07402464 0.10868622]
 [0.64748111 0.29107983]
 [0.82580265 0.00333917]] (3, 2)
[0.76509099 0.56332766] (2,)


In [7]:
result_of_inner2 = np.dot(result_of_sigmoid1, W2) + B2
result_of_sigmoid2 = sigmoid(result_of_inner2)
print(result_of_inner2)
print(result_of_sigmoid2)
print(result_of_sigmoid2.shape)

[1.85981964 0.82276287]
[0.86527592 0.69482251]
(2,)


In [8]:
def identity_function(x):
    return x

In [15]:
W3 = np.random.random((2,2))
B3 = np.random.random((2,))
print(W3)
print(B3)

[[0.66117028 0.77486354]
 [0.78669813 0.47630429]]
[0.2355614  0.11468142]


In [16]:
result_of_inner3 = np.dot(result_of_sigmoid2, W3) + B3
output = identity_function(result_of_inner3)
print(output)

[1.3542717  1.11609913]


## 구현 정리
- 은닉층이 2개인 신경망
- init_network(): 가중치와 편향을 초기화한 후 network에 저장
- forward() : 입력을 출력으로 변환 처리 하는 과정

In [17]:
def init_network():
    network = {}
    network['w1'] = np.random.random((2,3))
    network['w2'] = np.random.random((3,2))
    network['w3'] = np.random.random((2,2))
    network['b1'] = np.random.random((3,))
    network['b2'] = np.random.random((2,))
    network['b3'] = np.random.random((2,))
    return network    

In [18]:
def forward(network, x) :
    layer1 = sigmoid(np.dot(x, network['w1'])+network['b1'])
    layer2 = sigmoid(np.dot(layer1, network['w2'])+network['b2'])
    result = identity_function(np.dot(layer2, network['w3'])+network['b3'])
    return result

In [19]:
forward(init_network(),[1.0,0.5])

array([0.48054764, 1.44652333])

In [20]:
import numpy as np
def softmax(a):
    a = np.array(a)
    exp_a = np.exp(a)
    sum_exp_a = np.sum(exp_a)
    y = exp_a / sum_exp_a
    return y

In [21]:
a = np.array([0.3,2.9,4.0])
softmax(a)

array([0.01821127, 0.24519181, 0.73659691])

In [22]:
a = [3,29,40]
softmax(a)

array([8.53290511e-17, 1.67014218e-05, 9.99983299e-01])

In [23]:
a = [30,290,400]
softmax(a)

array([2.04664112e-161, 1.68891188e-048, 1.00000000e+000])

In [24]:
a = [300,2900,4000]
softmax(a)

  exp_a = np.exp(a)
  y = exp_a / sum_exp_a


array([ 0., nan, nan])

### 구현 시 주의점 
- Overflow 문제.
	- 소프트맥스 함수는 지수함수를 사용하기 때문에 밑이 1보다 클 때 지수가 너무 커지면 컴퓨터가 상정한 변수 크기를 초과해 다룰 수 없어지는 문제가 발생한다.
		- number를 4 byte, 8 byte의 유한한 크기로 표현한다.
		- 이를 오버플로우 문제라고 한다.
			- 예) $e^{10}$ 은 약 $2\times 10^{4}$, $e^{100}$는 $10^{40}$ 의 스케일이며, $e^{1000}$은 무한대(inf)로 출력된다. 

	- 이 문제를 해결하기 위해, 수식을 다음과 같이 개선한다.
$$y_{k}= \frac{exp(a_k)}{\sum\limits_{i=1}^{n}exp(a_i)} = \frac{C\ exp(a_k)}{C\sum\limits_{i=1}^{n}exp(a_{i)}} = \frac{exp(a_{k}+ln\ C)}{\sum\limits_{i=1}^{n}exp(a_{i} +ln\ C)} = \frac{exp(a_{k}+C^{'})}{\sum\limits_{i=1}^{n}exp(a_i+C^{'})}$$
	-  요컨대, 가장 큰 $a_i$ 를 빼준다!

In [59]:
def softmax(a) :
    a = np.array(a)
    c = np.max(a)
    exp_a = np.exp(a-c)
    sum_exp_a = np.sum(exp_a)
    y = exp_a/sum_exp_a
    return y

# 안전한 softmax 함수
def safe_softmax(a):
    a = np.array(a, dtype=np.float64)  # 명시적으로 float64 타입으로 변환
    c = np.max(a)
    exp_a = np.exp(a - c)  # 최대값을 빼서 오버플로우 방지
    sum_exp_a = np.sum(exp_a)
    y = exp_a / sum_exp_a
    return y

In [68]:
a = [300,2900,40000000000000000000]
# softmax(a)

In [69]:
result = safe_softmax(a)
print(result)


[0. 0. 1.]
