In [1]:
import numpy as np

x_data = np.array([2, 4, 6, 8, 10, 12, 14, 16, 18, 20]).reshape(10,1)
t_data = np.array([0, 0, 0, 0,  0,  0,  1,  1,  1,  1]).reshape(10,1)

print("x_data.shape = ", x_data.shape, ", t_data.shape = ", t_data.shape)

x_data.shape =  (10, 1) , t_data.shape =  (10, 1)


In [2]:
W = np.random.rand(1,1)
    # 이건 어떤 의미인가? 0~1 사이의 랜덤 값으로 구성된 1x1 행렬을 리턴하라는 말. 랜덤 값의 범위는 지정하지 못하며 dimension 만 지정 가능함.
b = np.random.rand(1)
print("W = ", W, ", W.shape = ", W.shape, ", b = ", b, ", b.shape = ", b.shape)

W =  [[0.81278093]] , W.shape =  (1, 1) , b =  [0.78628141] , b.shape =  (1,)


In [3]:
# 최종출력은 y = sigmoid(Wx+b) 이며, 손실함수는 cross-entropy 로 나타냄

def sigmoid(x):
    return 1 / (1+np.exp(-x))

def loss_func(x, t):

    delta = 1e-7    # log 무한대 발산 방지

    z = np.dot(x,W) + b
    y = sigmoid(z)

    # cross-entropy
    return  -np.sum( t*np.log(y + delta) + (1-t)*np.log((1 - y)+delta ) )

In [4]:
def numerical_derivative(f, x):
    delta_x = 1e-4 # 0.0001
    grad = np.zeros_like(x)

    it = np.nditer(x, flags=['multi_index'], op_flags=['readwrite'])

    while not it.finished:
        idx = it.multi_index
        tmp_val = x[idx]
        x[idx] = float(tmp_val) + delta_x
        fx1 = f(x) # f(x+delta_x)

        x[idx] = tmp_val - delta_x
        fx2 = f(x) # f(x-delta_x)
        grad[idx] = (fx1 - fx2) / (2*delta_x)

        x[idx] = tmp_val
        it.iternext()

    return grad

In [5]:
# 손실함수 값 계산 함수
# 입력변수 x, t : numpy type
def error_val(x, t):
    delta = 1e-7    # log 무한대 발산 방지

    z = np.dot(x,W) + b
    y = sigmoid(z)

    # cross-entropy
    return  -np.sum( t*np.log(y + delta) + (1-t)*np.log((1 - y)+delta ) )

# 학습을 마친 후, 임의의 데이터에 대해 미래 값 예측 함수
# 입력변수 x : numpy type
def predict(x):

    z = np.dot(x,W) + b
    y = sigmoid(z)

    if y >= 0.5:
        result = 1  # True
    else:
        result = 0  # False

    return y, result
    # 중요: true, false 뿐 아니라 실제 sigmoid 결과 값도 전달해 준다. 이 값은 발생 확률이므로 유용하게 사용될 수 있기 때문.

In [None]:
learning_rate = 1e-2  # 발산하는 경우, 1e-3 ~ 1e-6 등으로 바꾸어서 실행

f = lambda x : loss_func(x_data,t_data)  # f(x) = loss_func(x_data, t_data)
    # 여기서 중요한 특이 사항이 있다.
    # 람다 함수의 인자 x가 lambda 구현 내에서는 사용되지 않고 있다.
    # 하지만 f 함수를 사용하는 곳의 코드를 보면 W 와 b 가 x로 전달이 되는데,
    # 이게 전역 변수처럼 접근이 가능하기 때문에 문제 없이 동작은 한다.
    # 그리 좋은 방법은 아닌 것 같음.

print("Initial error value = ", error_val(x_data, t_data), "Initial W = ", W, "\n", ", b = ", b )

for step in  range(10001):

    W -= learning_rate * numerical_derivative(f, W)

    b -= learning_rate * numerical_derivative(f, b)

    if (step % 400 == 0):
        print("step = ", step, "error value = ", error_val(x_data, t_data), "W = ", W, ", b = ",b )

Initial error value =  38.95745235803363 Initial W =  [[0.81278093]] 
 , b =  [0.78628141]
step =  0 error value =  21.379414294328008 W =  [[0.39593939]] , b =  [0.72959828]
step =  400 error value =  2.81273658610562 W =  [[0.2779565]] , b =  [-4.10463396]
step =  800 error value =  1.7834042009950375 W =  [[0.45343756]] , b =  [-5.6420605]
step =  1200 error value =  1.517739952670369 W =  [[0.53076197]] , b =  [-6.67168246]
step =  1600 error value =  1.3523020299282267 W =  [[0.59201045]] , b =  [-7.48501423]
step =  2000 error value =  1.2358648353317139 W =  [[0.64352097]] , b =  [-8.16753825]
step =  2400 error value =  1.1477260443991748 W =  [[0.68841922]] , b =  [-8.7613922]
step =  2800 error value =  1.0777104348445983 W =  [[0.72849388]] , b =  [-9.29066818]
step =  3200 error value =  1.0201516519119636 W =  [[0.76487193]] , b =  [-9.77052943]
step =  3600 error value =  0.9716069844345633 W =  [[0.79831312]] , b =  [-10.21118674]
step =  4000 error value =  0.9298455696

In [7]:
# 실제 입력 데이터에 없는 값을 넣어 보아서 예상대로 나오는지 확인.

(real_val, logical_val) = predict(3)

print(real_val, logical_val)

[[1.12049907e-05]] 0


In [8]:
(real_val, logical_val) = predict(17)

print(real_val, logical_val)

[[0.99128572]] 1


In [None]:
# 확률이 50% 인 부분이 어디쯤일까?
# 왜 13 이 아니라 13 보다 더 적은 값이 될까?

for x in [
    13.1, 13.00001, 12.9, 12.89, 12.897, 12.894, 12.892, 12.891,
]:
    (real_val, logical_val) = predict(x)
    print(f'x={x:8}', real_val, logical_val)


x=    13.1 [[0.55966359]] 1
x=13.00001 [[0.53110263]] 1
x=    12.9 [[0.5023307]] 1
x=   12.89 [[0.49944979]] 0
x=  12.897 [[0.50146643]] 1
x=  12.894 [[0.50060216]] 1
x=  12.892 [[0.50002597]] 1
x=  12.891 [[0.49973788]] 0


#### 궁금한 점:

  - $ y = sigmoid(z) = \dfrac {1} {1+e^{-z}} = \dfrac {1} {1+e^{-(Wx+b)}} $

    - sigmoid 함수의 결과인 y는 어차피 0의 값을 가질 수 없는 것 아닌가?
    - x 가 $- \infty $ 인 경우에만 0 이 가능한데?
  - 답변 (GPT)
    - 이 함수의 출력 범위는 (0, 1) (즉, 0과 1이 절대 될 수 없음)
    - 그러나, y = sigmoid(z)에서 z가 매우 작거나 매우 클 때 y가 0 또는 1에 극도로 가까워질 수 있음
    - 예를 들어:
      - z = -1000이면 y ≈ 0.0...001 (거의 0)
      - z = 1000이면 y ≈ 0.9999...99 (거의 1)
    - 즉, 이론적으로 0이 되지 않지만, 컴퓨터의 부동소수점(floating point) 표현에서는 매우 작은 값이 0으로 간주될 수 있습니다.
  - ..
  - $ L = E(W,b) = - \sum _{i=1} ^n { \{\ t_i log y_i + (1-t_i) log (1-y_i)\ \} } $

    - 이때:
    - 만약 y = 0이라면, log(0)은 **마이너스 무한대(-∞)**가 되어 에러 발생
    - 만약 y = 1이라면, log(1-y) = log(0)이므로 역시 에러 발생
    - 💡 부동소수점 문제로 인해 y가 0 또는 1에 극도로 가까워지는 경우에도 log(0) 에러가 발생할 수 있음!
  - ..
  - $ L = - \sum { \{\ t log (y + \delta) + (1-t) log (1-y+\delta)\ \} } $

    - 중요한 점: y 대신 y + $\delta$ 를 넣는게 아니고, 그냥 log() 안에 $\delta$ 를 추가하는 것!