### Logistic Regression - Classification
- Classification (분류)
    - Training Data 특성과 관계 등을 파악 한 후에, 미지의 입력 데이터에 대해서 결과가 어떤 종류의 값으로 분류될 수 있는지를 에측하는 것
    - ex) 스팸문자 분류, 암 판별 등 

- Logistic Regression 
    - Training Data 특성과 분포를 나타내는 최적의 직선을 찾고 (linear Regression)
    - 그 직선을 기준으로 데이터를 분류를 해주는 알고리즘 
    - 이러한 Logisitc Regression 은 Classification 알고리즘 중에서도 정확도가 높은 알고리즘으로 알려져 있어서 딥러닝의 기본 Component로 사용되고 있다 
    
- 활성화 함수 (sigmoid)
    - 출력 값 y가 1 또는 0 만을 가져야만 하는 분류 시스템에서 함수 값으로 0~1 사이의 값을 가지는 sigmoid 함수를 사용할 수 있음. 즉, Linear Regression 출력 Wx + b가 어떤 값을 갖더라도, 출력 함수로 sigmoid를 사용해서 
       1. sigmoid 계산 값이 0.5보다 크면 결과로 1이 나올 확률이 높다는 것이기 대문에 출력 값 y는 1을 정의
       2. sigmoid 계산 값이 0.5 미만이면 결과로 0이 나올 확률이 높다는 것이므로 출력 값 y는 0 정의하여 classification 시스템을 구현 할 수 있음
           
- 손실 함수 (loss function), W, b
    - 분류 시스템 (classification) 최종 출력 값 y 는 sigmoid 함수에 의해 논리적으로 1 또는 0 값을 가지기 때문에 
    연속 값을 갖는 선형 회귀 때와는 다른 손실 함수가 필요하다 (cross-entropy 유도)

##### Training Data (입력 x, 정답 t)

In [1]:
import numpy as np

x_data = np.array([2, 4, 6, 8, 10, 12, 14, 16, 18, 20]).reshape(10,1)   
t_data = np.array([0, 0, 0, 0,  0,  0,  1,  1,  1,  1]).reshape(10,1)

print("x_data.shape = ", x_data.shape, ", t_data.shape = ", t_data.shape)

x_data.shape =  (10, 1) , t_data.shape =  (10, 1)


##### 임의의 직선  y = Wx + b 정의  (임의이 값으로 가중치 W, 바이어스 b 초기화)

In [2]:
W = np.random.rand(1,1)  
b = np.random.rand(1)  
print("W = ", W, ", W.shape = ", W.shape, ", b = ", b, ", b.shape = ", b.shape)

W =  [[0.95598589]] , W.shape =  (1, 1) , b =  [0.89228037] , b.shape =  (1,)


##### 활성화 함수, 손실함수 정의 

In [3]:
# 최종출력은 y = sigmoid(Wx+b) 이며, 손실함수는 cross-entropy 로 나타냄 
def sigmoid(x):
    return 1 / (1 + np.exp(-x))

def loss_func(x, t):
    delta = 1e-7 # log 무한대를 방지하기 위해 정의 
    
    z = np.dot(x, W) + b
    y = sigmoid(z)
    
    # cross-entropy
    return -np.sum(t * np.log(y + delta) + (1-t)*np.log((1-y) + delta))

#### 수치 미분 (numerical_derivative) 및 utility 함수 정의 

In [4]:
def numerical_derivative(f, x):
    delta_x = 1e-4 # 0.0001
    grad = np.zeros_like(x)
    
    it = np.nditer(x, flags=['multi_index'], op_flags=['readwrite'])
    
    while not it.finished:
        idx = it.multi_index        
        tmp_val = x[idx]
        x[idx] = float(tmp_val) + delta_x
        fx1 = f(x) # f(x+delta_x)
        
        x[idx] = tmp_val - delta_x 
        fx2 = f(x) # f(x-delta_x)
        grad[idx] = (fx1 - fx2) / (2*delta_x)
        
        x[idx] = tmp_val 
        it.iternext()   
        
    return grad

In [5]:
# 손실함수 값 계산 함수
# 입력변수 x, t : numpy type
def error_val(x, t):
    delta = 1e-7    # log 무한대 발산 방지
    
    z = np.dot(x,W) + b
    y = sigmoid(z)
    
    # cross-entropy 
    return  -np.sum( t*np.log(y + delta) + (1-t)*np.log((1 - y)+delta ) ) 

# 학습을 마친 후, 임의의 데이터에 대해 미래 값 예측 함수
# 입력변수 x : numpy type
def predict(x):
    
    z = np.dot(x,W) + b
    y = sigmoid(z)
    
    if y >= 0.5:
        result = 1  # True
    else:
        result = 0  # False
    
    return y, result

##### 학습률 (Learning rate) 초기화 및 손실함수가 최소가 될 때까지 W, b 업데이트

In [6]:
learning_rate = 1e-2  # 발산하는 경우, 1e-3 ~ 1e-6 등으로 바꾸어서 실행

f = lambda x : loss_func(x_data,t_data)  # f(x) = loss_func(x_data, t_data)

print("Initial error value = ", error_val(x_data, t_data), "Initial W = ", W, "\n", ", b = ", b )

for step in  range(10001):  
    
    W -= learning_rate * numerical_derivative(f, W)
    
    b -= learning_rate * numerical_derivative(f, b)
    
    if (step % 400 == 0):
        print("step = ", step, "error value = ", error_val(x_data, t_data), "W = ", W, ", b = ",b )

Initial error value =  45.547128440684254 Initial W =  [[0.95598589]] 
 , b =  [0.89228037]
step =  0 error value =  27.92664413195932 W =  [[0.54071844]] , b =  [0.83419152]
step =  400 error value =  2.8366919449371006 W =  [[0.27555032]] , b =  [-4.082528]
step =  800 error value =  1.7868435598897614 W =  [[0.45256802]] , b =  [-5.63046459]
step =  1200 error value =  1.5197127194188398 W =  [[0.53010188]] , b =  [-6.66290622]
step =  1600 error value =  1.3536277223616724 W =  [[0.59146827]] , b =  [-7.47782303]
step =  2000 error value =  1.2368391434208437 W =  [[0.6430554]] , b =  [-8.16137527]
step =  2400 error value =  1.1484843693950726 W =  [[0.68800792]] , b =  [-8.75595638]
step =  2800 error value =  1.0783246003375457 W =  [[0.72812331]] , b =  [-9.28577719]
step =  3200 error value =  1.0206637724086118 W =  [[0.76453321]] , b =  [-9.76606393]
step =  3600 error value =  0.9720436194919484 W =  [[0.7980001]] , b =  [-10.20706402]
step =  4000 error value =  0.93022442

In [7]:
(real_val, logical_val) = predict(3) # 3시간 입력 미래값 예측
print(f'predict(3) : {real_val}, {logical_val}')
(real_val, logical_val) = predict(17) # 17시간 입력 미래값 예측
print(f'predict(17) : {real_val}, {logical_val}')

predict(3) : [[1.12231384e-05]], 0
predict(17) : [[0.99128028]], 1


##### multi-variable logistic regression (classification) 

##### Training Data (예습시간 (x1), 복습시간 (x2), 정답 fail/pass(t))

In [8]:
# x_data = (예습시간, 복습시간)
# t_data = 1 (Pass), 0 (Fail)

import numpy as np

x_data = np.array([ [2, 4], [4, 11], [6, 6], [8, 5], [10, 7], [12, 16], [14, 8], [16, 3], [18, 7] ])
t_data = np.array([0, 0, 0, 0, 1, 1, 1, 1, 1]).reshape(9, 1)

# 데이터 차원 및 shape 확인
print("x_data.ndim = ", x_data.ndim, ", x_data.shape = ", x_data.shape)
print("t_data.ndim = ", t_data.ndim, ", t_data.shape = ", t_data.shape)

x_data.ndim =  2 , x_data.shape =  (9, 2)
t_data.ndim =  2 , t_data.shape =  (9, 1)


In [9]:
W = np.random.rand(2,1)  
b = np.random.rand(1)  
print("W = ", W, ", W.shape = ", W.shape, ", b = ", b, ", b.shape = ", b.shape)

W =  [[0.40928595]
 [0.74357418]] , W.shape =  (2, 1) , b =  [0.91052255] , b.shape =  (1,)


In [10]:
learning_rate = 1e-2  # 발산하는 경우, 1e-3 ~ 1e-6 등으로 바꾸어서 실행

f = lambda x : loss_func(x_data,t_data)  # f(x) = loss_func(x_data, t_data)

print("Initial error value = ", error_val(x_data, t_data), "Initial W = ", W, "\n", ", b = ", b )

for step in  range(10001):  
    W -= learning_rate * numerical_derivative(f, W)
    b -= learning_rate * numerical_derivative(f, b)
    
    if (step % 400 == 0):
        print("step = ", step, "error value = ", error_val(x_data, t_data), "W = ", W, ", b = ",b )

Initial error value =  31.165575651377804 Initial W =  [[0.40928595]
 [0.74357418]] 
 , b =  [0.91052255]
step =  0 error value =  20.33556814325532 W =  [[0.20975264]
 [0.48451111]] , b =  [0.87108451]
step =  400 error value =  2.3516836090030355 W =  [[ 0.41073041]
 [-0.09296657]] , b =  [-2.47569233]
step =  800 error value =  1.621241366127626 W =  [[ 0.52940291]
 [-0.02947254]] , b =  [-4.17126498]
step =  1200 error value =  1.2959300792648936 W =  [[0.61801947]
 [0.00698095]] , b =  [-5.30782842]
step =  1600 error value =  1.1082589940668564 W =  [[0.68927797]
 [0.03268581]] , b =  [-6.17210095]
step =  2000 error value =  0.9837255228109081 W =  [[0.74919442]
 [0.05302704]] , b =  [-6.87637584]
step =  2400 error value =  0.8935506170236671 W =  [[0.8010594 ]
 [0.07036017]] , b =  [-7.47571998]
step =  2800 error value =  0.8242717382731114 W =  [[0.8468706 ]
 [0.08589278]] , b =  [-8.00104786]
step =  3200 error value =  0.7687375702418225 W =  [[0.88793597]
 [0.10030875]] ,

In [11]:
test_data = np.array([3, 17]) 
print(f'(예습, 복습) = (3, 17) : {predict(test_data)}') #  Fail (0)

(예습, 복습) = (3, 17) : (array([0.01520478]), 0)


In [12]:
test_data = np.array([5, 8]) 
print(f'(예습, 복습) = (5, 8) : {predict(test_data)}') #  Fail (0)

(예습, 복습) = (5, 8) : (array([0.01192001]), 0)


In [13]:
test_data = np.array([7, 21]) 
print(f'(예습, 복습) = (7, 21) : {predict(test_data)}') #  Pass (1)

(예습, 복습) = (7, 21) : (array([0.89959329]), 1)


In [14]:
test_data = np.array([12, 0]) 
print(f'(예습, 복습) = (12, 0) : {predict(test_data)}') #  Pass (0)

(예습, 복습) = (12, 0) : (array([0.88528226]), 1)
