# Logistic Regression

## 분류(Classification)
- 미지의 입력 데이터에서 결과가 어떤 종류의 값으로 분류될 수 있는지 예측하는 것

### Logistic Regression 알고리즘
- Training Data 특성과 분포를 나타내는 최적의 직선(Linear Regression)을 찾음
- 직선을 기준으로 데이터를 위(1) 또는 아래(0)으로 분류 해주는 알고리즘

### Classification - sigmoid function
- 출력값 y가 1 또는 0 만을 가져야만 하는 분류 시스템에서 함수값으로 0~1 사이의 값을 가지는 sigmoid 함수를 사용할 수 있음
- sigmoid 계산 값이 0.5보다 큼 => 결과가 1이 나올 확률이 높으므로 y값을 1로 정의
- sigmoid 계산 값이 0.5보다 미만 => 결과가 0이 나올 확률이 높으므로 y값을 0으로 정의 

### 손실함수(loss function)
- 분류 시스템 최종 출력 값 y는 sigmoid 함수에 의해 논리적으로 1 또는 0 값을 가지기 때문에 연속 값을 갖는 선형회귀 때와는 다른 손실 함수가 필요함
- 손실함수 Cross entropy 활용
- 우도 함수 : 입력 x에 대해 정답 t가 발생될 확률을 나타낸 함수
- 확률은 독립적이므로 각 입력 데이터의 발생확률을 곱해서 우도 함수를 나타냄
- 우도 함수가 최대 => 발생 확률이 가장 높다

### training data 준비 
- 공부시간(x), Fail/Pass(z) : 공부시간이 14시간 이상이면 Pass

In [43]:
import numpy as np

x_data = np.array([2, 4, 6, 8, 10, 12, 14, 16, 18, 20]).reshape(10,1)
t_data = np.array([0, 0, 0, 0, 0, 0, 1, 1, 1, 1]).reshape(10,1)

# 임의의 직선 z=Wx + b 정의 (임의의 값으로 가중치 W, 바이어스 b 초기화)
W = np.random.rand(1,1)
b = np.random.rand(1)
print("W =", W, ",W.shape =", W.shape,", b =", b, ", b.shape =", b.shape)

W = [[0.06794623]] ,W.shape = (1, 1) , b = [0.24140093] , b.shape = (1,)


### 손실함수 정의 E(W, b) 정의

In [31]:
def sigmoid(x):
    return 1 / (1 + np.exp(-x) )

def loss_func(x, t):
    delta = 1e-7
    z = np.dot(x, W) + b
    y = sigmoid(z)
    
    # crosss-entropy
    return -np.sum( t*np.log(y+ delta) +   # log의 무한대 방지를 위해 임의의 delta를 더함
                     (1-t)*np.log(1-y+delta) )

### 수치미분 numerical_derivative 및 utility 함수 정의

In [33]:
def numerical_derivative(f, x):
    delta_x = 1e-4 # 0.0001
    grad = np.zeros_like(x)
    
    it = np.nditer(x, flags=['multi_index'], op_flags=['readwrite'])
    
    while not it.finished:
        idx = it.multi_index        
        tmp_val = x[idx]
        x[idx] = float(tmp_val) + delta_x
        fx1 = f(x) # f(x+delta_x)
        
        x[idx] = tmp_val - delta_x 
        fx2 = f(x) # f(x-delta_x)
        grad[idx] = (fx1 - fx2) / (2*delta_x)
        
        x[idx] = tmp_val 
        it.iternext()   
        
    return grad

### 손실함수 값 계산 함수

In [34]:
# 입력변수 x, t : numpy type
def error_val(x, t):
    delta = 1e-7
    
    z = np.dot(x, W) + b
    y = sigmoid(z)
    
    # cross-entropy
    return -np.sum( t*np.log(y + delta) + (1-t)*np.log((1- y)+ delta))    

### 학습 후 임의의 데이터에 대해 미래 값 예측 함수

In [35]:
# 입력변수 x, t : numpy type
def predict(x):
    
    z = np.dot(x, W) + b
    y = sigmoid(z)
    
    if y > 0.5:
        result = 1  # True
    else: 
        result = 0  # False
    
    return y, result

In [39]:
# 학습률
learning_rate = 1e-2

f = lambda x : loss_func(x_data, t_data)
    
for step in range(10001):
    
    W -= learning_rate * numerical_derivative(f, W)
    b -= learning_rate * numerical_derivative(f, b)
    
    if (step % 400 == 0):
        print("step =", step, "error value =", error_val(x_data, t_data), "W =", W, "b =", b)

step = 0 error value = 0.5691948103046798 W = [[1.23072213]] b = [-15.88066464]
step = 400 error value = 0.56017723552856 W = [[1.24524173]] b = [-16.07040421]
step = 800 error value = 0.5515249661651015 W = [[1.25946592]] b = [-16.25625639]
step = 1200 error value = 0.5432123478988171 W = [[1.27340971]] b = [-16.43841996]
step = 1600 error value = 0.5352162706888679 W = [[1.28708694]] b = [-16.61707753]
step = 2000 error value = 0.5275158483370084 W = [[1.3005103]] b = [-16.79239728]
step = 2400 error value = 0.5200921463874416 W = [[1.31369156]] b = [-16.9645345]
step = 2800 error value = 0.5129279499390839 W = [[1.32664158]] b = [-17.1336329]
step = 3200 error value = 0.5060075646033602 W = [[1.33937047]] b = [-17.29982577]
step = 3600 error value = 0.49931664513417545 W = [[1.35188759]] b = [-17.46323701]
step = 4000 error value = 0.49284204727631437 W = [[1.3642017]] b = [-17.62398198]
step = 4400 error value = 0.48657169918748927 W = [[1.37632095]] b = [-17.78216834]
step = 4800 

In [40]:
# 공부시간이 3시간일 경우 fail
(real_val, logical_val) = predict(3)
print(real_val, logical_val)

[[2.53575008e-07]] 0


In [42]:
# 공부시간 17시간일 경우 Pass
## 합격할 확률 99.80%로 합격
(real_val, logical_val) = predict(17)
print(real_val, logical_val)

[[0.99801349]] 1


## multi-variable logistic regression
### training data 준비 
- 예습시간, 복습시간(x) Fail/Pass(t) 

In [44]:
import numpy as np

x_data = np.array([[2, 4], [4, 11], [6, 6], [8, 5], [10, 7], [12, 16], [14, 8], [16, 4], [18, 7]])
t_data = np.array([0, 0, 0, 0, 1, 1, 1, 1, 1]).reshape(9,1)

# 임의의 직선 z= W1x1 + W2x2 + b 정의 (임의의 값으로 가중치 W, 바이어스 b 초기화)
W = np.random.rand(2,1)
b = np.random.rand(1)
print("W =", W, ",W.shape =", W.shape,", b =", b, ", b.shape =", b.shape)

W = [[0.07382132]
 [0.01847308]] ,W.shape = (2, 1) , b = [0.43597783] , b.shape = (1,)


### 손실함수 E(W, b) 정의

In [45]:
def sigmoid(x):
    return 1 / (1 + np.exp(-x) )

def loss_func(x, t):
    delta = 1e-7
    z = np.dot(x, W) + b
    y = sigmoid(z)
    
    # crosss-entropy
    return -np.sum( t*np.log(y+ delta) +   # log의 무한대 방지를 위해 임의의 delta를 더함
                     (1-t)*np.log(1-y+delta) )

### 수치미분 numerical_derivative 및 utility 함수 정의

In [46]:
def numerical_derivative(f, x):
    delta_x = 1e-4 # 0.0001
    grad = np.zeros_like(x)
    
    it = np.nditer(x, flags=['multi_index'], op_flags=['readwrite'])
    
    while not it.finished:
        idx = it.multi_index        
        tmp_val = x[idx]
        x[idx] = float(tmp_val) + delta_x
        fx1 = f(x) # f(x+delta_x)
        
        x[idx] = tmp_val - delta_x 
        fx2 = f(x) # f(x-delta_x)
        grad[idx] = (fx1 - fx2) / (2*delta_x)
        
        x[idx] = tmp_val 
        it.iternext()   
        
    return grad

### 손실함수 값 계산 및 예측 함수

In [47]:
# 입력변수 x, t : numpy type
def error_val(x, t):
    delta = 1e-7
    
    z = np.dot(x, W) + b
    y = sigmoid(z)
    
    # cross-entropy
    return -np.sum( t*np.log(y + delta) + (1-t)*np.log((1- y)+ delta))   

In [48]:
# 입력변수 x, t : numpy type
def predict(x):
    
    z = np.dot(x, W) + b
    y = sigmoid(z)
    
    if y > 0.5:
        result = 1  # True
    else: 
        result = 0  # False
    
    return y, result

In [50]:
# 학습률
learning_rate = 1e-2

f = lambda x : loss_func(x_data, t_data)
    
for step in range(80001):
    
    W -= learning_rate * numerical_derivative(f, W)
    b -= learning_rate * numerical_derivative(f, b)
    
    if (step % 400 == 0):
        print("step =", step, "error value =", error_val(x_data, t_data), "W =", W, "b =", b)

step = 0 error value = 0.40425125933041506 W = [[1.27970163]
 [0.31388876]] b = [-13.32552684]
step = 400 error value = 0.39421410428233644 W = [[1.29444428]
 [0.32505692]] b = [-13.52534405]
step = 800 error value = 0.3846791370771161 W = [[1.30876068]
 [0.33602733]] b = [-13.72009215]
step = 1200 error value = 0.375606260467164 W = [[1.32268384]
 [0.34679683]] b = [-13.91005683]
step = 1600 error value = 0.3669600251775819 W = [[1.33624263]
 [0.35736395]] b = [-14.09549589]
step = 2000 error value = 0.35870891300480956 W = [[1.34946244]
 [0.36772874]] b = [-14.27664321]
step = 2400 error value = 0.3508247548932601 W = [[1.36236562]
 [0.37789242]] b = [-14.45371194]
step = 2800 error value = 0.3432822549417611 W = [[1.37497194]
 [0.38785725]] b = [-14.62689722]
step = 3200 error value = 0.33605859815348654 W = [[1.38729897]
 [0.39762624]] b = [-14.79637838]
step = 3600 error value = 0.32913312486326424 W = [[1.39936239]
 [0.40720301]] b = [-14.9623209]
step = 4000 error value = 0.3224

In [51]:
# (예습, 복습) = 예습 3시간, 복습 17시간 일 때, Fail
## 합격할 확률은 14% 
test_data = np.array([3, 17])
predict(test_data)

(array([0.14197058]), 0)

In [52]:
# (예습, 복습) = 예습 5시간, 복습 8시간 일 때, Fail
## 합격할 확률은 0.083%
test_data = np.array([5, 8])
predict(test_data)

(array([0.0008341]), 0)

In [53]:
# (예습, 복습) = 예습 7시간, 복습 21시간 일 때, Pass
## 합격할 확률은 99.9%
test_data = np.array([7, 21])
predict(test_data)

(array([0.99999406]), 1)

In [54]:
# (예습, 복습) = 예습 12시간, 복습 0시간 일 때, Pass
## 합격할 확률은 61.6%
test_data = np.array([12, 0])
predict(test_data)

(array([0.61640938]), 1)

### 결과 해석
- 복습보다는 예습시간이 합격(Pass)에 미치는 영향이 크다는 것을 알 수 있음
- 예습시간 가중치 W1 = 2.3, 복습시간 가중치 W2 = 1.1 이므로 예습시간이 복습시간보다 약 2배이상 영향을 미치는 것을 알 수 있음