<a href="https://colab.research.google.com/github/2017130744/-neowizard/blob/main/16%2C17%20logistic%20regression%20-%20classification.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
## Logistic Regression 알고리즘
## 1. Training data 특성과 분포를 나타내는 최적의 직선을 찾고(linear regression)
## 2. 그 직선을 기준으로 데이터를 위(1) 또는 아래(0) 등으로 분류(classification)해주는 알고리즘
## 이러한 logistic regression은 classification 알고리즘 중에서도 정확도가 높은 알고리즘으로 알려져 있어서 deep learning에서 기본 component로 사용됨
## (x,t) -> regression -> classification -> true(1) or false(0)

## sigmoid function: 함수값으로 0~1 사이의 값만을 가지는 함수. 
## 출력값 y가 1 또는 0만을 가져야 하는 분류 시스템에서 sigmoid 함수가 사용됨. 
## 출력함수로 sigmoid를 사용해서 sigmoid 계산 값이 0.5보다 크면 결과로 1이 나올 확률이 높다는 것이기 때문에 출력값 y는 1을 정의.
## 만약 sigmoid 계산 값이 0.5 미만이면 출력값 y는 0으로 정의. 이렇게 classification 시스템을 구현.
## sigmoid 함수의 실제 계산 값 sigmoid(z)는 결과가 나타날 확률을 의미한다. ex) 0.75 -> 75퍼센트로 1이 출력.



In [25]:
#logistic regression 구현하기
import numpy as np

# 1. slicing 또는 list comprehension 등을 이용하여 입력 x와 정답 t를 numpy 타입으로 분리. t=0또는t=1

x_data = np.array([2,4,6,8,10,12,14,16,18,20]).reshape(10,1)
t_data = np.array([0,0,0,0,0,0,1,1,1,1]).reshape(10,1)

# 2. z = Wx + b에 들어갈 W와 b를 정의. 

W = np.random.rand(1,1)
b = np.random.rand(1)

# 3. 손실함수 E(W,b) 정의

def sigmoid(x):
  return 1 / (1+np.exp(-x))

def loss_func(x,t):

  delta = 1e-7   #log 무한대 발산 방지

  z = np.dot(x,W) + b
  y = sigmoid(z)

  return -np.sum(t*np.log(y+delta) + (1-t)*np.log((1-y)+delta))

In [44]:
# 4. 수치미분 numerical_derivative 및 utility  함수 정의

def numerical_derivative(f,x):    
  delta_x = 1e-4
  grad = np.zeros_like(x)         

  it = np.nditer(x, flags=['multi_index'], op_flags = ['readwrite']) 

  while not it.finished:
    idx = it.multi_index   

    tmp_val = x[idx]
    x[idx] = float(tmp_val) + delta_x
    fx1 = f(x)   

    x[idx] = tmp_val - delta_x
    fx2 = f(x)

    grad[idx] = (fx1 - fx2) / (2*delta_x)

    x[idx] = tmp_val
    it.iternext()

  return grad

def error_val(x,t):
  delta = 1e-7

  z = np.dot(x,W) + b
  y = sigmoid(z)

  return  -np.sum(t*np.log(y+delta) + (1-t)*np.log((1-y)+delta))

def predict(x):

  z = np.dot(x,W) + b
  y = sigmoid(z)

  if y > 0.5:
    result = 1
  
  else:
    result = 0

  return y, result


In [51]:
#5. 학습률(learning rate) 초기화 및 손실함수가 최소가 될 때까지 W,b 업데이트

learning_rate = 1e-3  #발산하는 경우 le-3, le-6등으로 바꾸어서 실행

f = lambda x : loss_func(x_data, t_data)

print('initial error value = ', error_val(x_data,t_data), 'initial W = ', W, '\n', 'b = ', b)

for step in range(10001):

  W -= learning_rate * numerical_derivative(f,W)
  b -= learning_rate * numerical_derivative(f,b)

  if (step%400 == 0):
    print("step = ", step, "error value = ", error_val(x_data, t_data), 'W = ', W, ', b = ', b)

initial error value =  0.20962533018435026 initial W =  [[2.21930306]] 
 b =  [-28.76384783]
step =  0 error value =  0.2096250841948307 W =  [[2.21930426]] , b =  [-28.76386347]
step =  400 error value =  0.20952673503710897 W =  [[2.21978488]] , b =  [-28.77011772]
step =  800 error value =  0.20942847885671761 W =  [[2.22026527]] , b =  [-28.77636902]
step =  1200 error value =  0.2093303155180067 W =  [[2.22074543]] , b =  [-28.78261736]
step =  1600 error value =  0.20923224488560133 W =  [[2.22122537]] , b =  [-28.78886275]
step =  2000 error value =  0.20913426682440023 W =  [[2.22170508]] , b =  [-28.79510519]
step =  2400 error value =  0.20903638119957088 W =  [[2.22218457]] , b =  [-28.80134469]
step =  2800 error value =  0.2089385878765557 W =  [[2.22266383]] , b =  [-28.80758124]
step =  3200 error value =  0.20884088672106704 W =  [[2.22314286]] , b =  [-28.81381486]
step =  3600 error value =  0.20874327759908737 W =  [[2.22362167]] , b =  [-28.82004554]
step =  4000 er

In [50]:
predict(12)

(array([[0.10600526]]), 0)

In [None]:
##multi-variable logistic regression (classification)
## 변수가 2개 이상인 것이다. 따라서 입력행렬과 가중치 행렬이 (변수가 2개, 데이터가 n개라면) nx2, 2x1 이다. 
## 학습데이터 준비, 임의의 직선 정의를 내리는 것이 이전에 linear regression에서 multi-value를 하던것 처럼 하면 된다. 