회귀(Regression)

Training Data를 이용하여 데이터의 특성과 상관관계 등을 파악하고,
그 결과를 바탕으로 Training Data에 없는 미지의 데이터가 주어졌을 경우에,
그 결과를 연속적인 (숫자) 값으로 예측하는 것

training data의 정답(t)과 직선 y = Wx+b 값의 차이인 오차(error)는,
오차(error) = t – y = t – (Wx+b) 으로 계산되며,
오차가 크다면, 우리가 임의로 설정한 직선의 가중치와 바이어스 값이 잘못된 것이고, 오
차가 작다면 직선의 가중치와 바이어스 값이 잘 된 것이기 때문에 미래 값 예측도 정확할
수 있다고 예상할 수 있음

머신러닝은 결국 모든데이터의 오차 = t - y = t - (Wx+b)의 합이 최소가 되서, 미래 값을 잘 예측할 수 있는 가중치 W와 바이어스 b값을 찾는 시스템


손실함수를 찾는 법에 대표적인게 경사하강법

손실함수는 오차의 평균값을 나타내기 때문에, 손실함수가 최소값을 갖는다는 것은 실제 정답과 계산 값의 차이인 오차가 최소가 되어, 미지의 데이터에대해서 결과를 더 잘 예측 할 수 있다는 것을 의미함.

이러한 손실함수는 W, b 에 영향을 받기 때문에, 손실함수가 최소가 되는 가중치 W 와 바이어스 b 를 찾는 것이 regression 을 구현하는 최종 목표임


1. 임의의 가중치 W 선택 
2. 그 W 에서의 직선의 기울기를 나타내는 미분 값을 구함 
3. 그 미분 값이 작아지는 방향으로 W 감소(또는 증가) 시켜 나가면 
4.  최종적으로 기울기가 더 이상 작아지지 않는 곳을 찾을 수 있는데, 그곳이 손실함수 E(W) 최소값임을 알 수 있음.
- 이처럼, W에서의 직선의 기울기인 미분 값을 이용하여, 그 값이 작아지는 방향으로 진행하여 손실함수 최소값을 찾는 방법을 경사하강법(gradient decent algorithm) 이라고 함

linear regression 목표는 training data 특성 / 분포를 가장 잘 나타내는 임의의 직선 y = Wx + b 에서의 [W, b] 를 구하는 것

In [1]:
# Linear Regerssion 예시

import numpy as np
from datetime import datetime

In [2]:
# 수치미분함수

def numerical_derivative(f, x):
    delta_x = 1e-4 # 0.0001
    grad = np.zeros_like(x)
    
    it = np.nditer(x, flags=['multi_index'], op_flags=['readwrite'])
    
    while not it.finished:
        idx = it.multi_index        
        tmp_val = x[idx]
        x[idx] = float(tmp_val) + delta_x
        fx1 = f(x) # f(x+delta_x)
        
        x[idx] = tmp_val - delta_x 
        fx2 = f(x) # f(x-delta_x)
        grad[idx] = (fx1 - fx2) / (2*delta_x)
        
        x[idx] = tmp_val 
        it.iternext()   
        
    return grad

In [5]:
x_data = np.array([1.0, 2.0, 3.0, 4.0, 5.0]).reshape(5,1)
t_data = np.array([2.0, 3.0, 4.0, 5.0, 6.0]).reshape(5,1) 

print("x_data.shape = ", x_data.shape, ", t_data.shape = ", t_data.shape)

x_data.shape =  (5, 1) , t_data.shape =  (5, 1)


In [6]:
W = np.random.rand(1,1) #1행1열로 타입을 맞춰줌 
b = np.random.rand(1)   

print("W = ", W, ", W.shape = ", W.shape, ", b = ", b, ", b.shape = ", b.shape)

W =  [[0.42984493]] , W.shape =  (1, 1) , b =  [0.93071077] , b.shape =  (1,)


In [7]:
def loss_func(x, t):
    # 손실함수의 구현
    y = np.dot(x,W) + b
    
    return ( np.sum( (
        t - y)**2 ) ) / ( len(x) )
# 평균 제곱오차 함수

In [8]:
# 손실함수 값 계산 함수
# 입력변수 x, t : numpy type
def loss_val(x, t):
    y = np.dot(x,W) + b
    
    return ( np.sum( (t - y)**2 ) ) / ( len(x) )


# 학습을 마친 후, 임의의 데이터에 대해 미래 값 예측 함수
# 입력변수 x : numpy type

def predict(x):
    y = np.dot(x,W) + b
    
    return y

In [11]:
learning_rate = 1e-2

f = lambda x : loss_func(x_data,t_data)

print("Initial loss value = ", loss_val(x_data, t_data), "Initial W = ", W, "\n", ", b = ", b )

for step in  range(8001):  
    
    W -= learning_rate * numerical_derivative(f, W)
    
    
    
    b -= learning_rate * numerical_derivative(f, b)
    
    if (step % 400 == 0):
        print("step = ", step, "loss value = ", loss_val(x_data, t_data), "W = ", W, ", b = ",b )

Initial loss value =  7.018101043298731e-28 Initial W =  [[1.]] 
 , b =  [1.]
step =  0 loss value =  7.025595221898331e-28 W =  [[1.]] , b =  [1.]
step =  400 loss value =  2.14412394039071e-28 W =  [[1.]] , b =  [1.]
step =  800 loss value =  2.14412394039071e-28 W =  [[1.]] , b =  [1.]
step =  1200 loss value =  2.14412394039071e-28 W =  [[1.]] , b =  [1.]
step =  1600 loss value =  2.14412394039071e-28 W =  [[1.]] , b =  [1.]
step =  2000 loss value =  2.14412394039071e-28 W =  [[1.]] , b =  [1.]
step =  2400 loss value =  2.14412394039071e-28 W =  [[1.]] , b =  [1.]
step =  2800 loss value =  2.14412394039071e-28 W =  [[1.]] , b =  [1.]
step =  3200 loss value =  2.14412394039071e-28 W =  [[1.]] , b =  [1.]
step =  3600 loss value =  2.14412394039071e-28 W =  [[1.]] , b =  [1.]
step =  4000 loss value =  2.14412394039071e-28 W =  [[1.]] , b =  [1.]
step =  4400 loss value =  2.14412394039071e-28 W =  [[1.]] , b =  [1.]
step =  4800 loss value =  2.14412394039071e-28 W =  [[1.]] , 

In [12]:
predict(np.array([43]))  
# 예측

array([44.])