![경사하강법](경사하강법.PNG)

![선형회귀](Linear.png)

## example

1. 학습데이터(Training Data) 준비

In [1]:
import numpy as np

x_data = np.array([1,2,3,4,5]).reshape(5,1)
t_data = np.array([2,3,4,5,6]).reshape(5,1)

# raw_data = [[1,2],[2,3],[3,4],[4,5],[5,6]]

print("x_data.shape = ", x_data.shape, ", t_data.shape = ", t_data.shape)

x_data.shape =  (5, 1) , t_data.shape =  (5, 1)


2. 임의의 직선 y = Wx + b 정의(임의의 값으로 가중치 W, 바이어스 b 초기화)

In [2]:
W = np.random.rand(1,1)
b = np.random.rand(1)
print(W, W.shape, b, b.shape)


[[0.21580583]] (1, 1) [0.00626995] (1,)


3. 손실함수 E(W,b) 정의

In [3]:
def loss_func(x,t): # x = training data input / t = training data output
    y = np.dot(x,W) + b # 임의의 기울기 W를 가질때의 y값 (t와 비교할 것)
    
    # t 와 y 값의 제곱(오차)를 비교해야함
    
    return  ( np.sum((t-y)**2)) / (len(x))

4. 수치미분 numerical_derivative 및 utility 함수 정의

In [7]:
def numerical_derivative(f,x): # 손실함수 E(W 또는 b에 대한)를 편미분함
    delta_x = 1e-4 # 0.0001
    grad = np.zeros_like(x)
    
    it = np.nditer(x, flags=['multi_index'], op_flags=['readwrite'])
    
    while not it.finished:
        idx = it.multi_index
        tmp_val = x[idx]
        x[idx] = float(tmp_val) + delta_x
        fx1 = f(x) # f(x+delta_x)
        
        x[idx] = tmp_val - delta_x
        fx2 = f(x) # f(x-delta_x)
        grad[idx] = (fx1 - fx2) / (2*delta_x)
        
        x[idx] = tmp_val
        it.iternext()
    
    return grad

    # 손실함수 값 계산 함수
    # 입력변수 x, t : numpy type
    

In [8]:
def error_val(x,t):
    y = np.dot(x,W) + b
        
    return (np.sum((t-y)**2)) / (len(x))
    
# 학습을 마친 후 , 임의의 데이터에 대해 미래 값 예측 함수
# 입력변수 x : numpy type

def predict(x):
    y = np.dot(x,W) + b
        
    return y

5. 학습율(learning rate)초기화 및 손실함수가 최소가 될 때까지 W, b 업데이트

In [9]:
learning_rate = 1e-2  # 발산하는 경우, 1e-3 ~ 1e-6 등으로 바꾸어서 실행

f = lambda x : loss_func(x_data,t_data)

print("Initial error value = ", error_val(x_data, t_data), "Initial W = ", W, "\n", ", b = ", b )

for step in  range(8001):  
    
    W -= learning_rate * numerical_derivative(f, W) # 오차함수 E에 대한 W의 편미분(기울기)가 최소가 되도록 수렴시킴
    
    b -= learning_rate * numerical_derivative(f, b)
    
    if (step % 400 == 0):
        print("step = ", step, "error value = ", error_val(x_data, t_data), "W = ", W, ", b = ",b )

Initial error value =  12.427728682069304 Initial W =  [[0.21580583]] 
 , b =  [0.00626995]
step =  0 error value =  7.353275744095389 W =  [[0.44795235]] , b =  [0.05926741]
step =  400 error value =  0.006976371479332349 W =  [[1.05423898]] , b =  [0.80422799]
step =  800 error value =  0.0004451337444999288 W =  [[1.01370068]] , b =  [0.95054832]
step =  1200 error value =  2.8402164517702104e-05 W =  [[1.00346077]] , b =  [0.98750859]
step =  1600 error value =  1.812226009053965e-06 W =  [[1.00087418]] , b =  [0.99684469]
step =  2000 error value =  1.156307332085789e-07 W =  [[1.00022082]] , b =  [0.99920297]
step =  2400 error value =  7.37792438449663e-09 W =  [[1.00005578]] , b =  [0.99979867]
step =  2800 error value =  4.707551938207009e-10 W =  [[1.00001409]] , b =  [0.99994915]
step =  3200 error value =  3.003696445859223e-11 W =  [[1.00000356]] , b =  [0.99998715]
step =  3600 error value =  1.9165359105093207e-12 W =  [[1.0000009]] , b =  [0.99999676]
step =  4000 error

In [10]:
predict(43)

array([[44.]])