<a href="https://colab.research.google.com/github/2017130744/-neowizard/blob/main/15%20linear%20regression.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
##손실함수(lost function)는 모든 오차의 제곱의 평균이다. 이를 E(W,b)라고 한다. W는 가중치(기울기), b는 y절편(bias)이다. 이 값이 작다는 것은 정답(t)과 y=Wx+b에 의해 계산된 값의 평균 오차가 작다는 의미.
##이는 미지의 데이터 x가 주어질 경우 확률적으로 미래의 결과값도 오차가 작을 것이라고 추측 가능하게 함.
##이처럼 training data를 바탕으로 손실함수 E(W,b)가 최소값을 갖도록 (W,b)를 구하는 것이 linear regression model의 최종 목적이다. 

In [2]:
##경사하강법(gradient decent algorithm)
##임의의 가중치 W를 선택하고 그 W에서의 직선의 기울기를 나타내는 미분값을 구한다. 
##그 미분값의 절댓값이 작아지는 방향으로 W를 감소(혹은 증가)시켜나가면 최종적으로 기울기의 절댓값이 더 이상 작아지지 않는 곳을 찾을 수 있는데, 그곳이 손실함수의 최솟값임을 알 수 있다.
## b 값도 마찬가지로 실행한다. 

In [9]:
## simple regression 예시

import numpy as np

##1. 학습데이터(traning data)준비

x_data = np.array([1,2,3,4,5]).reshape(5,1)
t_data = np.array([2,3,4,5,6]).reshape(5,1)   ##원래 (x,t) 데이터는 [[1,2],[2,3],[3,4],[4,5],[5,6]] 과 같은 형태이다. 

##2. 임의의 직선 y=Wx+b 정의(임의의 값으로 가중치w, 바이어스b 초기화)
W = np.random.rand(1,1)
b = np.random.rand(1)

##3. 손실함수 E(W,b) 정의

def loss_func(x,t):
  y = np.dot(x,W) + b

  return (np.sum((t-y)**2) / (len(x)))



In [12]:
## 4. 수치미분 numerical_derivative 및 utility 함수 정의
def numerical_derivative(f,x):   
  delta_x = 1e-4
  grad = np.zeros_like(x)        

  it = np.nditer(x, flags=['multi_index'], op_flags = ['readwrite'])

  while not it.finished:
    idx = it.multi_index   

    tmp_val = x[idx]
    x[idx] = float(tmp_val) + delta_x
    fx1 = f(x) 

    x[idx] = tmp_val - delta_x
    fx2 = f(x)  

    grad[idx] = (fx1 - fx2) / (2*delta_x)

    x[idx] = tmp_val
    it.iternext()

  return grad

def error_val(x,t):                 ##손실함수 값 계산함수
  y = np.dot(x,W) + b

  return (np.sum((t-y)**2)) / (len(x))

def predict(x):             ##학습을 마친 후, 임의의 데이터에 대해 미래 값 예측 함수
  y = np.dot(x,W) + b
  return y



In [15]:
##5. 학습률(learning rate) 초기화 및 손실함수가 최소가 될 때까지 W,b 업데이트

learning_rate = 1e-2  #발산하는 경우 le-3, le-6등으로 바꾸어서 실행

f = lambda x : loss_func(x_data, t_data)

print('initial error value = ', error_val(x_data,t_data), 'initial W = ', W, '\n', 'b = ', b)

for step in range(8001):

  W -= learning_rate * numerical_derivative(f,W)
  b -= learning_rate * numerical_derivative(f,b)

  if (step%400 == 0):
    print("step = ", step, "error value = ", error_val(x_data, t_data), 'W = ', W, ', b = ', b)

initial error value =  1.9018576970152292 initial W =  [[0.73371387]] 
 b =  [0.472193]
step =  0 error value =  1.1327731681346394 W =  [[0.82396523]] , b =  [0.49331123]
step =  400 error value =  0.002270785395105811 W =  [[1.03094459]] , b =  [0.88830754]
step =  800 error value =  0.0001448895330293062 W =  [[1.00781655]] , b =  [0.97178667]
step =  1200 error value =  9.244808790249732e-06 W =  [[1.00197445]] , b =  [0.99287336]
step =  1600 error value =  5.898734558761157e-07 W =  [[1.00049874]] , b =  [0.99819982]
step =  2000 error value =  3.763741380063858e-08 W =  [[1.00012598]] , b =  [0.99954528]
step =  2400 error value =  2.401489511846856e-09 W =  [[1.00003182]] , b =  [0.99988514]
step =  2800 error value =  1.5322922839663235e-10 W =  [[1.00000804]] , b =  [0.99997099]
step =  3200 error value =  9.776930658375895e-12 W =  [[1.00000203]] , b =  [0.99999267]
step =  3600 error value =  6.238259768471802e-13 W =  [[1.00000051]] , b =  [0.99999815]
step =  4000 error v

In [16]:
##미래값 예측

predict(43)

array([[44.]])

In [None]:
##입력 변수가 여러개인 multi_variable regression

## y = x1w1 + x2w2 + x3w3 + b 와 같은 형태. 이 때 x * W + b = y 에서 x는 변수가 3개이므로 nx3행렬로 나타난다. w도 가중치가 3개이므로 1x3행렬이다. 

## simple regression에서 두 번째 과정에서 W = np.random.rand(3,1)로 해주어서 3개의 가중치들이 임의의 값을 가지도록 하면된다. 나머지는 모두 같다. 
