# learning의 목표 : cost의 최소화 

### Gradient descent algorithm
* Minimize cost function
* Gradient descent is used many minimization problems
* For a given cost function, cost (W,b), it will find W, b to minimize cost
* 변수가 많을 때도 사용 가능 ex. cost(W1, W2,....)

### 작동원리 
1. 한 점에서 시작 
2. cost가 줄어들도록 W,b를 아주 조금씩 바꾼다.  
3. 해당 점에서 기울기를 계산해서, cost를 최소화 하는 방향으로 업데이트(W = W - learning_rate*기울기)를 해나감
    * 기울기 : cost를 W로 미분한 값 
    * learning rate : 얼마 만큼 변화를 크게 / 작게 업데이트 할지 
    * 기울기가 음수이거나 양수이거나 상관 없이 적용이 가능(음수인 경우에도 빼주면 더해지기 때문에 0에 수렴)
4. 최소점에 도달 할때 까지 반복 : 기울기가 더 이상 줄어 들지 않는 점, 0에 가까워 질수록 cost가 최소값을 가짐

### 특징
* local minimum과 global minimum이 일치하는 경우에만 사용 가능 



In [2]:
import numpy as np
import tensorflow as tf

In [6]:
# cost function을 python으로 구현 

import numpy as np

X = np.array([1,2,3])
Y = np.array([1,2,3])

# cost 계산 함수 : (WX -Y)^2 를 모두 합해서 평균을 낸 값 
def cost_func(W, X, Y) : # python으로 계산 할 때는 각 array의 값을 꺼내서 계산해야함 
    c = 0
    for i in range(len(X)) :
        c += (W * X[i] - Y[i]) ** 2
    return c / len(X)

for feed_W in np.linspace(-3, 5, num=15) :  # linspace : -3~5까지 15개 구간으로 나눈 배열 생성
    curr_cost = cost_func(feed_W, X, Y)
    print("{:6.3f}|{:10.5f}".format(feed_W, curr_cost))


-3.000|  74.66667
-2.429|  54.85714
-1.857|  38.09524
-1.286|  24.38095
-0.714|  13.71429
-0.143|   6.09524
 0.429|   1.52381
 1.000|   0.00000
 1.571|   1.52381
 2.143|   6.09524
 2.714|  13.71429
 3.286|  24.38095
 3.857|  38.09524
 4.429|  54.85714
 5.000|  74.66667


In [5]:
np.linspace(-3,5,15)

array([-3.        , -2.42857143, -1.85714286, -1.28571429, -0.71428571,
       -0.14285714,  0.42857143,  1.        ,  1.57142857,  2.14285714,
        2.71428571,  3.28571429,  3.85714286,  4.42857143,  5.        ])

In [7]:
# tensorflow 로 구현 

X = np.array([1, 2, 3])
Y = np.array([1, 2, 3])

# tensorflow로는 배열간 연산을 한번에 쉽게 할 수 있다. 

def cost_func(W, X, Y) : 
    hypothesis = X * W
    return tf.reduce_mean(tf.square(hypothesis - Y))

W_values = np.linspace(-3,5, num=15)
cost_values = []

for feed_W in W_values :
    curr_cost = cost_func(feed_W, X, Y)
    cost_values.append(curr_cost)
    print("{:6.3f}|{:10.5f}".format(feed_W, curr_cost))

-3.000|  74.66667
-2.429|  54.85714
-1.857|  38.09524
-1.286|  24.38095
-0.714|  13.71429
-0.143|   6.09524
 0.429|   1.52381
 1.000|   0.00000
 1.571|   1.52381
 2.143|   6.09524
 2.714|  13.71429
 3.286|  24.38095
 3.857|  38.09524
 4.429|  54.85714
 5.000|  74.66667


In [56]:
W = tf.Variable(tf.random.normal([1], -100., 100.))
W

<tf.Variable 'Variable:0' shape=(1,) dtype=float32, numpy=array([6.688019], dtype=float32)>

In [57]:
# Gradient descent with tensorflow
tf.random.set_seed(0)  # random seed 초기화 

X = [1., 2., 3., 4.]
Y = [1., 3., 5., 7.]

W = tf.Variable(tf.random.normal([1], -100., 100.)) # 가중치 랜덤하게 초기화 : 어느값을 주어도 동일한 결과를 출력 

for step in range(300) :
    hypothesis = W * X
    cost = tf.reduce_mean(tf.square(hypothesis - Y))

    alpha = 0.01
    gradient = tf.reduce_mean(tf.multiply(tf.multiply(W, X) - Y, X))
    descent = W - tf.multiply(alpha, gradient)
    W.assign(descent) # 새로운 값을 W에 할당 

    if step % 10 == 0 :
        print('{:5}|{:10.4f}|{:10.6f}'.format(step, cost.numpy(), W.numpy()[0])) 
    

    0|18332.2188| 47.398293
   10| 3855.3564| 22.638384
   20|  810.9046| 11.283927
   30|  170.6631|  6.076973
   40|   36.0217|  3.689155
   50|    7.7069|  2.594144
   60|    1.7524|  2.091991
   70|    0.5001|  1.861713
   80|    0.2368|  1.756112
   90|    0.1814|  1.707684
  100|    0.1698|  1.685477
  110|    0.1673|  1.675292
  120|    0.1668|  1.670622
  130|    0.1667|  1.668481
  140|    0.1667|  1.667498
  150|    0.1667|  1.667048
  160|    0.1667|  1.666842
  170|    0.1667|  1.666747
  180|    0.1667|  1.666703
  190|    0.1667|  1.666684
  200|    0.1667|  1.666674
  210|    0.1667|  1.666670
  220|    0.1667|  1.666668
  230|    0.1667|  1.666667
  240|    0.1667|  1.666667
  250|    0.1667|  1.666667
  260|    0.1667|  1.666667
  270|    0.1667|  1.666667
  280|    0.1667|  1.666667
  290|    0.1667|  1.666667
