# Gradient Descent 최적화 구현

## Import modules

In [1]:
import numpy as np

## 손실 함수 정의 (Analytic)

In [2]:
def f(x):
    return 0.1*x**4 - 1.5*x**3 + 0.6*x**2 + 1.0*x + 20.0
    # 이런 손실 함수를 알고있다고 가정하고 Gradient Descent 최적화 구현 해보자

## 손실 함수 미분 정의

In [3]:
def df_dx(x):
    return 0.4*x**3 - 4.5*x**2 + 1.2*x + 1.0

## 하이퍼파라미터 정의

In [4]:
x = 5 # 초기값
eps = 1e-5 # gradient descent가 끝날 조건으로 입실론 정의 , 10의 -5승
lr = 0.01 # learning rate
max_epoch = 1000 # 1000번 돈다고 가정

## Gradient Descent 알고리즘 구현

In [6]:
# 손실 함수가 가장 작게되는 것을 얻으려는 것
min_x = x 
min_y = f(min_x)

for _ in range(max_epoch):
    # Gradient Descent의 정의 상 미분을 먼저 해야겠지
    grad = df_dx(x) # 현재 위치는 x니까
    new_x = x - lr * grad
    y = f(new_x)
    
    # 이동된 것이 현재까지 얻은 mininum보다 더 minimum인지 아닌지 
    if min_y > y: # update 해줘야겠지
        min_x = new_x
        min_y = y
    
    # 알고리즘을 종료해야할 때인지 아닌지 판단
    # x가 변화하는 변화량이 입실론보다 작으면 종료
    if np.abs(x - new_x) < eps:
        break
        
    x = new_x

In [7]:
print(min_x, min_y)

10.955323272631201 -428.84677390087836


In [None]:
# 한가지 확인해보자
# 하이퍼파라미터로 x=5로 해주었는데 손실 함수가 있을 때 x=5부터 시작해서 gradient descent 했을 때
# 가장 작게 나오는 것으로 추정된 것이 x=10.96, y=-428.85
# 처음 시작한 x=5랑 가깝지
# 시작위치가 달랐다고 해보자 -> x=-5

## x = -5

In [8]:
x = -5 # 초기값
eps = 1e-5 # gradient descent가 끝날 조건으로 입실론 정의 , 10의 -5승
lr = 0.01 # learning rate
max_epoch = 1000 # 1000번 돈다고 가정

In [9]:
# 손실 함수가 가장 작게되는 것을 얻으려는 것
min_x = x 
min_y = f(min_x)

for _ in range(max_epoch):
    # Gradient Descent의 정의 상 미분을 먼저 해야겠지
    grad = df_dx(x) # 현재 위치는 x니까
    new_x = x - lr * grad
    y = f(new_x)
    
    # 이동된 것이 현재까지 얻은 mininum보다 더 minimum인지 아닌지 
    if min_y > y: # update 해줘야겠지
        min_x = new_x
        min_y = y
    
    # 알고리즘을 종료해야할 때인지 아닌지 판단
    # x가 변화하는 변화량이 입실론보다 작으면 종료
    if np.abs(x - new_x) < eps:
        break
        
    x = new_x

In [10]:
print(min_x, min_y)
# x=5때랑 전혀 다른 값이 나왔지

# 처음 강의에서 말했던, gradient descent로 구한 정답은
# local minimum인지 global minimum인지 장담할 수 없다고 했었던 그 의미

# 이걸 어떻게 해결할 수 있을 까는 우리가 배웠던 진보된 알고리즘들
# 특히 Adam이 사용될 것임
# Adam이나 RMSProb같은 주요 알고리즘은 tensorflow에 구현되어있기때문에 그것을 앞으로 활용할 것임

-0.35277896788817237 19.789298288581236
