# 비선형 최적화(nonlinear optimization)란?

비선형으로 되어있는 함수 f(x)를 최소화 또는 최적화하는 파라미터 x를 찾는 것.

### 호칭
- f(x)의 값은 일반적으로 1차원의 실수(R^1)로 표현되며, 목적함수(objective function) 또는 비용함수(cost function)이라고 불린다.
- 모든 x에 대해서 ```f(x') <= f(x)```를 만족하는 x'를 찾는 일이다. 보통 x'를 전역 최소자(global minimizer)라고 부른다.

### 방법론
- 최소자를 찾는 방법으로 가장 많이 사용하는 방법은 처음 시점 x0를 정하고, 그 다음 스텝에서 f(x1) <= f(x0)를 만족하는 x1을 찾는 방법
  이다. 이 방법들은 현재 있는 점에서 하강 방향을 결정하고 어느 정도 내려갈지를 선택해서 그 다음 점을 결정한다.
  다시 같은 반복적인 방법(iterative method)으로 우리가 원하는 조건에 맞을 때까지 위의 일을 수행한다.
- 방법의 핵심은 먼저 하강 방향(descent direction)을 정하고, 내려가는 크기 (step size)를 정해서 내려가는 것이다.

### 주의할 점.
- 이러한 구조는 목적함수의 구조를 모르고 시행하는 방법이다. (convex함수 인지는 모름) 따라서 국소 최소자를 찾는 방법이다.
- 초기값을 어떻게 취하느냐에 따라서 다른 결과가 나올 수도 있다. 왜냐하면 목적함수가 항상 convex 함수는 아닐수도 있기 때문이다.(convex라면 반드시 전역최소자로 수렴가능)


### 종료조건

: 위의 반복은 다음과 같은 종료조건에 따라 멈추고, 최소자를 구한다.

1. 반복간에 파라미터의 변화가 너무 적은 경우
2. 반복간에 목적함수의 값의 변화가 너무 적은 경우
3. 반복간에 gradient(또는 자코비안의 원소 중에서 최대값)의 크기가 너무 작은 경우
4. 목적함수에 매우 0에 가까운경우(최소값이라는 뜻)
5. 반복횟수가 일정 이상일 경우


## Gradient descent

### 설명과 유도
- 최소자 x'를 초깃값 x0부터 시작해서 순차적으로 x1, x2,..를 찾아내는 방법
- 단위벡터 u에 대해서, q0(t) = x0 + t * u 라 하면 q0(t)는 x0를 지나고 방향이 u인 직선을 의미한다.
  phi0(t) = f(q0(t)) = f(x0 + t * u) 라고 하면, phi0(t) : R -> R인 함수가 된다. 이때, x0가 x1으로 바뀔때,
  f(x)값도 감소해야 하므로 phi0(t)의 미분은 0보다 작아야한다! (감소함수가 되어야하니까.)
- phi0(t)의 미분 = ▽f(x0) (내적) u = |▽f(x0)| * cos(theta)
  ※ theta는 미분의 방향과 파라미터의 변화 방향사이의 각도를 나타냄.
- 따라서 u = - ▽f(x0) / |▽f(x0)|가 phi0(t)를 낮추는 미분방향이 된다.
- 이제 x1의 값은 x0 - t * ▽f(x0) 중에서 f(x_0 - t * ▽f(x0)) 의 값이 최소가 되는 t를 구하면된다.


### 예제 코드 결론
- step size에 따라서 오히려 발산하는 경우도 존재.

In [11]:
### 예제 코드
import numpy as np

## f(x, y) = 4 * x^2 - 4 * x * y + 2 * y^2
init_xy = np.random.rand(2, 1)
noise = np.random.rand(1) * 1 / 10.0
iterations = 100
def f(xy):
    return 4 * xy[0, 0] ** 2 - 4 * xy[0, 0] * xy[1, 0] + 2 * xy[1, 0] ** 2

def gradient_f(xy):
    return np.array([[8*xy[0, 0] - 4 * xy[1, 0]], [-4 * xy[0, 0] + 4 * xy[1, 0]]])

updated_xy = init_xy
step_size = 0.1 # 최소로 만드는 t 대신에 작은 t를 사용함. 1을 사용할 경우 발산하는 문제가 있음. step size도 중요함.
for iter in range(iterations):
    updated_xy = updated_xy - gradient_f(updated_xy) * step_size
    print(updated_xy,", cost : ", f(updated_xy))


[[0.36120557]
 [0.61154324]] , cost :  0.3862768255838136
[[0.31685841]
 [0.51140817]] , cost :  0.27649772404043965
[[0.26793495]
 [0.43358827]] , cost :  0.19846031838818246
[[0.2270223 ]
 [0.36732694]] , cost :  0.14244903288102667
[[0.19233524]
 [0.31120508]] , cost :  0.10224576716491812
[[0.16294908]
 [0.26365714]] , cost :  0.07338903390613143
[[0.13805267]
 [0.22337392]] , cost :  0.05267651118495073
[[0.1169601 ]
 [0.18924542]] , cost :  0.03780966559891473
[[0.09909019]
 [0.16033129]] , cost :  0.027138676813322687
[[0.08395056]
 [0.13583485]] , cost :  0.019479351840634065
[[0.07112405]
 [0.11508113]] , cost :  0.013981711442355216
[[0.06025726]
 [0.0974983 ]] , cost :  0.010035665275550738
[[0.05105077]
 [0.08260189]] , cost :  0.007203308260088763
[[0.04325091]
 [0.06998144]] , cost :  0.005170324882823029
[[0.03664276]
 [0.05928923]] , cost :  0.003711108622416439
[[0.03104424]
 [0.05023064]] , cost :  0.0026637256883273192
[[0.0263011 ]
 [0.04255608]] , cost :  0.0019119

## Newton method

### 설명과 유도
- 일반적인 테일러 급수의 2차 까지 표현방법은 아래와 같이 h가 작다면 근사적으로 성립한다.  
  f(x + h) = f(x) + ▽f(x) * h + 0.5 * h^T * Hf(x) * h  
  ※ 여기서 hf(x)는 f(x)에 대한 헤세 행렬  

- 고정된 x에 대해서 위의 식은 다음과 같이 h에 대한 식으로 나타낼 수 있다.  
  L(h) = f(x) + ▽f(x)h + 0.5 * h^T Hf(x) h  
  즉, L(h)의 최소값이 되는 최소자 h를 구하는 것이 x에서 x + h로 이동하는 단계가 된다. 
- L'(h) = ▽f(x) + Hf(x) * h = 0 에서, Hf(x)가 양의 확정 행렬이면( = h^T Hf(x) h > 0), L'(h) = 0을 만족시키는  
   h_n = - Hf(x)^-1 * ▽f(x)가 파라미터 x의 변화량이다. 



In [13]:
import numpy as np

# 위의 예제를 다시 사용한다.
def Hessian_f(xy):
    return np.array([[8, -4],[-4, 4]])

updated_xy = init_xy
step_size = 0.1 # 최소로 만드는 t 대신에 작은 t를 사용함. 1을 사용할 경우 발산하는 문제가 있음. step size도 중요함.
for iter in range(iterations):
    h = -1.0 * np.linalg.inv(Hessian_f(updated_xy)) @ gradient_f(updated_xy)
    updated_xy = updated_xy + h
    print(updated_xy,", cost : ", f(updated_xy))


[[-0.14300926 -0.14300926]
 [ 0.6973488   0.84035806]] , cost :  1.453306637084034
[[ 0.84035806  0.84035806]
 [-0.14300926 -0.84035806]] , cost :  3.346425923810787
[[-0.98336732 -0.98336732]
 [ 0.84035806  1.12637659]] , cost :  8.585971134348329
[[ 1.82372538  1.82372538]
 [-0.98336732 -2.52107418]] , cost :  22.411487479234196
[[-2.80709271 -2.80709271]
 [ 1.82372538  3.09311123]] , cost :  58.64849130335426
[[ 4.63081809  4.63081809]
 [-2.80709271 -6.16852495]] , cost :  153.53398643082858
[[-7.4379108  -7.4379108 ]
 [ 4.63081809  8.70729665]] , cost :  401.95346798913147
[[ 12.06872889  12.06872889]
 [ -7.4379108  -15.43016113]] , cost :  1052.3264175365657
[[-19.50663969 -19.50663969]
 [ 12.06872889  23.58311824]] , cost :  2755.025784620566
[[ 31.57536857  31.57536857]
 [-19.50663969 -39.5676189 ]] , cost :  7212.750936325132
[[-51.08200826 -51.08200826]
 [ 31.57536857  62.59639761]] , cost :  18883.227024354837
[[  82.65737683   82.65737683]
 [ -51.08200826 -102.71835605]] , c