## Optimization
- 예측(prediction)에서 최종 목표는 실제 출력값, 즉 타겟(target)과 가장 approximate한 값을 출력하는 model을 찾는 것이다.(ex) 가중치 벡터(w) 결정)

우리가 결정할 수 있는 것은 parameter 즉, 모수인데 이 모수를 입력으로 받으면서 실제 출력값과 model 상에서의 출력값의 차이값인 e(error)를 제곱합한 값(np.dot(e.T,e))을 출력하는 model을 생성 이 출력값의 min값을 찾는 과정을 `Optimization`이라고 한다.

### 최적화 문제
- 함수 f 의 값을 최소화하는 변수 x^를 찾는 것입니다.
- x^=argmin_x f(x)-- f(x)를 최소화하게 하는 변수 x의 값 x^
- f(x)는 objective function(J), Loss function(L), Cost function(C)라 일컫습니다!

#### 그리드 서치(grid search)와 수치적 최적화(numerical optimization)
- 그리드 서치는 그냥 고등학생때 하던거라고 생각하시면 됩니다!! 하나씩 해보는 가장 간단한 방법입니다!! 굉장히 간단하지만~!, 굉장히 오래 걸려서 그냥 이런게 있구나~정도입니다!

- 수치적 최적화는 `반복적 시행 착오`(trial or error)에 의해 `최적화 필요조건`을 만족하는 값을 찾는 것입니다.
    - 현재 위치가 최적점인가?
    - 현재 위치를 시도, 판단 후, 그 다음 시도할 위치는 어디인가?

### 기울기 필요 조건
- 왜 필요조건이라고 하는지는 뒤에서 얘기하겠습니다!
- gradient(f(x))=0 -- 사실상 우리가 알고 있는 미분에 따른 기울기가 0인 포인트 x와 같은 맥락입니다. 
- 여기서 max point인가 min point인가를 알 수 있으려면?
    - gradient(f(x),x)=0 , grandient(f(x),x,x)>0 -- min
    - gradient(f(x),x)=0 , grandient(f(x),x,x)<0 -- max

## SGD(Steepest Gradient Descent) Method

아래의 식과 같이 현재 위치에서 gradient값을 이용해서 다음에 시도할 위치를 알아내는 방법입니다~!!

X_k+1=X_k + M * gradient(f(X_k))=X_k+ M * gradient(X_k)

`M` 는 스텝 사이즈로써 User가 상황에 맞춰서 지정해주어야 합니다~!!

### 한번 해보자!
- Scipy를 이용한 최적화
    - Scipy의 optimize 서브 패키지에 optimize 명령어를 사용한다.
    - Method는 인수로 설정하지 않으면, default 값으로 `BFGS` 방법이 된다.
- x: 최적화 해
- success: 최적화에 성공하면 True를 반환
- status: 종료 상태. 최적화에 성공하면 0을 반환
- message: 메세지 문자열
- fun: x 위치에서의 함수의 값
- jac: x 위치에서의 자코비안(그레디언트) 벡터의 값
- hess: x 위치에서의 헤시안 행렬의 값
- nfev: 목적함수 호출 횟수
- njev: 자코비안 계산 횟수
- nhev: 헤시안 계산 횟수
- nit: x 이동 횟수

In [1]:
# Rosenburg function
def f2(x):
    return (1 - x[0])**2 + 100.0 * (x[1] - x[0]**2)**2

In [2]:
def f2p(x):
    """gradient of f2(x)"""
    x1_val= 400*x[0]**3 -400*x[0]*x[1] + 2*x[0] -2
    x2_val= -200*x[0]**2 + 200*x[1]
    return np.array([x1_val,x2_val])

Optimization이 잘 안되는 경우가 있는데 solution은 2 가지가 있다.(절대적이지 않다.)
- 초기점 변경
- gradient 할당

In [3]:
a = (-3,-3)
result = sp.optimize.minimize(f2, a)
print(result)

      fun: 2.1206175523975426e-11
 hess_inv: array([[0.49908004, 0.99785144],
       [0.99785144, 2.00005392]])
      jac: array([ 6.74865667e-06, -3.49484575e-06])
  message: 'Optimization terminated successfully.'
     nfev: 316
      nit: 63
     njev: 79
   status: 0
  success: True
        x: array([0.9999954 , 0.99999078])


In [4]:
a = (-2,2)
result = sp.optimize.minimize(f2, a, jac=f2p)
print(result)

      fun: 9.81729719189136e-14
 hess_inv: array([[0.48098005, 0.95985458],
       [0.95985458, 1.92027267]])
      jac: array([-8.75835558e-06,  4.59236327e-06])
  message: 'Optimization terminated successfully.'
     nfev: 42
      nit: 35
     njev: 42
   status: 0
  success: True
        x: array([1.00000021, 1.00000045])


### 2차 도함수를 사용한 방법
1차 도함수인 그레디언트 정보 뿐 아니라 2차 도함수인 헤시안 행렬 정보를 사용하여 계산하는 방법이 있다.
- CG(conjugated gradient)
- BFGS(Broyden-Fletcher-Goldfarb-Shanno)

In [5]:
a=(-2,2)
result=sp.optimize.minimize(f2,a,jac=f2p,method='CG')
print(result)

     fun: 6.177281807662137e-16
     jac: array([-7.45841833e-09, -2.11025224e-08])
 message: 'Optimization terminated successfully.'
    nfev: 79
     nit: 34
    njev: 79
  status: 0
 success: True
       x: array([0.99999998, 0.99999995])


In [6]:
a=(-2,2)
result=sp.optimize.minimize(f2,a,jac=f2p,method='BFGS')
print(result)

      fun: 9.81729719189136e-14
 hess_inv: array([[0.48098005, 0.95985458],
       [0.95985458, 1.92027267]])
      jac: array([-8.75835558e-06,  4.59236327e-06])
  message: 'Optimization terminated successfully.'
     nfev: 42
      nit: 35
     njev: 42
   status: 0
  success: True
        x: array([1.00000021, 1.00000045])


#### 전역 최적화 문제
- 아까 기울기 `필요` 조건이라고 언급한 적이 있다. 그 이유는 바로
- 우리가 찾은 gradient=0 이 convex한 locally min value(local minima)일수는 있지만, globally min value(global minimum)는 아닐 수 있기 때문이다. 초기값에 따라서 not-global min value를 구할 수 있다.