### 1. 최적화 기초

- 예측 문제의 최종 목표는 실제 출력값(target)과 가장 유사한 출력하는 모형을 찾는 것
- 즉, 예측 오차를 최소화 하는 예측 모형을 갖는 것이 목표이다.

$$ \hat{y} = g(x) = w_1 x_1 +  w_2 x_2 + \ldots +  w_N x_N  = w^T x $$

- 예측모형에서 우리가 결정할 수 있는건 $w_n$(모수, parameter)
- 모수 설정에 따라 오차가 클수도, 작을수도 있기 때문에 모수 설정이 매우 중요

$$\text{모수 } w  \;\; \xrightarrow{f} \;\; \text{예측 오차의 크기 } e^Te  $$

예측오차를 최소화하는 입력값을 찾는 문제를 최적화(Optimization)문제라 함

### 2. 최적화 문제

함수 $f$의 값을 최소화하는 변수 $x$의 값 $x^{\ast}$를 찾는 것

$$ x^{\ast} = \arg \min_x f(x) $$

- 최대화 문제는 $f(x)$를 $-f(x)$로 바꾸면 풀 수 있기에 보통 최소화만 고려
- 목적함수(objective function), 비용함수(cost function), 손실함수(loss function) 등으로 표현

### 3. 그리드 서치와 수치적 최적화

#### 1) 그리드 서치 (grid search)

- 가능한 $x$의 값을 여러 개 넣어보고 그 중 가장 작은 값을 선택하는 것
- 장점 : 최적화 문제를 푸는 가장 간단한 방법
- 단점 : 많은 $x$위치에 대해 목적 함수 값을 계산해야 함 (많은 계산량 요구) 

**2) 수치적 최적화 (numerical optimization)**

(1) 정의

- 함수 위치가 최적점이 될 때까지 가능한 적은 횟수만큼 $x$위치를 옮기는 방법

(2) 필요한 알고리즘

- 어떤 위치 $x_k$를 시도한 뒤, 다음 번에 시도할 위치 $x_{k+1}$을 찾는 알고리즘
- 현재 위치 $x_k$가 최적점인지 판단하는 알고리즘

(3) 알고리즘 아이디어

- 현재 위치가 최적점인지 찾는 방법은 도함수 값이 0이라는 아이디어를 이용
- 기울기가 0이라고 반드시 최소점이 되지는 않음
- 모든 최소점은 기울기가 0

### 4. SGD (Steepest Gradient Descent) 방법

현재 위치에서 기울기 값($g(x_k)$)만을 이용해 다음 시도할 위치를 찾아내는 방법

$$ x_{k+1} = x_{k} - \mu \nabla f(x_k) = x_{k} - \mu g(x_k)  $$

- 현재 위치에서 기울기가 음수(곡면이 아래로 향함)이면 앞으로 진행
- 현재 위치에서 기울기가 양수(곡면이 위로 향함)이면 뒤로 진행
- 현재 위치에서 기울기가 0이면 최적점으로 간주하고 옮기지 않음

### 5. SciPy를 이용한 최적화

1) 정의

- SciPy의 optimize 서브 패키지는 최적화 명령 minimize를 제공
- 디폴트 알고리즘은 BFGS방법
- minimize명령은 최적화하고자 하는 함수와 최적화를 시작할 초기값을 인수로 받음

2) minimize : 최적화 결과를 OptimizeResult 클래스 객체로 반환

<table class="table-bordered" style="width:80%">
  <tr>
    <td>**속성**</td>
    <td>**의미**</td>
  </tr>
  <tr>
    <td>x</td>
    <td>최적화 해</td>
  </tr>
  <tr>
    <td>success</td> 
    <td>최적화 성공하면 True 반환</td>
  </tr>
  <tr>
    <td>status</td> 
    <td>종료 상태. 최적화에 성공하면 0 반환</td>
  </tr>
  <tr>
    <td>message</td> 
    <td>메세지 문자열</td>
  </tr>
  <tr>
    <td>fun</td> 
    <td>x 위치에서의 함수 값</td>
  </tr>
  <tr>
    <td>jac</td> 
    <td>x 위치에서의 자코비안(그레디언트) 벡터의 값</td>
  </tr>
  <tr>
    <td>hess</td> 
    <td>x 위치에서의 헤시안 행렬의 값 </td>
  </tr>
    <tr>
    <td>nfev</td> 
    <td>목적함수 호출 횟수</td>
  </tr>
  <tr>
    <td>njev</td> 
    <td>자코비안 계산 횟수</td>
  </tr>
  <tr>
    <td>nhev</td> 
    <td>헤시안 계산 횟수</td>
  </tr>
  <tr>
    <td>nit</td> 
    <td>x 이동 횟수</td>
  </tr>
</table>