# 3. 경사하강법 (Gradient Descent)

## 3.1 미분 (differentiation)

### 3.1.1 미분이란?

- 변수의 움직임에 따른 함수값의 변화를 측정하기 위한 도구
- 최적화에서 제일 많이 사용하는 기법
- 기울기 = 변화율
- 미분은 변화율의 극한(limit)으로 정의한다. (미분 = 변화율의 극한)

$
\quad
f'(x) = \underset{h \rightarrow 0}{lim} \, \frac{f(x+h) - f(x)}{h}
$

- `sympy.diff` 를 가지고 미분을 컴퓨터로 계산할 수 있다.

In [None]:
import sympy as sym
from sympy.abc import x

sym.diff(sym.poly(x**2 + 2*x + 3), x)

Poly(2*x + 2, x, domain='ZZ')

<br>

### 3.1.2 그림을 통한 미분 이해

- 미분은 함수 $f$ 와 주어진 점 $(x, f(x))$ 에서의 **접선의 기울기**를 구한다.
- 미분을 계산하려면 함수의 모양이 매끄러워야(연속) 한다.

&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
<img src='https://drive.google.com/uc?id=17hGiiEWHNkKu2F-JnO-60BUx4qAt6kT3' width=500/>

- 아래 함수에서 $h$를 0으로 보내면 $(x, f(x))$ 에서 접선의 기울기로 수렴한다.

&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
<img src='https://drive.google.com/uc?id=1bYF5hDCJqHnNsHnZ63r91Bd1a5m53M0N' width=500/>

&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
<img src='https://drive.google.com/uc?id=1Ulx6YvYgo4r7OByiVwwJUOiIwWwMscQz' width=500/>

<br>

### 3.1.3 미분의 활용

- 한 점에서 접선의 기울기를 알면 어느 방향으로 점을 움직여야 함수값이 증가하는 지, 감소하는 지 알 수 있다.
  - 함수값을 증가시키고 싶다 : 미분값을 더함
  - 함수값을 감소시키고 싶다 : 미분값을 뺌

<br>

#### 3.1.3.1 함수값 증가 (경사 상승, gradient ascent)

- 미분값이 음수인 경우 $x + f'(x) < x$ 는 왼쪽으로 이동하여 함수값이 증가

&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
<img src='https://drive.google.com/uc?id=1WbqNetOOb1bRADiowTRsNbrOSVYKK46H' width=500/>

- 미분값이 양수인 경우 $x + f'(x) > x$ 는 오른쪽으로 이동하여 함수값이 증가

&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
<img src='https://drive.google.com/uc?id=171ERmBZ0iD9kiFDnWBQL6iAATqNlam4B' width=500/>

- **미분값을 더하면 경사상승법(gradient ascent)**이라 하며 함수의 **극대값**의 위치를 구할 때 사용한다.
- 목적함수를 **최대화**할 때 사용한다.
- 경사 상승 방법은 극값에 도달하면 움직임을 멈춘다.
  - 극값에선 미분값이 0 이므로 더 이상 업데이트가 안 된다.
  - 그러므로 목적함수 최적화가 자동으로 끝난다.

<br>

#### 3.1.3.2 함수값 감소 (경사 하강, gradient descent)

- 미분값이 음수인 경우 $x - f'(x) > x$ 는 오른쪽으로 이동하여 함수값이 감소

&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
<img src='https://drive.google.com/uc?id=1retvA2IoVjXpnsAq2Y_1JC6EyH7nK9fP' width=500/>

- 미분값이 양수인 경우 $x - f'(x) < x$ 는 왼쪽으로 이동하여 함수값이 감소

&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
<img src='https://drive.google.com/uc?id=1YoB_EMbEsfBobF7DzSbxOrCigX-LPiRu' width=500/>

- **미분값을 빼면 경사하강법(gradient descent)**이라 하며 함수의 **극소값**의 위치를 구할 때 사용한다.
- 목적함수를 **최소화**할 때 사용한다.
- 경사 하강 방법은 극값에 도달하면 움직임을 멈춘다.
  - 극값에선 미분값이 0 이므로 더 이상 업데이트가 안 된다.
  - 그러므로 목적함수 최적화가 자동으로 끝난다.

<br>

### 3.1.4 경사하강법: 알고리즘

```python
# Input: gradient(미분을 계산하는 함수), init(시작점), lr(학습률), eps(알고리즘 종료조건)
# Output: var

var = init
grad = gradient(var)
while (abs(grad) > eps): # 컴퓨터로 계산할 때 미분이 정확히 0이 되는 것은 불가능하므로 eps 보다 작을 때 종료하는 조건이 필요
    var = var - lr * grad # lr은 학습률로서 미분을 통해 업데이트하는 속도를 조절한다.
    grad = gradient(var)
```

<br>

### 3.1.5 경사하강법 알고리즘 예시

- 함수가 $f(x) = x^2 + 2x + 3$ 일 때 경사하강법으로 최소점을 찾는 코드

In [None]:
import sympy as sym
from sympy.abc import x
import numpy as np

def func(val):
    fun = sym.poly(x**2 + 2*x + 3)
    return fun.subs(x, val), fun

def func_gradient(fun, val):
    _, function = fun(val)
    diff = sym.diff(function, x)
    return diff.subs(x, val), diff

def gradient_descent(fun, init_point, lr_rate=1e-2, epsilon=1e-5):
    cnt=0
    val = init_point
    diff, _ = func_gradient(fun, init_point)
    while np.abs(diff) > epsilon:
        val = val - lr_rate * diff
        diff, _ = func_gradient(fun, val)
        cnt += 1

    print(f"함수: {fun(val)[1]}, 연산횟수: {cnt}, 최소점: ({val}, {fun(val)[0]})")

gradient_descent(fun=func, init_point=np.random.uniform(-2, 2))

함수: Poly(x**2 + 2*x + 3, x, domain='ZZ'), 연산횟수: 579, 최소점: (-0.999995040756980, 2.00000000002459)


<br>

## 3.2 벡터의 미분

- 미분(differentiation)은 변수의 움직임에 따른 함수값의 변화를 측정하기 위한 도구이다. (최적화에서 제일 많이 사용하는 기법)

<br>

### 3.2.1 변수가 벡터인 경우의 미분 (편미분)

- 벡터가 입력인 다변수 함수의 경우 **편미분(partial differentiation)**을 사용한다.

$
\qquad
\partial_{x_i} f(\mathbb{x}) = 
\underset{h \rightarrow 0}{lim} \, \frac{f(\mathbb{x}+h \mathbb{e}_i) - f(\mathbb{x})}{h}
$

- $\mathbb{e}_i$ : $i$ 번째 값만 1이고 나머지는 0인 단위 벡터
- $i$ 번째 방향에서만의 변화율을 구할 수 있다.

$
\quad
f(x, y) = x^2 + 2xy + 3 + cos(x + 2y)
$

$
\quad
\partial_x f(x, y) = 2x + 2y - sin(x + 2y)
$

In [None]:
import sympy as sym
from sympy.abc import x, y

sym.diff(sym.poly(x**2 + 2*x*y + 3) + sym.cos(x + 2*y), x)


Mixing Poly with non-polynomial expressions in binary operations has
been deprecated since SymPy 1.6. Use the as_expr or as_poly method to
convert types instead. See https://github.com/sympy/sympy/issues/18613
for more info.

  useinstead="the as_expr or as_poly method to convert types").warn()


2*x + 2*y - sin(x + 2*y)

<br>

- 각 변수별로 편미분을 계산한 **그레디언트(gradient) 벡터**를 이용하여 경사하강/경사상승법에 사용할 수 있다.

$
\qquad
\nabla f = \left( \partial_{x_1} f, \, \partial_{x_2} f, \, \cdots, \partial_{x_d} f \right) \quad \leftarrow \quad \text{gradient vector}
$

$
\qquad
\partial_{x_i} f(\mathbb{x}) = 
\underset{h \rightarrow 0}{lim} \, \frac{f(\mathbb{x}+h \mathbb{e}_i) - f(\mathbb{x})}{h}
$

- 앞서 사용한 미분값인 $f'(x)$ 대신 벡터 $\nabla f$를 사용하여 변수 $\mathbb{x} = (x_1, \dots, x_d)$ 를 동시에 업데이트 가능하다.

<br>

### 3.2.2 그레디언트 벡터

- 각 점 $(x, y, z)$ 공간에서 $f(x,y)$ 표면을 따라 $- \nabla f$ 벡터를 그리면 아래와 같이 $f(x,y)$ 의 극소점을 향하는 화살표들이 그려진다.

&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
<img src='https://drive.google.com/uc?id=1cTd5ox-B82fYhV0v-5hvn3-zSOWObRTh' width=600/>

- 그레디언트를 이해햐기 위해 함수 $f(x,y)$ 의 등고선(contour)을 그려 해석해보자.

&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
<img src='https://drive.google.com/uc?id=1LZAgP-tiqo4XddTyjQ49cacjKWy0EQlC' width=600/>

- 그레디언트 벡터 $\nabla f(x,y)$ 는 각 점 $(x,y)$ 에서 **가장 빨리 증가하는 방향**으로 흐르게 된다.

&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
<img src='https://drive.google.com/uc?id=15fKzK4-zBY8aD5WQTmGmZ8tQARMcUqjW' width=600/>

- $- \nabla f$ 는 $\nabla (-f)$ 와 같고, 이는 각 점에서 **가장 빨리 감소하게 되는 방향**과 같다.

&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
<img src='https://drive.google.com/uc?id=1ipPPUyuvi1tq2Fap01R1cTDt7w2qR5-5' width=600/>

<br>

### 3.2.3 경사하강법: 알고리즘

```python
# Input: gradient(그레디언트 벡터를 계산하는 함수), init(시작점), lr(학습률), eps(알고리즘 종료조건)
# Output: var

var = init
grad = gradient(var)
while (norm(grad) > eps): # 벡터는 절대값 대신 노름(norm)을 계산해서 종료조건을 설정한다.
    var = var - lr * grad
    grad = gradient(var)
```

<br>

## 3.3 경사하강법을 통한 선형회귀분석

### 3.3.1 선형회귀분석 복습

- `np.linalg.pinv` 를 이용하면 데이터를 선형 모델(linear model)로 해석하는 **선형회귀식**을 찾을 수 있다.
- 데이터의 개수($n$)가 변수의 개수($m$)보다 많거나 같아야 함
- 선형 모델은 무어펜로즈 역행렬을 이용하여 회귀분석이 가능하다.

- 이번에는 무어펜로즈 역행렬을 이용하지 않고 경사하강법을 이용해 적절한 선형 모델을 찾아보자.
  - 역행렬을 통해 선형회귀식을 구하는 것은 선형 모델일 때만 가능하다.
  - 비선형 모델에서도 선형회귀식을 찾을 수 있도록 경사하강법을 이용한다. (일반화)

<br>

### 3.3.2 경사하강법으로 선형회귀 계수 구하기

- 선형회귀의 목적식은 $|| \mathbf{y} - \mathbf{X} \beta ||_2$ 이고(L2노름) **이를 최소화하는 $\beta$**를 찾아야 하므로 다음과 같은 **그레디언트 벡터**를 구해야 한다.
  - 해당 목적식을 $\beta$ 로 미분
  - 주어진 벡터에서 미분값을 뺌

$
\qquad
\begin{align*}
\nabla_{\beta} || \mathbf{y} - \mathbf{X} \beta ||_2 &= 
\left(
\partial_{\beta_1} || \mathbf{y} - \mathbf{X} \beta ||_2 , \; \dots, \;
\partial_{\beta_d} || \mathbf{y} - \mathbf{X} \beta ||_2
\right)
\end{align*}
$

<br>

- $|| \mathbf{y} - \mathbf{X} \beta ||_2$ 가 아닌 $|| \mathbf{y} - \mathbf{X} \beta ||_2^2$ 를 최소화해도 된다.

- k번째 계수에 해당하는 $beta_k$ 를 가지고 목적식을 편미분하는 식은 아래와 같다.
- 여기서 사용되는 L2 노름은 n개의 데이터를 가지고 계산되는 L2 노름이다.
- i=1 부터 n까지 더한 값을 1/n 으로 나눠 평균을 구한 후 제곱근을 취해준다.

$
\qquad
\partial_{\beta_k} || \mathbf{y} - \mathbf{X} \beta ||_2 = 
\partial_{\beta_k}
\left\{
\frac{1}{n} \sum_{i=1}^{n} \left( y_i - \sum_{j=1}^d X_{ij} \beta_j \right)^2
\right\}^{1/2}
$

- 해당 식을 $\beta_k$ 에 대해 편미분 하면 다음과 같은 식이 된다.

$$
- \frac{\mathbf{X}_{\cdot k}^T \left( \mathbf{y} - \mathbf{X} \beta \right)}{n || \mathbf{y} - \mathbf{X} \beta ||_2}
$$

- $\mathbf{X}_{\cdot k}^T$ : 행렬 $\mathbf{X}$ 의 $k$ 번 째 열(column) 벡터를 전치시킨 것

- 위 방법을 통해 그레디언트 벡터를 다음과 같이 표현할 수 있다.

$$
\nabla_{\beta} || \mathbf{y} - \mathbf{X} \beta ||_2 = 
\left(
- \frac{\mathbf{X}_{\cdot 1}^T \left( \mathbf{y} - \mathbf{X} \beta \right)}{n || \mathbf{y} - \mathbf{X} \beta ||_2}
, \; \dots, \;
- \frac{\mathbf{X}_{\cdot d}^T \left( \mathbf{y} - \mathbf{X} \beta \right)}{n || \mathbf{y} - \mathbf{X} \beta ||_2}
\right)
$$

- 복잡한 계산이지만 사실 $\mathbf{X} \beta$ 를 계수 $\beta$ 에 대해 미분한 결과인 $\mathbf{X}^T$ 만 곱해지는 것이다.

$$
\nabla_{\beta} || \mathbf{y} - \mathbf{X} \beta ||_2 = 
- \frac{\mathbf{X}^T \left( \mathbf{y} - \mathbf{X} \beta \right)}{n || \mathbf{y} - \mathbf{X} \beta ||_2}
$$

- 이제 목적식을 최소화하는 $\beta$ 를 구하는 경사하강법 알고리즘은 다음과 같다.

$
\qquad
\begin{align*}
\beta^{(t+1)} &\; \leftarrow \;
\beta^{(t)} - \lambda \nabla_\beta || y - \mathbf{X} \beta^{(t)} || \\
&\; \leftarrow \;
\beta^{(t)} + \frac{\lambda}{n} \frac{\mathbf{X}^T \left( \mathbf{y} - \mathbf{X} \beta^{(t)} \right)}{|| \mathbf{y} - \mathbf{X} \beta^{(t)} ||}
\end{align*}
$

<br>

- $|| \mathbf{y} - \mathbf{X} \beta ||_2$ 대신 $|| \mathbf{y} - \mathbf{X} \beta ||_2^2$ 을 최소화하면 식이 좀 더 간단해진다.

$
\qquad
\begin{align*}
\nabla_{\beta} || \mathbf{y} - \mathbf{X} \beta ||_2^2 &= 
\left(
\partial_{\beta_1} || \mathbf{y} - \mathbf{X} \beta ||_2^2 , \; \dots, \;
\partial_{\beta_d} || \mathbf{y} - \mathbf{X} \beta ||_2^2
\right) \\ &=
- \frac{2}{n} \mathbf{X}^T (\mathbf{y} - \mathbf{X} \beta)
\end{align*}
$

<br>

$
\qquad
\beta^{(t+1)} \; \leftarrow \;
\beta^{(t)} + \frac{2 \lambda}{n} \mathbf{X}^T \left(\mathbf{y} - \mathbf{X} \beta^{(t)}\right)
$

<br>

### 3.3.3 경사하강법 기반 선형 회귀 알고리즘

- 종료조건을 일정 **학습횟수**로 변경한 점만 뺴고 앞에서 배운 경사하강법 일고리즘과 같다.

```python
# Input: X, y, lr(학습률), T(학습횟수)
# Output: beta
# norm : L2-노름을 계산하는 함수

for t in range(T):
    error = y - X @ beta
    grad = - transpose(X) @ error
    beta = beta - lr * grad
```

<br>

- 이제 경사하강법 알고리즘으로 역행렬을 이용하지 않고 회귀계수를 계산할 수 있다.

In [None]:
import numpy as np

X = np.array([[1, 1],
              [1, 2],
              [2, 2],
              [2, 3]])
y = np.dot(X, np.array([1, 2])) + 3

beta_gd = [10.1, 15.1, -6.5] # [1, 2, 3] 이 정답
X_ = np.array([np.append(x,[1]) for x in X]) # intercept 항 추가

for t in range(5000):
    error = y - X_ @ beta_gd
    #error = error / np.linalg.nrom(error)
    grad = -np.transpose(X_) @ error
    beta_gd = beta_gd - 0.01 * grad

print(beta_gd)

[1.00000367 1.99999949 2.99999516]


- 그러나 경사하강법 알고리즘에선 **학습률**과 **학습횟수**가 중요한 hyperparameter 가 된다.

In [None]:
# 학습 횟수를 작게한 경우
import numpy as np

X = np.array([[1, 1],
              [1, 2],
              [2, 2],
              [2, 3]])
y = np.dot(X, np.array([1, 2])) + 3

beta_gd = [10.1, 15.1, -6.5] # [1, 2, 3] 이 정답
X_ = np.array([np.append(x,[1]) for x in X]) # intercept 항 추가

for t in range(100): # 5000 -> 100
    error = y - X_ @ beta_gd
    #error = error / np.linalg.nrom(error)
    grad = -np.transpose(X_) @ error
    beta_gd = beta_gd - 0.01 * grad

print(beta_gd)

[ 3.41314549  4.63604548 -6.69249764]


<br>

## 3.4 경사하강법은 만능일까?

- 이론적으로 경사하강법은 미분가능하고 볼록(convex)한 함수에 대해선 **적절한 학습률과 학습횟수를 선택했을 때 수렴이 보장**되어 있다.
  - 볼록한 함수는 그레디언트 벡터가 항상 최소점을 향한다.
- 특히 선형회귀의 경우 목적식 $|| \mathbf{y} - \mathbf{X} \beta ||_2$ 은 **회귀계수 $\beta$ 에 대해 볼록함수**이기 때문에 알고리즘을 충분히 돌리면 수렴이 보장된다.
- 하지만 **비선형회귀** 문제의 경우 목적식이 볼록하지 않을 수 있으므로 **수렴이 항상 보장되지는 않는다.**
  - 특히 딥러닝을 사용하는 경우 목적식은 대부분 볼록함수가 아니다.
  - 그러므로 딥러닝에는 변형된 경사하강법을 사용한다.

<br>

## 3.5 확률적 경사하강법 (SGD, Stochastic Gradient Descent)

### 3.5.1 확률적 경사하강법이란?

- 확률적 경사하강법은 모든 데이터를 사용해서 업데이트하는 대신 **데이터 한 개 또는 일부를 활용**하여 업데이트한다.
  - 데이터 한개 : SGD
  - 데이터 일부 : mini-batch SGD
- 볼록이 아닌(non-convex) 목적식은 SGD를 통해 최적화할 수 있다.
- SGD 라고 해서 만능은 아니지만 딥러닝의 경우 **SGD가 경사하강법보다 실증적으로 더 낫다**고 검증되었다.


- SGD는 데이터의 일부를 가지고 파라미터를 업데이트하기 때문에 연산자원을 좀 더 효율적으로 활용하는 데 도움이 된다.
  - 전체 데이터 $(\mathbf{X}, \mathbf{y})$ 를 쓰지 않고 미니배치 $\left(\mathbf{X}_{(b)}, \mathbf{y}_{(b)}\right)$ 를 써서 업데이트하므로 연산량이 $b/n$ 로 감소한다.

<br>

### 3.5.2 확률적 경사하강법의 원리: 미니배치 연산

- 경사하강법은 전체 데이터 $\mathcal{D} = \left(\mathbf{X}, \mathbf{y} \right)$ 를 가지고 목적식의 그레디언트 벡터인 $\nabla_\theta L \left(\mathcal{D}, \theta \right)$ 를 계산한다.
  - $L \left(\mathcal{D}, \theta \right)$ : 전체 데이터 $\mathcal{D}$ 와 파라미터 $\theta$ 로 측정한 목적식

&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
<img src='https://drive.google.com/uc?id=1mAzOlTsX_aW2QRJHdvlEUHQyl8bVzBVj' width=500/>

<br>

- SGD는 미니배치 $\mathcal{D}_{(b)} =  \left(\mathbf{X}_{(b)}, \mathbf{y}_{(b)} \right) \subset \mathcal{D}$ 를 가지고 그레디언트 벡터를 계산한다.
  - 미니배치 $\mathcal{D}_{(b)}$ 를 가지고 목적식의 그레디언트를 근사해서 계산

&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
<img src='https://drive.google.com/uc?id=1d04gIo90ajL-dPuJcB6vnQwh4i6pdUzq' width=500/>

- 미니배치는 확률적으로 선택하므로 목적식 모양이 바뀌게 된다.
  - 매번 다른 미니배치를 사용하기 때문에 곡선 모양이 바뀌게 된다.

&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
<img src='https://drive.google.com/uc?id=1KXPWnnk8Go2OJP65pWivUqtSpWyIzVKV' width=500/>

- SGD는 볼록이 아닌 목적식에서도 사용 가능하므로 경사하강법보다 **머신러닝 학습에 더 효율적**이다.

&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
<img src='https://drive.google.com/uc?id=1jvS3z69zWWam3_zu2RCh00fSTx4FYhfj' width=600/>

<br>

### 3.5.3 확률적 경사하강법의 원리: 하드웨어

- 만일 일반적인 경사하강법처럼 모든 데이터를 업로드하면 메모리가 부족하여 Out-of-memory 가 발생한다.
- 미니배치로 쪼갠 데이터를 사용하면 GPU에서 행렬 연산과 모델 파라미터를 업데이트하는 동안 CPU는 전처리와 GPU에서 업로드할 데이터를 준비한다.