# [AI Math] 03. Gradient Descent

---


## 미분

- 미분(differentiation)은 **변수의 움직임에 따른 함수값의 변화를 측정하기 위한 도구**로 최적화에서 제일 많이 사용하는 기법

- 미분은 변화율(기울기) 의 극한(limit)으로 정의
    - h 를 0 으로 보내면 (x, f(x))에서 접선의 기울기로 수렴한다.
    - $ f'(x) = \lim\limits_{h\to0}\dfrac{f(x+h)-f(x)}{h} $

- `sympy.diff` 를 가지고 미분 계산 가능


In [1]:
# sympy : symbolic python, 
# poly : polynomial(다항식)
# x에 대해서 미분

import sympy as sym
from sympy.abc import x

 # Poly(2*x + 2, x, domain='ZZ')
sym.diff(sym.poly(x**2 + 2*x + 3), x) 

Poly(2*x + 2, x, domain='ZZ')

---

## 접선의 기울기 f'(x)

- 미분은 함수 f 의 **주어진 점 (x, f(x)) 에서의, 접선의 기울기**를 구한다.
    -  미분을 계산하려면 함수의 모양이 매끄러워야(연속) 한다.

- 한 점에서 접선의 기울기를 알면, 어느 방향으로 점을 움직여야 함수값이 증가하는지 / 감소하는지 알 수 있습니다.

    1) 함수를 증가 시키고 싶으면, 미분값 f'(x) 을 (양수, 음수 상관없이) 더하면 됩니다.
        - 목적함수를 최대화 한다.
        - 미분값 f'(x) 을 더하면, 경사상승법(gradient ascent)이라 하며, 
        - 함수의 극대값의 위치를 구할 때 사용한다.

    2) 함수를 감소 시키고 싶으면, 미분값 f'(x) 을 (양수, 음수 상관없이) 빼면 됩니다.  
        - 목적함수를 최소화 한다.
        - 미분값 f'(x) 을 빼면, 경사하강법(gradient descent)이라 하며, 
        - 함수의 극소값의 위치를 구할 때 사용한다.


- 극값에선 미분값이 0, f'(x) == 0 이므로, 미분값을 더하거나 빼주는 경사상승 / 경사하강 방법이 더 이상 연산(업데이트)이 안되므로, 목적함수 최적화가 자동으로 종료합니다.

---

## 경사 하강법 (Gradient Descent) 알고리즘 

- gradient: 미분을 계산하는 함수
- init: 시작점
- lr: 학습률
    - 업데이트하는 속도를 조절 
- eps: 알고리즘 종료조건 : 
    - 경사하강법은 의 종료조건 : 미분값 f'(x) == 0 이 되면 종료, 
    - 컴퓨터로 계산할 때 미분이 정확히 0이 되는 것은 불가능하므로, eps(알고리즘 종료조건) 보다 작을 때, 종료하는 조건이 필요하다.


In [None]:
# 변수가 하나인 경우 
# ex) x^2 + 2x + 3
# gradient: 미분을 계산하는 함수

var = init

grad = gradient(var)

# 1-1) 컴퓨터로 계산할 때 미분이 정확히 0이 되는 것은 불가능하므로,eps(알고리즘 종료조건) 보다 작을 때, 종료하는 조건이 필요하다.

# 1-4) 미분값의 절대값이, eps 보다 더 작아지면 종료
while(abs(grad) > eps):
    
    # 1-2) 경사 하강법, f'(x) 를 빼는 과정, `x − λf′(x)` 을 계산하는 부분. 
    # lr은 학습률로서, 업데이트하는 속도를 조절
    var = var - (lr * grad)
    
    # 1-3) 종료조건이 성립하기 전까지, 미분값을 계속 업데이트 > result 극소값을 찾게해줌
    grad = gradient(var)

---

## 경사 하강법 알고리즘 - 변수가 하나인 경우


In [13]:
# 초기 변수 설정
var = 0.0  # 초기 변수 값
lr = 1e-2  # 학습률 (learning rate)
eps = 1e-5  # 알고리즘 종료 조건: 미분값이 이 값보다 작을 때 종료

# 함수 정의
def func(x):
    return x**2 + 2*x + 3

# 함수의 미분 계산하는 함수
def gradient(x):
    return 2 * x + 2

# 초기 미분값 계산
grad = gradient(var)

# 경사 하강법을 사용하여 최소점을 찾음
iteration = 0
while abs(grad) > eps:
    # 경사 하강법 업데이트
    var = var - lr * grad
    
    # 미분값 업데이트
    grad = gradient(var)
    
    iteration += 1

# 최소점과 최소값 출력
min_x = var
min_value = func(var)
print(f"최소점 x = {min_x}")
print(f"최소값 y = f(x) = {min_value}")
print(f"연산 횟수: {iteration}")


최소점 x = -0.9999950821441591
최소값 y = f(x) = 2.000000000024185
연산 횟수: 605


---

## 편미분(partial differentiation)

- 미분(differentiation)은 **변수의 움직임에 따른, 함수값의 변화 (변화율) 를 측정 하기 위한 도구**로 최적화에서 제일 많이 사용하는 기법입니다.

- 입력(변수)가 벡터와 같이 다변수(n차원)의 경우, 편미분(partial differentiation)을 사용, (미분 사용 x)

    - 특정 방향의 좌표축으로 이동하는 것으로 처리, 한 차원 기준으로만 처리 x, x방향 움직임만 분석 처리

    - $\partial_{xi}f(x) = \lim\limits_{h\to0}\dfrac{f(x+he_{i})-f(x)}{h} $
    
    - $e_{i}$ 는 i 번째 값만 1이고, 나머지는 0인 단위 벡터
        - x의 i번째 항에만 영향을 주고, 나머지는 영향 x
    
    - i번째 방향에서의 변화율만 계산 가능!


- d차원 각 변수 별(x,y,z ..d)로 편미분을 계산한 그레디언트(gradient) 벡터를 이용하여, 다변수 입력 처리, 경사하강 / 경사상승법에 사용할 수 있다.


- 앞서 사용한 미분값인 $f′(x)$ 대신 벡터 $\nabla f$ (nabla)를 사용하여, 변수 x = (x1, ..., xd) 를 동시에 업데이트 가능합니다.

    - $\nabla f = (\partial_{x1}f, \partial_{x2}f, ..., \partial_{xd}f)$


In [None]:
# 편미분 계산

import sympy as sym

from sympy.abc import x, y

sym.diff(sym.poly(x**2 + 2*x*y + 3) + sym.cos(x + 2*y), x)



---

## 그레디언트 벡터(gradient vector)

- 그레디언트(gradient) 벡터 : d차원 각 독립 변수 별(x,y,z ..d)로 편미분을 계산을 한 d개 만큼의 벡터 를 다시 벡터로 표현

    - $\nabla f = (\partial_{x1}f, \partial_{x2}f, ..., \partial_{xd}f)$
    
    - 미분값 f′(x) 대신, 그레디언트 벡터 $\nabla f$ (nabla)를 사용하여, d차원 공간에서 벡터에 적용되는 경사하강법 계산 가능 
    
    - 변수 x = (x1, ..., xd) 를 동시에 업데이트 가능합니다.



---


## 그레디언트 벡터(gradient vector) 이해 

- 각 점 (x, y, z) 공간에서 함수 f(x, y) 표면을 따라 −∇f (그레디언트)벡터 를 등고선(contour) 해석

    - $f (x, y) = x^2 + 2y^2$

    - $\nabla f =(2x,4y)$
        - ∇f(x,y) : 각점(x,y)에서, 가장 빨리 증가하는 방향으로 흐르게 된다.
        - 최대점 을 향하게 함

    - $-\nabla f =-(2x,4y)$
        - ∇f = ∇(−f) :각 점(x,y)에서 가장 빨리 감소하게 되는 방향과 같다.
        - 최소점 을 향하게 함

- 결론: 변수가 벡터인 경우, 편미분을 통해서 구한 그래디언트 벡터를 통해 d-차원으로 경사하강법을 확장할 수 있다.

---

##  경사하강법 알고리즘 - 벡터, 다변수 

In [None]:
### 이전에는 미분값, 기울기를 이용, 기울기의 절대값을 이용해서 종료조건을 설정

# gradient: 그레디언트 벡터를 계산하는 함수

var = init
grad = gradient(var)

# 1-1) grad = 그레디언트는 벡터이므로, 절댓값 계산 x, 벡터의 노름(norm)을 계산해서 종료조건을 설정
while(norm(grad) > eps):
    
    # 1-2) `x − λf′(x)` 을 계산하는 부분. lr(학습률)은 학습률로서, 미분을 통해 업데이트하는 속도를 조절한다.
    var = var - (lr * grad)
    
    # 1-3) 종료조건이 성립하기 전까지 
     grad = gradient(var)

---

### 선형 회귀의 목적 함수 - $‖y - X\beta‖_2$


- 목적 함수의 목표는 회귀 모델의 가중치 벡터 $\beta$를 최적화하여, 모델이 주어진 입력 데이터 $X$에 대해 관측된 종속 변수 $y$를 최대한 잘 예측하도록 하는 것입니다.

- 식 $‖y - X\beta‖_2^2$은 최소 제곱법(Least Squares)의 목적 함수로, 이것을 최소화하는 $\beta$를 찾음으로써, 모델이 데이터에 가장 적합한 가중치를 학습합니다. 

    - 이렇게 학습된 가중치를 사용하여 모델은 새로운 입력 데이터에 대한 예측을 수행할 수 있습니다.
    - 선형 회귀에서 목적 함수는 회귀 모델의 학습 및 평가에서 중요한 역할을 합니다. 

- 가중치 $\beta$를 최적화하여 목적 함수를 최소화하면 모델의 성능이 향상되며, 이것이 일반적인 회귀 문제를 해결하는 과정 중 하나입니다.


---

##  경사하강법 을 이용한 선형 회귀 분석 - 1

- 경사하강법(Gradient Descent)으로 선형회귀 계수 구하기 : 목적식을 최소화하는 β 를 구하는 경사하강법 알고리즘
    
    - 선형모델의 경우 위와 같이 무어 펠로즈 역행렬 을 이용해서 회귀분석이 가능하지만, 비선형 모델인 경우도 있으므로,경사하강법을 이용해 적절한 선형모델(회귀계수를 계산)을 찾아보자.

- 선형회귀의 목적식은 $∥y − Xβ∥_{2}$ 이고, 이를 최소화하는 $β$ 를 찾아야 하므로, 각 벡터 들에 대해 $β$ 에 대한 편미분, 즉 다음과 같은 그레디언트 벡터를 구해야 한다.



- $\nabla_{\beta}∥y − Xβ∥_{2} = (\partial_{\beta1}∥y − Xβ∥_{2},,..., \partial_{\beta d}∥y − Xβ∥_{2})$
    
- $∥y − Xβ∥_{2} 가 아닌 ∥y − Xβ∥_{2}^{2}$ 를 최소화 해도 된다.
    - 제곱에서 최소화 하나, 그냥 최소화 하나 같다고 할 수 있음


- 목적식을 최소화 하는 B를 구하는 경사하강법 알고리즘

![image.png](attachment:image.png)

---

## 경사하강법을 이용한 선형 회귀 분석 - 2

- 경사하강법 기반 선형회귀 알고리즘 에선 lr(학습률)과 T(학습횟수)가 중요한 hyperparameter 가 된다.

- 이론적으로 경사하강법은 미분가능하고 볼록(convex)한 함수에 대해선 **적절한 학습률과 학습횟수를 선택했을 때, 수렴이 보장**되어 있습니다.
    
    - 특히 선형회귀의 경우, $목적식 ∥y − Xβ∥_{2}$ 은 회귀계수 β 에 대해 볼록 함수이기 때문에, 적절한 lr(학습률)과 T(학습횟수)를 고려하여 알고리즘을 충분히 돌리면 수렴이 보장됩니다.
     
 - 하지만 비선형회귀 문제의 경우, 목적식이 볼록하지 않을 수 있으므로(볼록성 보장 x), 수렴이 항상 보장되지는 않습니다.
    
    - 특히 딥러닝을 사용하는 경우 목적식은 대부분 볼록함수가 아닙니다.

- 볼록한 함수는 그레디언트 벡터가 항상 최소점을 향한다.
    - 볼록한 함수는 모든 극소점극소점(local minimum)이 동시에 전역 최소점(global minimum)입니다. 
    - 이것은 볼록 함수의 중요한 특징 중 하나이며, 다른 어떤 지역 최소점(local minimum)도 없습니다.
 
- 따라서 볼록이 아닌(non-convex) 목적식은 확률적 경사하강법(SGD)를 통해 최적화할 수 있습니다.


In [None]:
# 베타 업데이트 

for t in range(T):
    error = y - X @ beta
    
    grad = -transpose(X) @ error
    
    beta = beta - lr * grad

---

## 확률적 경사하강법(Stochastic Gradient Descent)

    

- 확률적 경사하강법(stochastic gradient descent)은 모든 데이터를 사용해서 업데이트하는 대신 ***데이터 한개 또는 일부만을 활용*** 하여 업데이트하기 때문에, 연산자원 을 좀 더 효율적으로 활용합니다.

- 볼록이 아닌(non-convex) 목적식은 SGD를 통해 최적화할 수 있습니다.
    - SGD 라고 해서 만능은 아니지만 딥러닝의 경우, SGD 가 경사하강법보다 실증적으로 더 낫다고 검증되었다.

- SGD 는 데이터의 일부를 가지고 패러미터를 업데이트하기 때문에, 연산자원 을 좀 더 효율적으로 활용하는데 도움이 됩니다
    
    - 전체 데이터 $(X, y)$ 를 쓰지 않고 미니배치 $(X_{b}, y_{b})$ 를 써서 업데이트 하므로 연산량이 $b/n$ 로 감소합니다.
    - 경사하강법을 이용한 그레디언트 벡터랑 완전히 같지는 않지만, 확률적으로 기댓값 관점으로 유사하게 사용할 수 있다.
    
    - 연산량 --
   
   

---

### 확률적 경사하강법의 원리: 미니배치 연산

- 경사하강법은 전체데이터 𝒟 = (X, y) 를 가지고, 목적식의 그레디언트 벡터 인 $∇_{θ}L(𝒟,θ)$를 계산합니다.
    - 이때 $L(𝒟, θ)$ 은 전체데이터 𝒟 와 패러미터 θ 로 측정한 목적식
    
    
    
    
- 확률적 경사하강법(SGD)는 미니배치 $𝒟_{b} = (X_{b} , y_{b} ) ⊂ 𝒟$ 를 (전체 데이터의 일부 만)가지고, 그레디언트 벡터를 계산합니다.
    
    - 미니배치 $𝒟_{b}$ 를 가지고 목적식 의 그레디언트를 근사해서 계산
    
    - 매번 다른 미니배치를 사용하기 때문에, 목적식 모양(곡선 모양)이 바뀌게 된다.
    
    - 극소점 탈출
    
- 확률적 경사하강법(SGD)는 볼록이 아닌 목적식에서도 사용 가능하므로. 경사하강법보다 머신러닝 학습에 더 효율적입니다.


- 확률적 경사하강법 알고리즘은 학습률, 학습횟수, 미니배치 사이즈 까지 고려해야 합니다.

---

### 확률적 경사하강법의 원리: 하드웨어

- 만일 일반적인 경사 하강법처럼 모든 데이터를 업로드하면, 메모리가 부족하여 Out-of-memory 가 발생 할 수도 있음. (경사 하강법의 한계)
    - 그러므로, 데이터의 일부만 사용하는 확률적 경사하강법(SGD)가 메모리 적으로 조금더 이득
    

---

## Gradient Descent Methods

- Gradient Descent Methods는 기계 학습 모델을 훈련시키는 데 사용되는 최적화 알고리즘입니다. 

- 각 알고리즘은 경사 하강법(Gradient Descent)을 기반으로 하며, 모델의 가중치를 업데이트하여 손실 함수를 최소화하는 방향으로 모델을 학습합니다. 
- 이러한 Gradient Descent Methods 중에서 선택할 때는 데이터와 모델의 특성에 따라 적절한 알고리즘을 고려해야 합니다. 모든 알고리즘이 각자의 장단점을 가지고 있으며, 문제에 따라 다른 알고리즘이 더 효과적일 수 있습니다.

### Stochastic Gradient Descent (SGD) 확률적 경사 하상법
   - 데이터중 하나 혹은 일부만을 선택

   - 데이터 중 하나의 샘플을 선택하여 경사 하강법을 적용하는 방법입니다.
   
   - 매 스텝마다 무작위로 선택된 데이터로 가중치를 업데이트하므로, 빠르게 수렴하고 노이즈가 있는 데이터에서 효과적입니다.

### Momentum

   - 이전 그래디언트(기울기)의 평균을 고려하여 가중치를 업데이트하는 방법입니다.
   
   - 모멘텀을 사용하면 경사 하강법의 진동을 줄이고 빠른 수렴을 도모합니다.

### Nesterov Accelerated Gradient (NAG)

   - 모멘텀과 유사하지만, 모멘텀을 이용한 업데이트가 현재 위치가 아니라 미래 위치를 고려하여 이루어집니다.
   
   - 이로 인해 더 정확한 업데이트가 가능하며 수렴 속도가 향상됩니다.

## Adagrad

   - 각 파라미터마다 독립적인 학습률(learning rate)을 사용하는 방법입니다.
   - 자주 업데이트되는 파라미터는 학습률이 감소하고, 드물게 업데이트되는 파라미터는 학습률이 증가합니다.

### Adadelta

   - Adagrad의 변형으로, 학습률이 시간에 따라 적응적으로 조절됩니다.
   - 과거 그래디언트 정보를 사용하여 학습률을 업데이트하므로 수렴 속도가 향상됩니다.

### RMSprop

   - Adagrad와 유사하지만, 과거 그래디언트의 제곱값을 이동 평균으로 사용하여 학습률을 적응적으로 조절합니다.
   - 불필요한 학습률 감소를 방지하고, 수렴을 개선합니다.

### Adam (Adaptive Moment Estimation)
   
   - 모멘텀과 RMSprop을 결합한 방법으로, 이동 평균된 그래디언트와 제곱 그래디언트 값을 사용하여 학습률을 조절합니다.
   - 그래디언트(기울기)를 기반으로 모델의 가중치를 업데이트
   
   - 많은 경우에 빠른 수렴과 좋은 성능을 보여줍니다.
   
   - Adam은 각 파라미터(가중치)에 대해 적응적인 학습률을 사용합니다. 
       - 즉, 각 파라미터에 대해 서로 다른 학습률을 적용할 수 있습니다.

---
