### 예제 1: 단변수 함수의 경사하강법 구현

**문제:**
함수  $f(x) = x^2 - 4x + 3$  의 최소값을 경사하강법으로 찾아보자.

**힌트:**

- 도함수  $f’(x) = 2x - 4$ 를 사용한다.
- 시작점, 학습률, 반복횟수를 설정한다.

In [5]:
import numpy as np

def f(x):
  return x**2 - 4*x +3

def grad_f(x):
  return 2**x -4

x = 0.0
lr = 0.1
for i in range(100):
  x -= lr*grad_f(x)
print(f"최소점 x: {x:.4f}, 최소값: {f(x):.4f}")

최소점 x: 2.0000, 최소값: -1.0000


### 예제 2: 학습률 변화에 따른 수렴 속도 비교

**문제:**
학습률을 0.01, 0.1, 0.5로 바꿔가며 반복 횟수 50에서  $x$ 의 값을 비교하라.

In [6]:
for lr in [0.01, 0.1, 0.5]:
  x=0.0
  for i in range(50):
    x -= lr*grad_f(x)
  print(f"lr={lr}: x={x:.4f}")

lr=0.01: x=1.1975
lr=0.1: x=2.0000
lr=0.5: x=2.0000


### 예제 3: 2차원 함수의 경사하강법

**문제:**
함수  $f(x, y) = (x-1)^2 + (y+2)^2$ 의 최소점을 경사하강법으로 찾아라.

In [7]:
def grad_fx(x, y):
  return 2*(x-1)
def grad_fy(x, y):
  return 2*(y+2)

x, y = 0.0, 0.0
lr = 0.1
for i in range(100):
  x -= lr*grad_fx(x, y)
  y -= lr*grad_fy(x, y)
print(f"최소점: x={x:.4f}, y={y:.4f}")

최소점: x=1.0000, y=-2.0000


### 예제 4: 확률적 경사하강법(SGD) 기본 구현

**문제:**
임의의 1차 데이터에 대해 SGD로 선형 회귀 파라미터를 추정하라.

In [8]:
np.random.seed(0)
X = np.random.rand(100, 1)
y = 3*X[:,0] + 2 + np.random.randn(100) * 0.1

w, b = 0.0, 0.0
lr = 0.1
for epoch in range(10):
  for i in range(len(X)):
    xi, yi = X[i, 0], y[i]
    pred = w*xi + b
    grad_w = 2*(pred-yi)*xi
    grad_b = 2*(pred-yi)
    w -= lr*grad_w
    b -= lr*grad_b

print(f"추정된 w: {w:.4f}, b:{b:.4f}")

추정된 w: 2.9375, b:1.9987


### 예제 5: Momentum을 적용한 경사하강법

**문제:**
Momentum 기법을 적용해 예제 1의 함수의 최소점을 찾아라.

In [9]:
x = 0.0
v = 0.0
lr = 0.1
momentum = 0.9
for i in range(100):
  grad = grad_f(x)
  v = momentum * v - lr * grad
  x += v

print(f"Momentum 적용 최소점 x: {x:.4f}")

Momentum 적용 최소점 x: 2.0058


1. 함수 $ f(x) = x^4 - 3x^2 + x $의 최소값을 경사하강법으로 찾아라.

In [10]:
import numpy as np

def f(x):
  return x**4 - 3*x**2 + x

def grad_f(x):
  return 4*x**3 - 6*x + 1

x = 0.0
lr = 0.1
for i in range(1000):
  x -= lr * grad_f(x)

print(f"시작점 0에서 최소점 x: {x:.4f}, 최소값: {f(x):.4f}")

시작점 0에서 최소점 x: -1.3008, 최소값: -3.5139


2. 학습률 0.001, 반복 500회로 예제 1의 함수 최소점과 값을 구하라.

In [11]:
import numpy as np

def f(x):
  return x**4 - 3*x**2 + x

def grad_f(x):
  return 4*x**3 - 6*x + 1

x = 0.0
lr = 0.001
for i in range(500):
  x -= lr * grad_f(x)

print(f"x: {x:.4f}, f(x): {f(x):.4f}")

x: -1.2322, f(x): -3.4818


3. Numpy의 벡터 연산을 이용해 2차원 함수 $ f(x, y) = x^2 + y^2 $의 최소점을 경사하강법으로 구하라.

In [12]:
import numpy as np

def grad_f(vec):
  return 2*vec

vec = np.array([3.0, -4.0])
lr = 0.1
for i in range(100):
  vec -= lr * grad_f(vec)

print(f"최소점: {vec}")

최소점: [ 6.11110793e-10 -8.14814391e-10]


4. SGD와 배치 경사하강법(BGD)을 비교하여 설명해보시오.

BGD는 매 스텝에서 전체 데이터를 사용하여 그 기울기를 계산하지만 SGD는 한 스텝에서 하나의 데이터만 사용하여 기울기를 계산한다. 따라서 BGD는 학습 데이터의 크기가 클수록 계산 시간이 길어지지만 최적값에 가까이 접근한다. SGD는 수렴이 빠르지만 최적값에 수렴하지 않을 가능성이 있으며 안정성이 낮다.

5. 예제 1 함수에 대해 Adam 최적화 알고리즘을 구현한  다음 코드를 보고, Adam 최적화 알고리즘의 식을 정리해보시오.

In [13]:
import numpy as np

def f(x):
  return x**4 - 3*x**2 + x

def grad_f(x):
  return 4*x**3 - 6*x + 1

m, v = 0, 0
beta1, beta2 = 0.9, 0.999
eps = 1e-8
x = 0.0
for t in range(1, 1001):
  g = grad_f(x)
  m = beta1*m + (1-beta1)*g
  v = beta2*v + (1-beta2)*(g**2)
  m_hat = m/(1-beta1**t)
  v_hat = v/(1-beta2**t)
  x -= 0.05 * m_hat/(np.sqrt(v_hat)+eps)

print(f"Adam 최소점: {x:.4f}")

Adam 최소점: -1.3008


6. 학습률 스케줄링(learning rate decay)을 적용해 수렴 속도를 비교하라.

In [42]:
import numpy as np

# 예제 6
def f(x):
  return x**4 - 3*x**2 + x

def grad_f(x):
  return 4*x**3 - 6*x + 1

x = 0.0
for i in range(100):
  lr = 0.01 * (0.99 ** i)
  x -= lr * grad_f(x)

print("예제 6의 방식 - 실행 100회")
print(f"x: {x:.4f} f(x): {f(x):.4f}")

def f(x):
  return x**4 - 3*x**2 + x

def grad_f(x):
  return 4*x**3 - 6*x + 1

x = 0.0
for i in range(50):
  lr = 0.01 * (0.99 ** i)
  x -= lr * grad_f(x)

print("예제 6의 방식 - 실행 50회")
print(f"x: {x:.4f} f(x): {f(x):.4f}")

# 기존
def f(x):
  return x**4 - 3*x**2 + x

def grad_f(x):
  return 4*x**3 - 6*x + 1

x = 0.0
lr = 0.01
for i in range(100):
  x -= lr * grad_f(x)

print("기존 방식 - 실행 100회")
print(f"x: {x:.4f}, f(x): {f(x):.4f}")

def f(x):
  return x**4 - 3*x**2 + x

def grad_f(x):
  return 4*x**3 - 6*x + 1

x = 0.0
lr = 0.01
for i in range(100):
  x -= lr * grad_f(x)

print("기존 방식 - 실행 50회")
print(f"x: {x:.4f}, f(x): {f(x):.4f}")

# 예제 6의 방식은 시행마다 학습률이 감소하여 기존 방식보다 수렴 속도가 느리다.

예제 6의 방식 - 실행 100회
x: -1.2904 f(x): -3.5131
예제 6의 방식 - 실행 50회
x: -1.0411 f(x): -3.1179
기존 방식 - 실행 100회
x: -1.3008, f(x): -3.5139
기존 방식 - 실행 50회
x: -1.3008, f(x): -3.5139


7. 특성 스케일링 여부가 경사하강법 수렴에 미치는 영향을 설명해보시오.

특성 간의 스케일 차이가 크면 수렴 속도가 느려질 수 있다. 표준화, 정규화, Min-Max 스케일링 등을 활용하면 수렴 속도가 더 빨라질 것이다.
스케일링을 하면 경사하강법이 빠르게 수렴

8. 임의의 3차 함수에서 여러 시작점으로 경사하강법을 실행하고 결과를 비교하라.

In [39]:
import numpy as np

def f(x):
  return (x-8)*(x-2)*(x+7)

def grad_f(x):
  return 3*x**2 - 6*x -54

for start in [-2, 0, 2, 4]:
  x = start
  for i in range(100):
    x -= 0.1 * grad_f(x)
  print(f"시작점 {start}에서 최소점 x:{x:4f}, 최소값:{f(x):.4f}")

시작점 -2에서 최소점 x:7.005698, 최소값:-69.7088
시작점 0에서 최소점 x:1.028977, 최소값:54.3483
시작점 2에서 최소점 x:2.702317, 최소값:-36.0989
시작점 4에서 최소점 x:1.020784, 최소값:54.8153
