수정일: 2024.02.08

# HW1: 최속강하법(steepest descent method)

최속강하법을 이용해 아래 함수의 최소지점을 찾으려고 한다.

$f(x_1,x_2)=3x_1^2+2 x_1 x_2 + 2 x_2^2 + 7$

시작점은 $(x_1,x_2)=(5, 10)$으로 하고, 이동거리와 반복횟수는 적절히 설정한다.

우선 필요한 모듈을 불러오고, 필요한 셋팅을 한다.

In [None]:
import numpy as np
import matplotlib.pyplot as plt

## 함수 정의
우리가 풀려고 하는 비용함수(cost function)를 파이썬 함수로 정의한다. 비용함수는 위에 제시된 함수 $f(x_1,x_2)$이다.

*참고: 최속강하법에서는 함수값을 직접적으로 이용하지는 않는다. 여기서는 함수 모양을 확인하기 위해서만 이용한다.*

**지시: 함수 $f(x_1,x_2)$를 계산하는 아래 코드를 완성한다.**

In [None]:
def func(x):
  '''
  x의 위치에서 함수 f(x)의 값을 반환하는 함수

  매개변수:
    x: 함수값을 구하려고 하는 변수값, 크기가 2인 Numpy 1차원 배열

  반환:
    x의 위치에서 함수 f(x)의 값, 스칼라
  '''

  x1 = x[0] # 문제에서 x1
  x2 = x[1] # 문제에서 x2

  ## x1과 x2를 이용해 함수 f(x1, x2)를 계산할 수 있게, 아래 코드를 적절히 수정하시오.
  #### 코드 시작 ####
  f = 3*x1**2 + 2*x1*x2 + 2*x2**2 + 7
  #### 코드 종료 ####

  return f

아래 코드는 테스트 코드이다. "성공!"이라고 출력되어야 한다.

In [None]:
# 함수 func()의 테스트 코드

assert abs(func([0, 0]) - 7.0) < 0.0001
assert abs(func([1.5, -2.1]) - 16.27) < 0.0001

print("성공!")

## 경사도 벡터 정의
최속강하법을 사용하기 위해서는 함수 $f(x_1,x_2)$의 경사도 벡터(gradient vector)를 구해야 한다. 제시된 문제에서 경사도 벡터는 다음과 같다.

$\nabla f(x_1,x_2)=
  \begin{bmatrix}
    6x_1+2x_2 \\
    2x_1+4x_2
  \end{bmatrix}$

  **지시: 함수 $\nabla f(x_1,x_2)$를 계산하는 아래 코드를 완성한다.**

In [None]:
def dfunc(x):
  '''
  x의 위치에서 함수 f(x)의 경사도 벡터를 반환하는 함수

  매개변수:
    x: 함수값을 구하려고하는 변수값, 크기가 2인 Numpy 1차원 배열

  반환:
    x의 위치에서 함수 f(x)의 경사도 벡터, Numpy 1차원 배열
  '''

  x1 = x[0]
  x2 = x[1]

  ## x1과 x2를 이용해 함수 f(x1, x2)의 경사도 벡터를 계산할 수 있게,
  ## 아래 코드를 적절히 수정하시오.
  #### 코드 시작 ####
  dfx1 = 6*x1 + 2*x2
  dfx2 = 2*x1 + 4*x2
  #### 코드 종료 ####

  return np.array([dfx1, dfx2])

아래 코드는 테스트 코드이다. "성공!"이라고 출력되어야 한다.

In [None]:
# 함수 dfunc()의 테스트 코드

df1 = dfunc([0, 0])
assert abs(df1[0]) < 0.0001 and abs(df1[1]) < 0.0001

df2 = dfunc([1.5, -2.1])
assert abs(df2[0] - 4.8) < 0.0001 and abs(df2[1] + 5.4) < 0.0001

print("성공!")

## 최속강하법 구현

수업 시간에 배운 내용을 바탕으로 최속강하법을 구현한다. 최속강하법의 핵심은 다음 식을 일정 횟수만큼 반복하여 계산하는 것이다.

$x^{(k+1)}\leftarrow x^{(k)}-a\nabla f(x^{(k)})$

**지시: 최속강하법을 수행하는 아래 코드를 완성한다.**

In [None]:
x0 = [5, 10] # x의 초기값
a = 0.1 # 이동거리(step size)
k_max = 50 # 최대 반복횟수

x = np.array(x0) # Numpy를 이용하기 위해 Numpy 배열로 변환

# 나중에 그래프를 그리기 위해 중간 계산 결과를 저장하기 위한 공간
# 매 반복마다 x을 저장한다.
# 최속강하법과 직접적인 관계를 없음
history = np.zeros((k_max+1, 3))

# 우선 가장 첫 번째 x와 그 때의 함수값을 저장한다.
# 최속강하법과 직접적인 관계를 없음
history[0, :] = [x[0], x[1], func(x)]

for k in range(k_max):
  ## 최속강하법의 반복식을 나타내기 위해,
  ## 아래 코드를 적절히 수정하시오.
  #### 코드 시작 ####
  x = x - a * dfunc(x)
  #### 코드 종료 ####

  # 그래프를 그리기 위해 중간 계산 결과 저장.
  # 최속강하법과 직접적인 관계는 없음
  history[k+1, :] = [x[0], x[1], func(x)]

# 최소점이 (0, 0)에 가까운 값이 나와야 한다.
print("최소점:", x)
# 최소값이 7에 가까운 값이 나와야 한다.
print("최소값:", func(x))

아래 코드는 최속강하법이 진행되는 과정을 그래프로 보여준다.

In [None]:
from matplotlib import cm # 색상 테이블을 가져오기 위해 사용. 신경쓰지 않아도 됨

# 그래프를 그릴 때, 그래프 크기를 설정한다. 아래 숫자를 크게 하면 좀 더 크게 보인다.
plt.rcParams["figure.figsize"] = (15, 10)

# 3차원 그래프를 그리기 위해 다른 방법을 사용한다.
fig = plt.figure() # Figure를 추가한다.
ax = fig.add_subplot(projection='3d') # Figure에 3차원 그래프를 그리기 위한 Axes를 추가한다.

# f(x)를 그린다.
x1 = np.arange(-10, 10, 0.1)
x2 = np.arange(-10, 10, 0.1)
x1, x2 = np.meshgrid(x1, x2)
f = func([x1, x2])

surf = ax.plot_surface(x1, x2, f, cmap=cm.jet, linewidth=0, antialiased=False, alpha=0.3)

# 그래프의 각 축 제목들
ax.set_xlabel('x1')
ax.set_ylabel('x2')
ax.set_zlabel('f(x1,x2)')

fig.colorbar(surf, shrink=0.5, aspect=5)

# x가 변하는 과정을 그린다.
history_x1 = history[:, 0]
history_x2 = history[:, 1]
history_f = history[:, 2]

ax.plot(history_x1, history_x2, history_f, linestyle="solid", marker=">", color='black')

plt.show()