# 커브 피팅(curve fitting)

**실습을 시작하기 전에, 메뉴의 [런타임]-[런타임 유형 변경]에서 '하드웨어 가속기'를 'CPU'로 선택해야 한다.**

## 선형 최소자승법

첫 번째 실습에서는 다음 데이터에 대해 함수를 최적 접합시켜보도록 하겠다. 다음 데이터는 온도 $T[°C]$와 오일의 점성계수 $μ[N⋅s⁄m^2 ]$를 나타낸다:

|온도 $T[°C]$|26.67|93.33|148.89|315.56|
|----|----|----|----|----|
|점성계수 $μ[N⋅s⁄m^2 ]$|1.35|0.085|0.012|0.00075|





### 피팅할 함수 찾기

먼저 필요한 모듈을 불러온다.

In [None]:
import numpy as np
import matplotlib.pyplot as plt

데이터를 나타내는 행렬 $T$와 $mu$에 해당하는 변수를 다음과 같이 만든다.

In [None]:
T = np.array([26.67, 93.33, 148.89, 315.56])
mu = np.array([1.35, 0.085, 0.012, 0.00075])

데이터를 시각적으로 표현하기 위해, 주어진 데이터를 그래프로 그려보겠다.

In [None]:
_, ax = plt.subplots()
ax.plot(T, mu, 'o')
ax.grid()
ax.set_xlabel('Temperature')
ax.set_ylabel('viscosity')
ax.plot()

그런데 위의 그래프는 우리가 배운 선형 모델을 이용해 표현하기에는 적합해 보이지 않는다. 데이터를 로그 스케일로 출력해 보겠다. 앞의 코드에서 *plot* 함수를 [loglog](https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.loglog.html) 함수로 변경한다. *loglog* 함수는 그래프를 로그 스케일로 출력하는 함수이다.

In [None]:
_, ax = plt.subplots()
ax.loglog(T, mu, 'o')
ax.grid()
ax.set_xlabel('Temperature')
ax.set_ylabel('viscosity')
ax.plot()

로그 스케일에서는 그래프의 데이터가 직선에 가깝게 표현된 것을 확인할 수 있다. 따라서 우리는 다음과 같은 형태의 함수를 접합할 것이다.

$$
\log{\mu}=a_0+a_1\log{T}
$$

이 함수는 $\log{T}$와 $\log{\mu}$에 대한 선형 함수이다. 따라서 선형 최소자승법을 적용할 수 있다.

### 선형 최소자승법 구현

우리는 데이터를 선형 함수에 피팅할 것이다. 선형 함수를 찾는 방법은 다음과 같다.

**입력:** $n$개의 데이터 $\left(x_1,y_1\right),\left(x_2,y_2\right),\ldots,\left(x_n,y_n\right)$

**출력:** 선형 함수 $y=a_0+a_1x$의 절편 $a_0$와 기울기 $a_1$

**STEP 1:** 계산을 편리하게 하기 위해 일부 값을 미리 계산해 놓는다. 즉,

$$
\sum x_i,\ \sum y_i,\sum x_i^2,\sum{x_iy_i}
$$

를 미리 계산한다.

**STEP 2:** 다음 식을 이용해 $a_1$을 계산한다.

$$
a_1=\frac{n\sum{x_iy_i}-\sum x_i\sum y_i}{n\sum x_i^2-\left(\sum x_i\right)^2}\tag{1}
$$

**STEP 3:** $a_1$과 다음 식을 이용해 $a_0$을 계산한다.

$$
a_0=\frac{\sum y_i}{n}-a_1\frac{\sum x_i}{n}\tag{2}
$$

**지시: 위의 알고리즘을 참고하여, 선형 최소자승법을 구현하는 함수 *linregr*을 완성하시오.**

In [None]:
def linregr(x, y):
  """
  함수 linregr은 선형 최소제곱접합 알고리즘을 구현한다.
  입력 매개변수:
    x : 데이터의 x값을 나타내는 벡터
    y : 데이터의 y값을 나타내는 벡터
  출력 매개변수:
    a1 : 접합한 선형 함수의 기울기
    a0 : 접합한 선형 함수의 절편
  """

  # 데이터의 개수를 구한다.
  n = len(x)

  ## STEP 1: 계산을 편리하게 하기 위해 일부 값을 미리 계산해 놓는다.
  sumx = np.sum(x)
  sumy = np.sum(y)
  sumsqx = np.sum(x * x)
  sumxy = np.sum(x * y)

  ## STEP 2: 선형 함수의 기울기 a1을 계산한다.
  #### 코드 시작 ####
  ## 방법) STEP1의 계산 결과를 이용해 식 (1)의 선형 함수의 기울기를 계산한다.
  a1 = 0
  #### 코드 종료 ####

  ## STEP 3: 선형 함수의 절편 a0을 계산한다.
  #### 코드 시작 ####
  ## 방법) STEP1과 STEP2의 계산 결과를 이용해 식 (2)의 선형 함수의 절편을 계산한다.
  a0 = 0
  #### 코드 종료 ####

  return a0, a1

위에 만든 함수 *linregr*를 테스트 한다. 아무 문제가 없다면 아래 코드 실행 시 "**성공**"이라고 출력되어야 한다.

In [None]:
x = np.array([10, 20, 30, 40, 50, 60, 70, 80])
y = np.array([25, 70, 380, 550, 610, 1220, 830, 1450])
a0, a1 = linregr(x, y)

assert abs(a0 + 234.2857) < 0.0001
assert abs(a1 - 19.4702) < 0.0001

print("성공!!")

### 피팅 함수 계산하기

주어진 실제 데이터에 방금 완성한 *linregr* 함수를 적용해 보겠다. 우리는 $T$와 $mu$의 로그값을 가지고 피팅 함수를 찾을 것이기 때문에, 다음과 같이 로그값을 계산한다. 여기서 지수가 10인 로그 함수는 [np.log10](https://numpy.org/doc/stable/reference/generated/numpy.log10.html)을 사용한 점을 주의하라.

In [None]:
logT = np.log10(T)
logmu = np.log10(mu)

그리고 앞에서 완성한 *linregr* 함수를 적용한다. 아무 문제가 없다면 아래 코드 실행 시 "**성공**"이라고 출력되어야 한다.

In [None]:
a0, a1 = linregr(logT, logmu)
print(f'a0={a0}')
print(f'a1={a1}')

assert abs(a0 - 4.5815) < 0.0001
assert abs(a1 + 3.0134) < 0.0001

print("성공!!")

이번에는 변환한 식

$$
\log{\mu}=a_0+a_1\log{T}
$$

를 원래의 식으로 돌려놓겠다. 왼쪽의 $\log$를 없애면 다음과 같이 식이 변환된다:

$$
\mu={10}^{a_0+a_1\log{T}}={10}^{a_0}\times{10}^{a_1\log{T}}={10}^{a_0}\times{10}^{\log{T^{a_1}}}={10}^{a_0}T^{a_1}\tag{3}
$$

따라서, 이 식을 이용해 그래프를 다시 출력해 보겠다.

**지시: 식 (3)을 참고하여, *linemu*를 계산하는 코드를 완성하시오.**

In [None]:
lineT = np.linspace(min(T), max(T), 100) # x축을 100개의 구간으로 나눈다.
#### 코드 시작 ####
## 방법) lineT의 값에 대해 식 (3)을 계산하는 코드를 작성하시오.
linemu = lineT
#### 코드 종료 ####

_, ax = plt.subplots()
ax.plot(T, mu, 'o')
ax.plot(lineT, linemu)
ax.grid()
ax.set_xlabel('Temperature')
ax.set_ylabel('viscosity')
ax.plot()

위 그래프에서, 데이터를 지나는 함수를 올바르게 찾은 것을 확인할 수 있다.

## Lagrange 보간다항식

다음 데이터는 1920년에서 1990년까지의 미국 인구를 백만 명 단위로 나타낸 것이다.

|연도|1920|1930|1940|1950|1960|1970|1980|1990|2000|
|---|---|---|---|---|---|---|---|---|---|
|인구(백만 명)|106.46|123.08|132.12|152.27|180.67|205.05|227.23|249.46|?|

이 데이터를 근거로 2010년의 인구를 예측해 보도록 하겠다. 참고로 2010년의 실제 인구는 281.42백만 명이었다.

### Lagrange 보간다항식 구현

이를 Lagrange 보간다항식을 이용해 인구를 예측해 보겠다. 우선 주어진 데이터를 보간하는 함수를 찾는 Lagrange 보간다항식을 파이썬으로 작성해 보겠다. Lagrange 보간다항식을 찾는 공식은 다음과 같다:

$$
f_{n-1}\left(x\right)=\sum_{i=1}^{n}{L_i\left(x\right)f\left(x_i\right)}=L_1\left(x\right)f\left(x_1\right)+\ldots+L_n\left(x\right)f\left(x_n\right) \tag{4}
$$

$$
L_i\ (x)f(x_i\ )=f(x_i\ )\prod_{j=1\\j≠i}^n\frac{(x-x_j)}{(x_i-x_j)}=f(x_i)\times\frac{(x-x_1)}{(x_i-x_1 )}\times…\times\frac{(x-x_{i-1})}{(x_i-x_{i-1})}\times\frac{(x-x_{i+1})}{(x_i-x_{i+1})}\times…\times\frac{(x-x_n)}{(x_i-x_n )} \tag{5}
$$

이를 알고리즘으로 나타내면 다음과 같다:

**입력:** $n$개의 데이터 $\left(x_1,y_1\right),\left(x_2,y_2\right),\ldots,\left(x_n,y_n\right)$, 보간할 위치 $𝑥^∗$의 값

**출력:** $x^\ast$에서의 $f(x^\ast)$의 값

**STEP 1:** 식 (4)의 합계를 저장할 변수 **s**를 0으로 초기화 시킨다. 알고리즘이 끝날 때, **s**는 $f\left(x^\ast\right)$의 값을 갖게 된다.

**STEP 2:** $i=1$에서 $i=n$까지, 식 (4)을 이용해 $L_i\left(x^\ast\right)f\left(x_i\right)$를 계산하여 **s**에 더한다.
*   **STEP 2-1:** 식 (5)의 곱셈 결과를 저장할 변수 **product**를 $f\left(x_i\right)$로 초기화 시킨다.
*   **STEP 2-2:** 각 $i$에 대해, 식 (5)를 이용해
$$
\frac{x-x_j}{x_i-x_j}
$$
를 계산하여 **product**에 곱한다. 단, $i\neq j$인 경우만 계산한다.

**지시: 위의 알고리즘을 참고하여, Lagrange 보간다항식을 구현하는 함수 *Lagrange*를 완성하시오.**

In [None]:
def Lagrange(x, y, xx):
  """
  함수 Lagrange은 Lagrange 보간다항식을 이용해 xx에서의 y값을 예측한다.
  입력 매개변수:
    x : 데이터의 x값을 나타내는 벡터
    y : x의 위치에서의 데이터의 y값을 나타내는 벡터. 즉 f(x)의 값
  출력 매개변수:
    yint : xx에서의 예측한 y값
  """

  # 데이터의 개수를 구한다.
  n = len(x)

  if len(y) != n:
    return 'x and y must be of same length'

  ## STEP 1: 식 (4)의 합계를 저장할 변수 s를 0으로 초기화 시킨다.
  ## 알고리즘이 끝날 때, s는 f(xx)의 값을 갖게 된다.
  s = 0

  ## STEP 2: i=1에서 i=n까지, 식 (4)을 이용해 L_i(xx)y(i)를 계산하여 s에 더한다.
  for i in range(n):
    ## STEP 2-1: 식 (5)의 곱셈 결과를 저장할 변수 product를 y(i)로 초기화 시킨다.
    product = y[i]

    ## STEP 2-2: i에 대해, 식 (5)를 계산한다.단, i≠j인 경우만 계산한다.
    for j in range(n):
      ## STEP 2-2 (계속): 식 (5)를 이용해 (x-x_j)/(x_i-x_j)를 계산하여 product에 곱한다.
      ## 단, i≠j인 경우만 계산한다.
      if i != j:
        #### 코드 시작 ####
        ## 방법) 식 (5)를 이용해 (x-x_j)/(x_i-x_j)를 계산하여 product에 곱한다.
        product = product
        #### 코드 종료 ####

    s = s + product

  yint = s

  return yint

위에 만든 함수 *Lagrange*를 테스트 한다. 아무 문제가 없다면 아래 코드 실행 시 "**성공**"이라고 출력되어야 한다.

In [None]:
x = np.array([1, 4, 6, 5])
y = np.log(x)
yy = Lagrange(x, y, 2)
print(yy)

assert abs(yy - 0.6288) < 0.0001

print("성공!!")

### Lagrange 보간다항식을 이용한 인구 예측

앞에서 구현한 *Lagrange* 함수를 이용해 2000년도의 인구를 예측해 보겠다.

가장 먼저 1차 보간다항식을 이용해 예측해 보겠다. 1차 보간다항식을 만들기 위해서는 두 개의 데이터가 필요하며, 여기서는 2000년도와 가장 가까운 1980년과 1990년의 데이터를 이용하겠다.

In [None]:
x = np.array([1980, 1990])
y = np.array([227.23, 249.46])
yy_1 = Lagrange(x, y, 2000)

print(yy_1)

위의 결과를 실제 값인 281.42와 결과를 비교해 봐라. 오차가 많이 발생할 것이다.

그 다음은 2차 보간다항식을 이용해 예측해 보겠다. 2차 보간다항식을 만들기 위해서는 세 개의 데이터가 필요하며, 여기서는 2000년도와 가장 가까운 1970년부터 1990년의 데이터를 이용하겠다.

**지시: 1차 보간다항식 예제를 참고하여, 2차 보간다항식을 이용한 결과를 예측해 보시오.**

In [None]:
#### 코드 시작 ####
x = np.array([0])
y = np.array([0])
#### 코드 종료 ####

yy_2 = Lagrange(x, y, 2000)
print(yy_2)

위에 만든 코드를 테스트 한다. 아무 문제가 없다면 아래 코드 실행 시 "**성공**"이라고 출력되어야 한다.

In [None]:
assert abs(yy_2 - 271.74) < 0.0001

print("성공!!")

동일한 방법으로 3차 보간다항식을 이용해 예측해 보자.

**지시: 1차 보간다항식 예제를 참고하여, 3차 보간다항식을 이용한 결과를 예측해 보시오.**

In [None]:
#### 코드 시작 ####
x = np.array([0])
y = np.array([0])
#### 코드 종료 ####

yy_3 = Lagrange(x, y, 2000)
print(yy_3)

위에 만든 코드를 테스트 한다. 아무 문제가 없다면 아래 코드 실행 시 "**성공**"이라고 출력되어야 한다.

In [None]:
assert abs(yy_3 - 273.99) < 0.0001

print("성공!!")

동일한 방법으로 4차 보간다항식을 이용해 예측해 보자.

**지시: 1차 보간다항식 예제를 참고하여, 4차 보간다항식을 이용한 결과를 예측해 보시오.**

In [None]:
#### 코드 시작 ####
x = np.array([0])
y = np.array([0])
#### 코드 종료 ####

yy_4 = Lagrange(x, y, 2000)
print(yy_4)

위에 만든 코드를 테스트 한다. 아무 문제가 없다면 아래 코드 실행 시 "**성공**"이라고 출력되어야 한다.

In [None]:
assert abs(yy_4 - 274.42) < 0.0001

print("성공!!")

보간다항식을 이용해 예측한 결과가 실제 값인 281.42와 차이가 나는 것을 볼 수 있다. 이는 주어진 데이터 범위 밖에 있는 값을 예측하였기 때문이다.

## Polyfit을 이용한 보간

Lagrange 보간다항식을 이용해 인구를 예측했던 것을, [np.polyfit](https://numpy.org/doc/stable/reference/generated/numpy.polyfit.html) 함수를 이용해 풀어보겠다.

가장 먼저 1차 보간다항식을 이용해 예측해 보겠다. 아래 코드와 같이 데이터를 만들고, [np.polyfit](https://numpy.org/doc/stable/reference/generated/numpy.polyfit.html) 함수를 호출한다. 이때, 1차 보간다항식을 이용할 것이기 때문에, 세 번째 파라미터 값으로 1을 대입한다.

In [None]:
x = np.array([1980, 1990])
y = np.array([227.23, 249.46])
p1 = np.polyfit(x, y, 1)

print(p1)

[np.polyfit](https://numpy.org/doc/stable/reference/generated/numpy.polyfit.html)의 결과로 반환되는 것은 1차 다항식의 계수이다. 이를 이용해 2000년도의 인구를 예측하기 위해서는 아래 코드와 같이 [np.polyval](https://numpy.org/doc/stable/reference/generated/numpy.polyval.html) 함수를 이용하면 된다.

In [None]:
yy_p1 = np.polyval(p1, 2000)
print(yy_p1)

위의 결과가 Lagrange 1차 보간다항식을 이용했을 때와 동일하다는 것을 알 수 있다.

유사한 방법으로 [np.polyfit](https://numpy.org/doc/stable/reference/generated/numpy.polyfit.html) 함수와 [np.polyval](https://numpy.org/doc/stable/reference/generated/numpy.polyval.html) 함수를 이용해 4차 다항식을 이용한 결과를 구해봐라. 그리고 그 결과를 Lagrange 보간다항식의 결과와 비교해 봐라.

**지시: 1차 보간다항식 예제를 참고하여, 4차 보간다항식을 이용한 결과를 예측해 보시오.**

In [None]:
#### 코드 시작 ####
x = np.array([0])
y = np.array([0])
p4 = 0 # np.polyfit을 이용해 다항식의 계수를 계산하시오.
yy_p4 = 0 # np.polyval을 이용해 2000에서의 값을 계산하시오.
#### 코드 종료 ####

print(yy_p4)

위에 만든 코드를 테스트 한다. 아무 문제가 없다면 아래 코드 실행 시 "**성공**"이라고 출력되어야 한다.

In [None]:
assert abs(yy_p4 - 274.42) < 0.0001

print("성공!!")

수고하셨습니다.