In [1]:
import os

import numpy as np
import matplotlib.pyplot as plt
import matplotlib.animation as animation
import matplotlib.ticker
import IPython.display

NOTEBOOK_ID = "LEAST_SQUARE"
OUTPUT_PATH = f"out/{NOTEBOOK_ID}/"

if not os.path.isdir(OUTPUT_PATH):
    os.mkdir(OUTPUT_PATH)

# 선형 최소 제곱법

사회과학 등의 실험 또는 설문 조사는 종종 방대한 양의 데이터를 생성한다. 이 생성된 데이터를 다음 점들이라고 해보자.

$$(x_0, y_0),\,(x_1, y_1),\, \cdots,\,(x_m, y_m)$$

이 결과는 선형적이라고 믿을만한 이론적 근거가 존재한다면 이 직선 위에 위치하지 않은 점들은 실험 오차 때문이라는 것이다.
그렇다면 다음 할 일은 다음 함수를 정하는 것이다.

$$y=ax+b$$

그러기 위해선 이 함수를 정하는 것은 기하학적으로 다음 질문으로 바뀌게 된다.

> 그래프상의 여덟 개의 점을 가장 가깝게 지나는 직선은 어떤 직선인가?

이 질문에 답하기 위해선 $a,\,b$를 추정해야한다.

---

만약 우연히 $k$번째 데이터가 직선상에 있다면 다음 식이 성립한다.

$$ax_k+b-y_k=0$$

만약 그렇지 않다면 다음 **차이** 또는 **오차**가 존재한다.

$$|ax_k+b-y_k|$$

따라서 모든 점에 대한 총 절대 오차는 다음과 같다.

$$\sum^{m}_{k=0}{|ax_k+b-y_k|}$$

이 함수가 최소가 되도록 $a$, $b$를 선택하는 것이 합리적일 것이다.
이 문제는 **$\ell_1$ 근사**의 한 예로 선형 프로그래밍 기술을 이용해 풀 수 있다.
미적분 방법은 이 함수에 적용할 수 없다 이 함수는 일반적으로 미분 불가하기 때문이다.

---
하지만 실제로는 다음과 같은 또 다른 오차 함수를 최소화하는 것이 일반적이다.

$$\phi(a, b) = \sum^{m}_{k=0}{(ax_k+b-y_k)^2}$$

이 함수는 통계적 관점에서 적합하다. 분명한 것은 이 오차가 정규 확률 분포를 따른다면 $\phi$를 최소화함으로써 가장 좋은 근삿값을 구할 수 있다는 것이다. 이를 **$\ell_2$ 근사**라 한다. 추가적인 장점은 이 식에는 미적분 방법을 사용할 수 있다.
                             
$\ell_1,\,\ell_2$ 근사는 벡터 $x=[x_1,x_2,\cdots,x_n]^{T}$에 대해 다음과 같이 정의한 특수한 **$\ell_p$ 노름**과 관련이 있다.

$$\vert\vert x\vert\vert_p = \left(\sum^{n}_{i=1}\vert x_i\vert ^p \right)^{1/p}\quad(1\leq p < \infty)$$

$\phi(a,b)$를 최소화해보면. 미적분에 의해 다음 조건

$$\frac{\partial\phi}{\partial a}=0\quad \frac{\partial\phi}{\partial b}=0$$

은 최소가 되기 위한 필요조건이다.

$$
\begin{cases}
\sum^{m}_{k=0}{2(ax_k+b-y_k)x_k}=0 \\
\sum^{m}_{k=0}{2(ax_k+b-y_k)}=0
\end{cases}
$$

이는 미지수 $a,\,b$를 동시에 만족하는 한 쌍의 선형 연립방정식이다. 이들은 **정규 방정식**이라 불리며 다음과 같이 쓸 수 있다.

$$
\begin{align}
\begin{cases}
\left(\sum^{m}_{k=0}{x_k^2}\right)a+\sum^{m}_{k=0}{x_k^2}b=\sum^{m}_{k=0}{y_k x_k^2} \\
\left(\sum^{m}_{k=0}{x_k}\right)a+(m+1)b=\sum^{m}_{k=0}{y_k}
\end{cases}
\end{align}
$$

표기를 단순화 하기 위해 다음과 같이 정의한다.

$$p = \sum^{m}_{k=0}{x_k},\quad q=\sum^{m}_{k=0}{y_k},\quad r=\sum^{m}_{k=0}{x_ky_k},\quad s=\sum^{m}_{k=0}{x_k^2}$$

위 정규 방정식은 이제 다음과 같이 나타낼 수 있다.

$$
\begin{bmatrix}
s && p \\ p && m+1 
\end{bmatrix}
\begin{bmatrix}
a \\ b
\end{bmatrix}
=
\begin{bmatrix}
r \\ q 
\end{bmatrix}
$$

이 한 쌍의 방정식은 가우스 소거법을 이용해 풀 수있고 다음의 알고리즘을 얻을 수 있다. 다른 방법으로는 이 식이 $2\times2$ 선형 시스템이므로 크래머의 법칙을 이용해 이를 풀 수 있다. 계수 행렬의 행렬식은 다음과 같다.

$$d = \text{Det}
\begin{bmatrix}
s && p \\ p && m+1 
\end{bmatrix}
= (m+1)s-p^2
$$

게다가 다음을 얻을 수 있다.

$$
\begin{align*}
& a=\frac{1}{d}
\text{Det}
\begin{bmatrix}
s && p \\ p && m+1 
\end{bmatrix}
=\frac{1}{d}((m+1)r-pq)
\\
& b=\frac{1}{d}\text{Det}
\begin{bmatrix}
s && r \\ p && q
\end{bmatrix}
=\frac{1}{d}[sq-pr]
\end{align*}
$$

$k=0,1,2,\cdots,m$에 대하여 $(m+1)$개의 데이터 점 $(x_k,y_k)$의 집합을 통과하여 지나는 최소 제곱 직선 $y=ax+b$의 계수는 위와 같이 계산될 수 있다.
