원문: Moler, Cleve B. [Numerical computing with MATLAB](https://www.mathworks.com/moler/chapters.html). Society for Industrial and Applied Mathematics, 2008.

# 5. 최소자승법

*최소자승법*은 과결정 되어 있거나 부정확하게 명세된 연립방정식의 근을 찾는 데 자주 사용되는 방법이다.  엄밀해를 구하는 대신, 우리는 오차의 제곱의 합을 최소화하는 것 만을 목표로 한다

최소자승 조건은 중요한 통계적 해석을 가진다. 만일 아래에 깔린 오류 분표에 대한 적당한 확률적 가정이 주어지면, 최소자승법은 매개변수의 *최대 가능도* 추정값을 계산해낼 수 있다. 심지어 확률적 가정이 만족되지 않더라도, 다년간의 경험에 따르면, 최소자승법은 유용한 결과값을 계산해 낸다.

최소 자승 문제를 위한 계산 기법은 직교 행렬 분해를 이용한다.

## 5.1 모델과 곡선적합

매우 자주 최소 자승 문제를 접하는 경우는 곡선 적합이다. $t$가 독립변수이고 우리가 추정하고자 하는 미지의 함수를 $y(t)$로 표시한다고 하자. $m$ 개의 관측값이 있다고 가정하라. 이를테면, $t$의 특정 값에서 $y$ 값이 다음과 같이 관측되었다:
$$y_i=y(t_i), i = 1, \cdots, m$$
아이디어는 $y(t)$ 를 $n$ 개의 *기저함수* 의 선형 조합으로 모델하는 것이다.
$$y(t) \approx \beta_1 \phi_1(t)+\cdots+\beta_n \phi_n(t)$$
해당 *설계 행렬* $X$ 는 $m \times n$ 직사각형 행렬로 각 요소는 다음과 같다.
$$x_{i,j}=\phi_j(t_i)$$
설계 행렬은 보통 행이 열보다 많다. 행렬 벡터 표시로 모델은 다음과 같다.
$$y \approx X \beta $$
기호 $\approx$ 는 "대략 비슷하다"는 뜻이다. 우리는 다음 절에서 더 정확한 의미를 논하겠지만, 우리는 중점을 *최소자승* 추정값에 둔다.
기저함수 \phi_j(t) 는 $t$의 비선형함수일 수도 있지만, 미지의 매개변수 $beta_j$ 는 모델에서 선형적으로 나타난다. 연립방정식
$$X\beta\approx y$$
가 *과결정* 되는 조건은 방정식이 미지수 보다 더 많은 경우이다. 예를 들어 다음과 같이 적용할 수 있다.

In [None]:
# https://stackoverflow.com/questions/7160162/left-matrix-division-and-numpy-solve
    
import numpy as np
import numpy.linalg as na

t0 = np.linspace(0, 10, 11)
t = t0.reshape((len(t0), 1))
a = 0.5
y_true = a * t
noise = np.random.normal(0.0, 0.5, size=y_true.shape)
y_contaminated = y_true + noise
x, resid, rank, s = na.lstsq(t, y_contaminated)
print('x = %s' % x)
print('resid = %s' % resid)
print('rank = %s' % rank)
print('s = %s' % s)