## 선형 연립방정식

복수의 미지수($x$)를 포함하는 복수의 선형 방정식을 **선형 연립방정식(system of linear equations)** 또는 연립일차방정식이라고 한다.

다음은 3개의 미지수와 3개의 선형 방정식을 가지는 선형 연립방정식의 예시다.

\begin{split}
\begin{align}
\begin{matrix}
x_1 & + & x_2 &   &     & = & 2  \\
    &   & x_2 & + & x_3 & = & 2  \\
x_1 & + & x_2 & + & x_3 & = & 3  \\
\end{matrix}
\end{align}
\end{split}

위 식을 행렬과 벡터로 표현하면 아래와 같이 미지수가 $M$개인 선형 연립방정식 $N$개로 표현할 수 있다.

(a, b는 방정식의 계수이다.)

\begin{split}
\begin{align}
\begin{matrix}
a_{11} x_1 & + \;& a_{12} x_2   &\; + \cdots + \;& a_{1M} x_M &\; = \;& b_1 \\
a_{21} x_1 & + \;& a_{22} x_2   &\; + \cdots + \;& a_{2M} x_M &\; = \;& b_2 \\
\vdots\;\;\; &   & \vdots\;\;\; &                & \vdots\;\;\; &     & \;\vdots \\
a_{N1} x_1 & + \;& a_{N2} x_2   &\; + \cdots + \;& a_{NM} x_M &\; = \;& b_N \\
\end{matrix}
\end{align}
\end{split}

이를 행렬과 벡터의 곱셈으로 표현해보자.

\begin{split}
\begin{align}
\begin{bmatrix}
a_{11} & a_{12} & \cdots & a_{1M} \\
a_{21} & a_{22} & \cdots & a_{2M} \\
\vdots & \vdots & \ddots & \vdots \\
a_{N1} & a_{N2} & \cdots & a_{NM} \\
\end{bmatrix}
\begin{bmatrix}
x_1 \\ x_2 \\ \vdots \\ x_M
\end{bmatrix}
=
\begin{bmatrix}
b_1 \\ b_2 \\ \vdots \\ b_N
\end{bmatrix}
\end{align}
\end{split}

여기서 행렬과 각 벡터에 대해 $A, x, b$로 표현하면 아래와 같다.

\begin{split}
\begin{align}
A = 
\begin{bmatrix}
a_{11} & a_{12} & \cdots & a_{1M} \\
a_{21} & a_{22} & \cdots & a_{2M} \\
\vdots & \vdots & \ddots & \vdots \\
a_{N1} & a_{N2} & \cdots & a_{NM} \\
\end{bmatrix}
, \;\;
x = 
\begin{bmatrix}
x_1 \\ x_2 \\ \vdots \\ x_M
\end{bmatrix}
, \;\;
b=
\begin{bmatrix}
b_1 \\ b_2 \\ \vdots \\ b_N
\end{bmatrix}
\end{align}
\end{split}

따라서 이 선형 연립방정식은 다음처럼 쓸 수 있다.

$$Ax = b$$

이 식에서 $A, x, b$는 각각 **계수행렬 coefficient matrix, 미지수벡터 unknown vector, 상수벡터 constanct vector**라 한다.

만약 위의 $A, x, b$가 실수인 스칼라 값이라면 단순히 나눗셈을 이용해 다음처럼 계산할 수 있다.

$$x = \dfrac{B} A$$

In [8]:
# 예시

A = 2
x = 3
b = A * x

x, b/A

(3, 3.0)

하지만 행렬의 연산에는 나눗셈이 없기 때문에 이와 유사한 기능을 수행하는 **역행렬**을 이용한다.

## 역행렬

정방행렬 $A$에 대한 역행렬 $A^{-1}$은 원래 행렬 $A$와 다음 관계를 만족하는 정방행렬이다.

$$A^{-1}A = AA^{-1} = I$$

역행렬은 행렬 $A$가 정방행렬인지 아닌지에 따라 존재하지 않을 수 있다.

역행렬이 존재하는 행렬을 **가역행렬 invertable matrix, 정칙행렬 regular matrix, 비특이행렬 non-singular matrix**라 한다.

역행렬이 존재하지 않는 행렬은 **비가역행렬 non-invertable matrix, 특이행렬 singular matrix, 퇴화행렬 degenerate matrix**라 한다.

## 역행렬의 성질

- 전치행렬의 역행렬은 역행렬의 전치행렬과 같다. 따라서 대칭행렬의 역행렬도 대칭행렬이다.

$$(A^T)^{-1} = (A^{-1})^T$$

- 두 개 이상의 정방행렬의 곱은 같은 크기의 정방행렬이 된다. 이러한 행렬의 곱의 역행렬은 다음 성질이 성립한다.

마치 전치연산의 분배법칙과 유사하다.

$$(AB)^{-1} = B^{-1} A^{-1}$$

$$(ABC)^{-1} = C^{-1}B^{-1}A^{-1}$$

## 역행렬의 계산

역행렬을 구하는 방법은 아래의 공식으로 행렬식을 이용해 구할 수 있다.

\begin{split} 
\begin{align}
A^{-1} = \dfrac{1}{\det (A)} C^T = \dfrac{1}{\det (A)} 
\begin{bmatrix}
C_{1,1} & \cdots & C_{N,1}  \\
\vdots  & \ddots & \vdots   \\
C_{1,N} & \cdots & C_{N,N}  \\
\end{bmatrix}
\end{align}
\end{split}

위 식에서 $C$를 **여인수행렬**, $C^T$를 **어드조인트행렬** 이라고 하며 **adj(A)**로 표시한다.

- 코팩터 식을 이용해 다음 공식을 증명하자.

\begin{split}
\begin{align}
\begin{bmatrix} 
a_{11} & a_{12} \\
a_{21} & a_{22}  
\end{bmatrix}^{-1}
=
\dfrac{1}{a_{11}a_{22} - a_{12}a_{21}}
\begin{bmatrix} 
a_{22} & -a_{12} \\
-a_{21} & a_{11}  
\end{bmatrix}
\end{align}
\end{split}

![image.png](attachment:image.png)

## 역행렬에 대한 공식

### 셔먼-모리슨(Sherman–Morrison) 공식

정방행렬 $A$와 벡터 $u, v$에 대해 다음 공식이 성립한다.

\begin{align}
(A+uv^T)^{-1} = A^{-1} - {A^{-1}uv^T A^{-1} \over 1 + v^T A^{-1}u} 
\end{align}

이 공시은 $A$행렬이 $+uv^T$만큼 변했을 때 역행렬을 구하면 $- {A^{-1}uv^T A^{-1} \over 1 + v^T A^{-1}u} $만큼 변한다는 의미이다.

### 우드베리(Woodbury) 공식

정방행렬 $A$와 이에 대응하는 적절한 크기의 행렬 $U, V, C$에 대해 다음 공식이 성립한다.

\begin{align}
\left(A+UCV \right)^{-1} = A^{-1} - A^{-1}U \left(C^{-1}+VA^{-1}U \right)^{-1} VA^{-1} 
\end{align}

우드베리 공식은 셔먼-모리슨 공식을 확장한 개념으로 이해할 수 있다.

### 분할행렬의 역행렬

4개의 블록으로 분할된 행렬의 역행렬은 각 분할행렬을 이용해 구할 수 있다.

In [29]:
np.arange(16).reshape(4,-1)

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15]])

위 행렬을 4개의 블록으로 분할하면 다음과 같다.

In [40]:
np.arange(16).reshape(4,-1)[:2,:2]

array([[0, 1],
       [4, 5]])

In [42]:
np.arange(16).reshape(4,-1)[:2, 2:]

array([[2, 3],
       [6, 7]])

In [43]:
np.arange(16).reshape(4,-1)[2:, :2]

array([[ 8,  9],
       [12, 13]])

In [41]:
np.arange(16).reshape(4,-1)[2:,2:]

array([[10, 11],
       [14, 15]])

\begin{split} 
\begin{align}
\begin{bmatrix}
A_{11} & A_{12} \\
A_{21} & A_{22} 
\end{bmatrix}^{-1}
=
\begin{bmatrix}
A_{11}^{-1}(I + A_{12}FA_{11}^{-1}) & -A_{11}^{-1}A_{12}F \\
-FA_{21}A_{11}^{-1} & F
\end{bmatrix}
\end{align}
\end{split}

이 식에서 $F$는 다음과 같다.

\begin{align}
F = (A_{22} - A_{21}A_{11}^{-1}A_{12})^{-1}
\end{align}

또는

\begin{align}
F = (A_{11} - A_{12}A_{22}^{-1}A_{21})^{-1}
\end{align}

넘파이의 inv() 함수를 이용해 역행렬을 쉽게 구할 수 있다.

In [44]:
A = np.array([[1, 1, 0], [0, 1, 1], [1, 1, 1]])
A

array([[1, 1, 0],
       [0, 1, 1],
       [1, 1, 1]])

In [45]:
Ainv = np.linalg.inv(A)
Ainv

array([[ 0., -1.,  1.],
       [ 1.,  1., -1.],
       [-1.,  0.,  1.]])

## 역행렬과 선형 연립방정식의 해

선형 연립방정식에서 미지수 수와 방정식 수가 같다면 계수행렬 A는 정방행렬이 된다.

만약 행렬 $A$의 역행렬 $A^{-1}$이 존재하는 경우 역행렬 정의를 이용해 선형 연립방정식의 해를 구할 수 있다.

$$Ax = b$$

계수 행렬 $A$ 에서 미지수 벡터 $x$를 곱하면 상수벡터 $b$가 된다.

$$A^{-1}Ax = A^{-1}b$$

양쪽 항의 앞에 $A$의 역행렬 $A^{-1}$을 곱해주면 $A^{-1}A$ = $I$가 된다.

$$Ix = A^{-1}b$$

항등행렬 $I$와 벡터 $x$를 곱하면 $x$가 되므로 다음의 식이 완성된다.

$$x = A^{-1}b$$

넘파이를 이용해 선형 연립방정식의 해 $x$를 구해보자.

In [46]:
b = np.array([[2],[2],[3]])
b

array([[2],
       [2],
       [3]])

In [48]:
x = Ainv @ b
x

array([[1.],
       [1.],
       [1.]])

$x$ 벡터를 원래의 연립방정식에 대입해 상수벡터 $B$와 일치하는지 확인해보자.

In [52]:
A @ x - b

array([[0.],
       [0.],
       [0.]])

`lstqsq()`메소드를 이용하면 행렬 $A$와 $B$를 모두 인수로 받아 최소자승문제(least square problem)의 답 x, 잔차제곱합 (resid), 랭크 (rank), 특잇값 (s) 를 구할 수 있다.

In [54]:
x, resid, rank, s = np.linalg.lstsq(A, b)
x

  """Entry point for launching an IPython kernel.


array([[1.],
       [1.],
       [1.]])

## 선형 연립방정식과 선형 예측 모형

선형회귀 모델에서 가중치 벡터를 구하는 문제는 선형 연립방정식을 푸는 문제와 같다고 할 수 있다.

아래는 입력차원이 N개, 특징벡터가 N개인 입력데이터를 이용해 y를 구하는 예측 모형이다.

\begin{split}
\begin{align}
\begin{matrix}
x_{11} w_1 & + \;& x_{12} w_2   &\; + \cdots + \;& x_{1N} w_N &\; = \;& y_1 \\
x_{21} w_1 & + \;& x_{22} w_2   &\; + \cdots + \;& x_{2N} w_N &\; = \;& y_2 \\
\vdots\;\;\; &   & \vdots\;\;\; &                & \vdots\;\;\; &     & \;\vdots \\
x_{N1} w_1 & + \;& x_{N2} w_2   &\; + \cdots + \;& x_{NN} w_N &\; = \;& y_N \\
\end{matrix}
\end{align}
\end{split}

이를 행렬 $X$와 가중치 벡터 $x$, target값 벡터 $y$로 가정하면 다음의 식이 완성된다.

$$Xw = y$$

즉, 선형회귀 모델은 위의 식에서 가중치 벡터를 찾는 것으로 입력데이터 $X$에 대한 가중치 벡터 $w$를 찾는것으로 $X$ 행렬에 대한 역행렬 $X^{-1}$를 구해야한다.

$$w = X^{-1}y$$

In [55]:
from sklearn.datasets import load_boston
boston = load_boston()
X = boston.data
y = boston.target
A = X[:4,[0,4,5,6]] # CRIM, NOX, RM, AGE
b = y[:4]

In [63]:
# w를 구하기 위해 A의 역행렬과 b를 곱한다.

w = np.linalg.inv(A) @ b
w

array([-3.12710043e+02, -1.15193942e+02,  1.44996465e+01, -1.13259317e-01])

## 미지수 수와 방정식 수

위의 예제는 미지수의 수와 방정식의 수가 같은 경우에서의 선형 연립방정식이다. 하지만 실제 데이터 분석에서는 미지수가 방정식의 수가 더 많은 경우가 존재한다.

이처럼 미지수와 방정식의 수를 고려했을 때 그 종류는 다음과 같다.

1. 방정식의 수가 미지수 수와 같은 경우 (N = M)
2. 방정식의 수가 미지수 수보다 적은 경우 (N < M)
3. 방정식의 수가 미지수 수보다 많은 경우 (N > M)

1번의 경우는 위의 boston 집값 예시와 동일하다.

2번의 경우는 결론부터 말하자면 무수히 많은 해가 존재하므로 미지수를 구할 수 없다.

\begin{split}
\begin{align}
\begin{matrix}
x_1 & + & x_2 &   &     & = & 2  \\
    &   & x_2 & + & x_3 & = & 2  \\
\end{matrix}
\end{align}
\end{split}

이 경우 $x1 = x3 = 2 - x2$가 성립되므로 $x2$는 무수히 많은 미지수가 존재한다.

3번의 경우, 방정식의 수가 미지수 수보다 많은 경우 모든 조건을 만족하는 해가 존재하지 않을 수 있어 답을 구할 수 없다.

\begin{split}
\begin{align}
\begin{matrix}
x_1 & + & x_2 &   &     & = & 2  \\
    &   & x_2 & + & x_3 & = & 2  \\
x_1 & + & x_2 & + & x_3 & = & 3  \\
x_1 & + & x_2 & + & 2x_3 & = & 5  \\
\end{matrix}
\end{align}
\end{split}

이 경우 $x1 = x2 = x3 = 1$이 성립되는데 4번째 방정식을 만족하지 못한다.

그렇다면 2번과 3번의 경우 모두 미지수를 구할 수 없는것인가?

정답은 구할 수 있다.

## 최소자승문제

3번의 경우 정확히 말하자면 미지수를 구할 수 없다. 하지만 아래의 선형 연립방정식을 살펴보자.

\begin{split}
\begin{align}
\begin{matrix}
x_1 & + & x_2 &   &     & = & 2  \\
    &   & x_2 & + & x_3 & = & 2  \\
x_1 & + & x_2 & + & x_3 & = & 3  \\
x_1 & + & x_2 & + & 2x_3 & = & 4.1  \\
\end{matrix}
\end{align}
\end{split}

이 식에서 $x1 = x2 = x3 = 1$이라고 했을 때 4번째 방정식의 답은 4가 도출된다. 하지만 실제값 4.1과는 근소한 차이로 오차가 발생한다는 것을 알 수 있다.

\begin{split}
\begin{align}
\begin{matrix}
x_1 & + & x_2 &   &     & = & 2 & &\\
    &   & x_2 & + & x_3 & = & 2 & &\\
x_1 & + & x_2 & + & x_3 & = & 3 & &\\
x_1 & + & x_2 & + & 2x_3 & = & 4 & \approx & 4.1
\end{matrix}
\end{align}
\end{split}

따라서 3번과 같이 미지수의 수가 방정식의 수보다 적은 경우 정확한 값을 도출하기는 어렵지만 비슷한 값을 예측할 수 있는 문제로 바뀐다. 여기서 목표값과 예측값의 차이를 잔차(residual)이라고 한다.

$$e = Ax - b$$

잔차에 대해서 살펴보자. 잔차는 벡터로 표현되며 벡터의 놈(norm)을 최소하 하는 것으로 잔차 제곱합을 최소화 하는 것으로 이해할 수 있다.

\begin{align}
e^Te = \Vert e \Vert^2 = (Ax-b)^T(Ax-b)  
\end{align}

따라서 잔차제곱합이 최소가 되는 $x$를 구하는 식으로 아래와 같이 표현할 수 있다.

\begin{align}
x = \text{arg} \min_x e^Te = \text{arg} \min_x  \; (Ax-b)^T(Ax-b)  
\end{align}

위 식에서 $argmin_x f(x)는 함수 f(x)$를 가장 작게 만드는 $x$값을 의미하며 이를 **최소자승문제(least square problem)**이라고 한다.

위 식을 이해하기 위해 엄밀한 증명은 아니지만 아래의 가정을 이용해 이해를 도울 수 있다.

먼저 $A^TA$는 앞 행렬의 열의 개수 * 뒤 행렬의 행의 개수 shape을 가진 행렬로 변하므로 정방행렬이 된다는 점을 이용한다.

\begin{align}
Ax \approx b 
\end{align}

이 식의 양변에 $A^T$를 곱하면 아래와 같다.

$$A^TAx = A^Tb$$

여기서 정방행렬 $A^TA$의 역행렬 $(A^TA)^{-1}$이 존재한다고 가정하고 양변의 앞에 정방행렬의 역행렬을 곱해준다.

$$(A^TA)^{-1}(A^TA)x = (A^TA)^{-1}A^Tb$$

그럼 좌변은 $Ix$가 되고 결과적으로 $x$가 된다.

이를 통해 다음과 같이 정리할 수 있다.

$$x = ((A^TA)^{-1}A^T)b$$

엄밀한 수학적 증명은 이후 미분과 최적화를 공부한 뒤 다루자.

위 식에서 $(A^TA)^{-1}A^T$를 행렬 $A$의 **의사역행렬(pseudo inverse)**라 하며 $A^{+}$로 표기한다.

$$A^{+} = (A^TA)^{-1}A^T$$

$$x = A^{+}b$$

앞서 살펴본 미지수 x를 구한 lstsq() 함수는 사실 최소자승문제를 푸는 함수이다.

In [67]:
A = np.array([[1, 1, 0], [0, 1, 1], [1, 1, 1], [1, 1, 2]])
A

array([[1, 1, 0],
       [0, 1, 1],
       [1, 1, 1],
       [1, 1, 2]])

In [68]:
b = np.array([[2], [2], [3], [4.1]])
b

array([[2. ],
       [2. ],
       [3. ],
       [4.1]])

직접 의사역행렬을 구해보자.

In [70]:
Apinv = np.linalg.inv(A.T @ A) @ A.T
Apinv

array([[ 0.33333333, -1.        ,  0.33333333,  0.33333333],
       [ 0.5       ,  1.        ,  0.        , -0.5       ],
       [-0.5       ,  0.        ,  0.        ,  0.5       ]])

In [72]:
x = Apinv @ b
x

array([[1.03333333],
       [0.95      ],
       [1.05      ]])

위의 x를 이용해 b값을 예측해보면 실제 b값과 매우 유사한 것을 확인할 수 있다.

In [76]:
print(A @ x)
print()
print(b)

[[1.98333333]
 [2.        ]
 [3.03333333]
 [4.08333333]]

[[2. ]
 [2. ]
 [3. ]
 [4.1]]


In [77]:
x, resid, rank, s = np.linalg.lstsq(A, b)
x

  """Entry point for launching an IPython kernel.


array([[1.03333333],
       [0.95      ],
       [1.05      ]])

위 코드에서 `resid`는 잔차벡터 $e$의 제곱합, 즉 놈의 제곱이다.

$$e = Ax - b$$

In [80]:
resid, np.linalg.norm(A @ x - b) ** 2

(array([0.00166667]), 0.0016666666666666624)

In [81]:
from sklearn.datasets import load_boston
boston = load_boston()
X = boston.data
y = boston.target


In [87]:
# 공식을 이용한 w벡터 계산

np.linalg.inv(X.T @ X) @ X.T @ y

array([-9.28965170e-02,  4.87149552e-02, -4.05997958e-03,  2.85399882e+00,
       -2.86843637e+00,  5.92814778e+00, -7.26933458e-03, -9.68514157e-01,
        1.71151128e-01, -9.39621540e-03, -3.92190926e-01,  1.49056102e-02,
       -4.16304471e-01])

In [82]:
# lstsq() 함수를 이용한 w벡터 계산

w, resid, rank, s = np.linalg.lstsq(X, y)
w

  """Entry point for launching an IPython kernel.


array([-9.28965170e-02,  4.87149552e-02, -4.05997958e-03,  2.85399882e+00,
       -2.86843637e+00,  5.92814778e+00, -7.26933458e-03, -9.68514157e-01,
        1.71151128e-01, -9.39621540e-03, -3.92190926e-01,  1.49056102e-02,
       -4.16304471e-01])

In [85]:
# 잔차 제곱합 계산

np.linalg.norm(X @ w - y) ** 2

12228.046261044008