# 2.4 선형 연립방정식과 역행렬

In [3]:
import numpy as np

## 선형 연립방정식(system of linear equations)

복수의 미지수를 포함하는 복수의 선형 방정식.

$$ \quad
\begin{bmatrix} 
   a_11 & a_12 & \cdots & a_1M \\
   a_21 & a_22 & \cdots & a_2M \\
   \vdots & \vdots & \ddots & \vdots \\
   a_N1 & a_N2 & \cdots & a_NM
\end{bmatrix}
\begin{bmatrix} 
   x_1 \\
   x_2 \\
   \vdots \\
   x_M
\end{bmatrix}
=
\begin{bmatrix} 
   b_1 \\
   b_2 \\
   \vdots \\
   b_N
\end{bmatrix}
\quad 
$$

$$ Ax = b $$

- $A$: 계수행렬(coefficient matrix) 
- $x$: 미지수벡터(unknown vector) 
- $b$: 상수벡터(constant vector)

## 역행렬(inverse matrix)

(행렬식이 0이 아닌) 정방행렬  A에 대하여 다음 관계를 만족하는 정방행렬.

$$A^{-1}A = AA^{-1} = I$$

- 행렬 A에 따라서는 존재하지 않을 수도 있다. 
- 역행렬이 존재하는 행렬: **가역행렬(invertible matrix)** 
- 역행렬이 존재하지 않는 행렬: **특이행렬(singular matrix)**

### 역행렬의 계산

$$
A^{-1} = \frac{1}{det(A)}C^T = \frac{1}{det(A)}
\begin{bmatrix} 
   C_{1,1} & C_{2,1} & \cdots & C_{N,1} \\
   C_{2,1} & C_{2,2} & \cdots & C_{N,2} \\
   \vdots & \vdots & \ddots & \vdots \\
   C_{1,N} & C_{2,N} & \cdots & C_{N,N}
\end{bmatrix}
$$

- $C_{i,j}$는 $A$의 $i, j$번째 원소에 대해 정의한 여인수(cofactor).
- 행렬 $C$: **여인수행렬**(matrix of cofactors, 또는 cofactor matrix, comatrix)

$C^T$: 여인수행렬의 전치행렬. **어드조인트행렬**(adjoint matrix, adjugate matrix, 수반행렬). $adj(A)$

### 넘파이를 사용한 역행렬 계산

In [4]:
A = np.array([[1, 1, 0], [0, 1, 1], [1, 1, 1]])
A

array([[1, 1, 0],
       [0, 1, 1],
       [1, 1, 1]])

In [5]:
Ainv = np.linalg.inv(A)
Ainv

array([[ 0., -1.,  1.],
       [ 1.,  1., -1.],
       [-1.,  0.,  1.]])

## 역행렬과 선형 연립방정식의 해

In [6]:
b = np.array([[2], [2], [3]])
b

array([[2],
       [2],
       [3]])

In [7]:
x = Ainv @ b
x

array([[1.],
       [1.],
       [1.]])

In [10]:
# 검증
A @ x == b

array([[ True],
       [ True],
       [ True]])

### Numpy 최소제곱법: np.linalg.listsq(A, b)

`lstsq()` 명령을 사용하는 것이 `inv()` 명령을 사용하는 것보다 수치오차가 적고 코드도 간단하므로 선형 연립방정식의 해를 구할 때도 `lstsq()` 명령을 사용하는 것을 권장한다.

In [13]:
x, resid, rank, s = np.linalg.lstsq(A, b, rcond=-1)
x

array([[1.],
       [1.],
       [1.]])

## 선형 연립방정식과 선형 예측모형

In [18]:
from sklearn.datasets import load_boston
boston = load_boston()
X = boston.data
y = boston.target
A = X[:4, [0, 4, 5, 6]]  # 'CRIM', 'NOX', 'RM', 'AGE'
b = y[:4]

In [21]:
A

array([[6.320e-03, 5.380e-01, 6.575e+00, 6.520e+01],
       [2.731e-02, 4.690e-01, 6.421e+00, 7.890e+01],
       [2.729e-02, 4.690e-01, 7.185e+00, 6.110e+01],
       [3.237e-02, 4.580e-01, 6.998e+00, 4.580e+01]])

In [22]:
b

array([24. , 21.6, 34.7, 33.4])

In [38]:
x, resid, rank, s = np.linalg.lstsq(A, b, rcond=-1)
x

array([-3.12710043e+02, -1.15193942e+02,  1.44996465e+01, -1.13259317e-01])

각각 범죄율(CRIM), 공기 오염도(NOX), 방의 개수(RM), 오래된 정도(AGE) 가중치

가중치의 크기나 부호가 우리의 직관/경험과 일치하는 것을 알 수 있다.

## 미지수의 수와 방정식의 수

### 연립 방정식의 종류

1. 방정식의 수가 미지수의 수와 같다. ( N=M )
> 해가 한정됨.

2. 방정식의 수가 미지수의 수보다 적다. ( N<M )
> 무수히 많은 해가 존재할 수 있음.

3. 방정식의 수가 미지수의 수보다 많다. ( N>M )
> 해가 존재하지 않을 수 있음.

## 최소자승문제

위 3번의 경우, 선형 예측모형에서 좌변을 예측값, 우변을 목푯값이라고 생각한다면 100% 정확하지는 않지만 상당히 비슷한 수준으로는 예측하는 것이 가능하다.
> 따라서 미지수의 개수보다 방정식의 개수가 많아서 선형 연립방정식으로 풀수 없는 문제는 좌변과 우변의 차이를 최소화하는 문제로 바꾸어 풀 수 있다.

### 잔차(residual): 예측값과 목푯값의 차이

$$e = Ax - b$$

잔차는 벡터이므로, 최소자승문제에서는 벡터의 크기 중에서 **벡터의 놈(norm)을 최소화**하는 문제를 풀어야 한다.

$$e^Te = \Vert e \Vert^2 = (Ax - b)^T(Ax-b)$$

$$ x = \arg \min_{x}{e^te} = \arg \min_{x}{(Ax - b)^T(Ax-b)} $$

### 의사역행렬(pseudo inverse)

$ Ax \approx b $ 이고 $ (A^TA)^{-1}$이 존재할 때,

$$A^TAx = A^Tb$$
$$(A^TA)^{-1}A^TAx = (A^TA)^{-1}A^Tb$$
$$ \therefore x = ((A^TA)^{-1}A^T)b$$

여기서 행렬 $(A^TA)^{-1}A^T$를 행렬 A의 **의사역행렬 $A^{+}$**이라고 한다.

$$x = A^{+}b$$

### np.linalg.lstsq(): 최소자승문제 해결 명령

In [39]:
A = np.array([[1, 1, 0], [0, 1, 1], [1, 1, 1], [1, 1, 2]])
A

array([[1, 1, 0],
       [0, 1, 1],
       [1, 1, 1],
       [1, 1, 2]])

In [40]:
b = np.array([[2], [2], [3], [4.1]])
b

array([[2. ],
       [2. ],
       [3. ],
       [4.1]])

In [41]:
x, resid, rank, s = np.linalg.lstsq(A, b, rcond=-1)
# 가중치
x

array([[1.03333333],
       [0.95      ],
       [1.05      ]])

In [42]:
# 잔차제곱합
resid, np.linalg.norm(A @ x - b) ** 2

(array([0.00166667]), 0.0016666666666666698)

## 연습 문제 2.4.6

In [43]:
from sklearn.datasets import load_boston
boston = load_boston()
X = boston.data
y = boston.target

In [44]:
x, resid, rank, s = np.linalg.lstsq(X, y, rcond=-1)
x

array([-9.28965170e-02,  4.87149552e-02, -4.05997958e-03,  2.85399882e+00,
       -2.86843637e+00,  5.92814778e+00, -7.26933458e-03, -9.68514157e-01,
        1.71151128e-01, -9.39621540e-03, -3.92190926e-01,  1.49056102e-02,
       -4.16304471e-01])

가중치 이름:
1. CRIM: 범죄율
2. INDUS: 비소매상업지역 면적 비율
3. NOX: 일산화질소 농도
4. RM: 주택당 방 수
5. LSTAT: 인구 중 하위 계층 비율
6. B: 인구 중 흑인 비율
7. PTRATIO: 학생/교사 비율
8. ZN: 25,000 평방피트를 초과 거주지역 비율
9. CHAS: 찰스강의 경계에 위치한 경우는 1, 아니면 0
10. AGE: 1940년 이전에 건축된 주택의 비율
11. RAD: 방사형 고속도로까지의 거리
12. DIS: 보스톤 직업 센터 5곳까지의 가중평균거리
13. TAX: 재산세율

결론: 개인적인 직관이나 경험과는 다소... 일치한다고 판단된다.