# 행렬의 성질

- 행렬은 여러 개의 숫자와 부호들의 묶음이다.
- 따라서 모든 행렬의 부호나 크기를 정하기 어렵고, 일정 조건에 대해 행렬의 부호와 크기를 정할 수 있다.

## 1.행렬의 부호
모든 행렬의 부호에 대해 세 가지 중 하나로 정의할 수 있다.
1. (양의) 정부호이다.
2. (양의) 준정부호이다.
3. 정부호도 준정부호도 아니다.

- 보통 대칭행렬에 대해서만 부호를 정의하는 편이다.
    - 대칭행렬 : 행렬의 전치연산의 결과가 원래 행렬과 같은 행렬($A^T=A$)
    - 대칭행렬이 아닌 경우 부호를 정의할 필요성이 떨어지기 때문
 
- 행렬의 부호를 정의하는 방법
    - 벡터 $x$와 행렬 $A$에 대한 수식 $x^TAx$의 값이 0 이상 혹은 초과인지 확인
- 조건 : **벡터 $x$가 0벡터가 아닐 때($x \neq 0$)**
    - 벡터 $x$가 0벡터이면 모든 행렬에 대해 수식 $x^TAx$의 결과가 $0$이 나와 양의 준정부호가 되기 때문

### 정부호
- 벡터 $x$에 대해 다음 부등식이 성립하면 행렬 $A$가 **양의 정부호(positive definite)** 라고 한다.

$$
x^TAx > 0
$$

### 준정부호
- 벡터 $x$에 대해 다음 부등식이 성립하면 행렬 $A$가 **양의 준정부호(positive semi-definite)** 라고 한다.

$$
x^TAx \geq = 0
$$

### 항등행렬 $I$는 양의 정부호
- $x^T I x$의 값이 벡터 $x$의 모든 값이 제곱이 되는 형태이기 때문에 항등행렬 $I$는 항상 양의 정부호가 된다.

$$
x^T I x = 
\begin{bmatrix}
x_1 & x_2 & \cdots & x_N
\end{bmatrix}
\begin{bmatrix}
1&0&\cdots&0\\
0&1&\cdots&0\\
\vdots&\vdots&\ddots&\vdots\\
0&0&\cdots&1\\
\end{bmatrix}
\begin{bmatrix}
x_1 \\ x_2 \\ \vdots \\ x_N
\end{bmatrix}
= x_1^2 + x_2^2 + \cdots + x_N^2 > 0
$$

## 2. 행렬의 크기

- 특정 조건의 행렬에 대해 세 가지 방법으로 행렬의 크기와 유사한 개념의 숫자를 계산할 수 있다.

### 1. 행렬 놈(Norm)
- 행렬 놈은 행렬 $A$에 대해 다음 식으로 정의된다.
    - 행렬 놈의 여러 정의 중 **요소별 행렬놈의 정의**를 따른 것
    - 결과 : 행렬의 각 원소의 $p$승의 합의 $\frac{1}{p}$승

$$
\| A \|_{p}=\left( \sum_{i=1}^N\sum_{j=1}^M \left|a_{ij} \right| ^p\right)^{\frac{1}{p}}
$$

> - $a_{ij}$는 행렬 $A$의 $i$번째 행, $j$번째 열의 원소
>
> - $p = 1,2,\ldots,\infty$

* 프로베니우스 놈($p = 2$)
    - $p = 2$인 놈
    - $p = 2$인 경우 가장 많이 쓰이기 때문에 따로 정의됨
    - 아래와 같이 $p$에 대해 생략되거나 $F$라고 표기할 수 있다.

$$
\| A \|_{2}=\| A \|=\| A \|_{F}=\sqrt{\sum_{i=1}^N\sum_{j=1}^M a_{ij}^2}
$$
- $a_{ij}^p$를 통해 **놈은 항상 0보다 같거나 크다**는 것을 알 수 있다.
- 즉, **놈은 0 또는 양수**이다.
    - $a_{ij}=0$일 경우 $0^p$는 $p$($p = 1,2,\ldots,\infty$)에 어떤 값이 오든 $a_{ij}^p=0$이 되어 놈의 크기가 $0$이 된다.
    - 크기가 0인, 즉 크기가 없는 행렬이 존재한다는 것을 유념

#### 벡터의 놈
- 행렬과 마찬가지로 벡터의 놈을 구할 수 있다.

$$
\| x \|_p = \left(\sum_{i=1}^N x_i^p\right)^{\frac{1}{p}}
$$

- **벡터의 놈의 제곱은 벡터의 제곱합과 같다.**
    - 벡터 $x$의 제곱합 : 벡터의 각각의 데이터(요소)를 제곱한 뒤, 그 값을 모두 더한 것으로 데이터 벡터 $x$끼리 내적한 결과($x^Tx$)와 같음

$$
\| x \|^2 = \sum_{i=1}^N x_i^2 = x^Tx
$$

- **벡터의 놈을 최소화하는 것은 벡터의 제곱합을 최소화하는 것**과 같다.
    - 놈은 $0$ 또는 양수이므로, 벡터의 놈의 제곱이 가장 작을 때 놈도 가장 작은 값을 가지기 때문
    - 실제로 놈의 제곱이 가장 작을 때는 $\| x \|_p =0$이고 벡터 $x$가 $0$벡터일 때 이와 같은 값이 나오게 된다.
    - 선형회귀 모델을 만들 때 오차에 대한 벡터 $e$의 제곱합($e^Te$)을 최소화하기 위해 벡터 $e$의 놈($\| e \|^2 $)을 최소화하는 방법을 사용할 수 있다.

- 넘파이에서 `linalg` 서브패키지의 `norm()` 함수를 이용해 행렬의 놈을 계산할 수 있다.

In [6]:
import numpy as np

a = np.array([[-4, -3, -2], [-1,  0,  1], [ 2,  3,  4]])

np.linalg.norm(a)

7.745966692414834

#### 정확한 놈의 정의
- 위의 놈의 공식은 공식적인 정의라고 볼 수는 없다.
- 정확한 놈의 정의는 다음 네 가지 성질이 성립하는 행렬 연산을 의미한다.
    - 이러한 연산이 여러 개 존재하기 때문에 놈의 정의도 다양하다.

1. $\| A \| \geq 0$ : 놈의 값은 0 이상이다. 영행렬일 때만 놈의 값이 0이 된다.
2. $\| \alpha A \| = \left| \alpha \right| \| A \|$ : 행렬에 스칼라($\alpha$)를 곱하면, 놈의 값도 그 스칼라의 절대값을 곱한것과 같다.
3. $\| A + B \leq \| A \| + \| B \|$ : 행렬의 합의 놈은 각 행렬의 놈의 합보다 작거나 같다.
4. $\| AB \leq \| A \| \| B \|$ : 행렬의 곱의 놈은 각 행렬의 놈의 곱보다 작거나 같다.

- $p=2$일 때 위 조건을 모두 만족하며, 계산하기 간편하기 때문에 $p=2$를 가장 많이 사용한다.

### 2. 대각합(Trace)
- 조건 : 대각합은 **정방행렬에 대해서만 정의**할 수 있다.
    - 정방행렬 : 행의 개수와 열의 개수가 같은 행렬
 
- 대각합은 **(주)대각원소의 합**으로 계산된다.

$$
\text{tr}(A) = a_{11} + a_{22} + \ldots + a_{NN} = \sum_{i=1}^N a_{ii}
$$

- N차원 항등행렬($I$)의 대각합은 $N$이 된다.
    - 항등행렬의 주대각원소는 모두 $1$이다.
$$
\text{tr}(I) = i_{11} + i_{22} + \ldots + i_{NN} = = 1 + 1 + \ldots + 1 = N \times 1 = N
$$

- 대각합을 구할 때는 행렬의 원소에 절대값이나 제곱을 취하지 않기 때문에 **음수가 될 수도 있다.**
  - 대각합을 행렬의 크기가 아닌 크기와 비슷한 개념으로 생각하면 된다. 

#### 대각합의 성질
> - 스칼라 $c$, 행렬 $A$, $B$, $C$

1. $\text{tr}(cA)=c\cdot \text{tr}(A)$ : 스칼라를 곱하면 대각합은 스칼라와 원래 대각합의 곱이다.
2. $\text{tr}(A^T)=\text{tr}(A)$ : 전치연산을 해도 대각합은 달라지지 않는다.
3. $\text{tr}(A+B)=\text{tr}(A)+\text{tr}(B)$ : 두 행렬의 합의 대각합은 두 행렬의 대각합의 합과 같다.
4. $\text{tr}(AB)=\text{tr}(BA)$ : 두 행렬의 곱의 대각합은 대각합의 행렬의 순서를 바꾸어도 달라지지 않는다.
    - 이 때, 대각합을 구할 $AB$, $BA$가 정방행렬이기만 하면 된다.
5. 세 행렬의 곱의 대각합은 다음과 같이 순서를 순환시켜도 달라지지 않는다.
    - $\text{tr}(ABC)=\text{tr}(BCA)=\text{tr}(CAB)$
    - $\text{tr}((AB)C)=\text{tr}(C(AB))=\text{tr}((CA)B)=\text{tr}(B(CA))$
    - 대각합을 구할 수 있는 것은 정방행렬이고, 정방행렬의 주대각 요소는 항상 같은 자리에 위치하기 때문에 가능
    - 대각합을 구할 $\text{tr}$식에서의 행렬이 정방행렬이기만 하면 된다.
    - 위 식을 **트레이스 트릭(trace trick)** 이라고 한다.
  
* **이차형식의 트레이스 트릭 공식**은 다음과 같다.
    - 이차형식의 결과값은 스칼라값이기 때문에 대각합을 취해도 원래의 값과 같다.
    - 행렬 미적분을 구하는데 사용되는 성질이다.
$$
x^TAx = \text{tr}(x^TAx) = \text{tr}(Axx^T) = \text{tr}(xx^TA) 
$$

$$
\left( x^TAx = \sum_{i=1}^N\sum_{j=1}^Na_{i,j}x_ix_j \right)
$$

#### 넘파이에서 대각합 구하기
- 넘파이에서 `trace()` 함수를 이용해 대각합을 구할 수 있다.

In [7]:
x = np.array([[1], [2], [3]])
a = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])

x.T @ a @ x, np.trace(x.T @ a @ x)

(array([[228]]), 228)

### 3. 행렬식(determinant)

- 조건 : **정방행렬**에 대해서만 행렬식을 정의할 수 있다.
- 정방행렬 $A$의 행렬식은 $\det(A)$, $\det A$ 혹은 $\left| A \right|$기호로 표기한다.

#### 정방행렬 $A$가 $1 \times 1$ 차원의 행렬, 즉 스칼라인 경우
- $A$의 행렬식은 자기 자신인 스칼라값이 된다.
 
$$
A = \begin{bmatrix} a \end{bmatrix}
$$

$$
A \in \mathbf{R}^{1 \times 1} \rightarrow \det([a]) = a
$$

#### 정방행렬 $A$가 스칼라가 아닌 경우
- 행렬식을 **여인수 전개(cofactor expansion)** 를 이용하여 계산한다.

$$
\det(A) = \sum_{i=1}^N C_{i,j_0}a_{i,j_0} a_{i,j_0} = \sum_{i=1}^N C_{i_0,j} a_{i_0,j}
$$

$$
a_{i,j} \in A \in \mathbf{R}^{N \times M}
$$

> - $a_{i,j}$는 정방행렬 $A$의 $i$행, $j$열 원소, $i_0$ 및 $j_0$는 임의로 지정한 행번호와 열번호
>
> - $C_{i,j}$는 여인수이고 코팩터(cofactor)라고 읽는다. $C_{i,j}= (-1)^{i+j} M_{i,j}$이다.

- 여인수 전개
    - 행렬식의 표현이자 행렬식 전개의 기초적인 계산법 중 하나로 라플라스 전개라고도 한다.
    - **$N \times N$ 차원의 행렬에서 부분행렬인 $(N-1) \times (N-1)$ 행렬식과 소행렬의 곱으로 이루어지는 전개**
    - $(-1)^{i+j}$ : 소행렬식($M_{ij}$) 부호를 나타낸다.
        - 정방행렬 $A$의 원소 $a_{i,j}$에서 $i$와 $j$에 어떤 정수가 와도 $1$ 또는 $-1$의 값을 가지기 때문이다. 
    - 소행렬식($M_{ij}$) :  **임의로 지정한 $i$번째 행 혹은 $j$번째 열을 제거하여 소행렬을 구하는 행렬식**  
        - 소행렬은 1, 2개 정도의 행과 열을 제거한 정방행렬.
        - 소행렬식은 마이너(minor) $M$ 라고 한다.
    - 여인수 전개는 인수가 남아있지 않을 때 까지 식을 전개한다는 뜻이다.
    - 마이너(소행렬식) $M$도 행렬식이므로 행렬식의 공식을 통해 **소행렬이 스칼라가 될 때 까지** 반복하여 행렬식의 값이 자기 자신이 되게 한다.
    - 즉, 행렬식을 구하는 방법은 **재귀적**이다.
 
- 정방행렬 $A$에서 $i=1$, $j=1$로 행과 열을 지정했을 때 마이너(소행렬식)인 $M_{1,1}$은 다음과 같다. 

$$
A = \begin{bmatrix}1&2&3\\4&5&6\\7&8&9\end{bmatrix}
$$

$$
\det(A) = \{(-1)^{1+1}M_{1,1}\}a_{11}+\{(-1)^{2+1}M_{2,1}\}a_{21}+\{(-1)^{3+1}M_{3,1}\}a_{31} = M_{1,1} -4M_{2,1} + 7M_{3,1}
$$

$$
M_{1,1}
= 
\begin{bmatrix}\cancel{1}&\cancel{2}&\cancel{3}\\\cancel{4}&5&6\\\cancel{7}&8&9\end{bmatrix}
=
\begin{bmatrix}5&6\\8&9\end{bmatrix}
$$

- $M_{1,1}$는 행렬식이기 때문에 스칼라값이 나올 때 까지 행렬식을 계산한다.
    - 소행렬(정방행렬) $M_{1,1}$에서 $i=1$, $j=1$로 지정한 행과 열로 마이너(소행렬식)를 계산한다.

$$
M_{1,1} = \begin{bmatrix}5&6\\8&9\end{bmatrix} = \{(-1)^{1+1}M^{\prime}_{1,1}\}a^{\prime}_{1,1}+\{(-1)^{1+2}M^{\prime}_{1,2}\}a^{\prime}_{1,2}
$$

$$
M^\prime_{1,1} = \begin{bmatrix}\cancel5&\cancel6\\\cancel8&9\end{bmatrix} = \det(\begin{bmatrix} 9 \end{bmatrix}) = 9 \;\;\;\; 
M^\prime_{1,2} = \begin{bmatrix}\cancel5&6\\\cancel8&\cancel9\end{bmatrix} = \det(\begin{bmatrix} 6 \end{bmatrix}) = 6 \;\;\;\; 
$$

$$
M_{1,1} = \{(-1)^{1+1}M^{\prime}_{1,1}\}a^{\prime}_{1,1}+\{(-1)^{1+2}M^{\prime}_{1,2}\}a^{\prime}_{1,2} = 9\times5 -6\times6 = 45 -36 =-9
$$
- 최종적으로 1행 1열을 지정할 때 $M_{1,1}=9$가 된다.
- 같은 방법으로 $M_{2,1}$, $M_{3,1}$을 구해 $\det(A)$를 계산할 수 있다.

1. $j_0$로 열을 지정하는 경우
   - ex. $j_0=1$로 열을 고정하여 행렬식을 계산하면 된다.

$$
\det(A) = \sum_{i=1}^N C_{i,j_0}a_{i,j_0} a_{i,j_0} = \sum_{i=1}^N \{ \left( -1 \right)^{i+j_0} M_{i,j_0} \} a_{i,j_0}
$$

2. $i_0$로 행을 지정하는 경우
    - ex. $i_0=1$로 행을 고정하여 행렬식을 계산하면 된다.
    
$$
\det(A) = \sum_{j=1}^N C_{i_0,j} a_{i_0,j} = \sum_{j=1}^N \{ \left( -1 \right)^{i_0+j} M_{i_0,j} \} a_{i_0,j}
$$

#### 정방행렬 $A$가 $2 \times 2$ 차원의 행렬인 경우
- 행렬 $A$가 스칼라가 아니기 때문에 위 처럼 여인수 전개를 이용하여 계산하면 된다.
- 행렬 $A$의 행렬식을 계산하면 다음과 같은 공식을 가진다.

 
$$
A = \begin{bmatrix} a_{11} & a_{12} \\ a_{21} & a_{22} \end{bmatrix} = \begin{bmatrix} a & b \\ c & d \end{bmatrix}
$$

$$
A \in \mathbf{R}^{2 \times 2} \rightarrow \det(A) = a_{11}a_{22} - a_{12}a_{21} = ad - bc
$$

- 위 공식으로 연립일차방정식의 유일한 해가 존재하는지 아닌지를 판별할 수 있다.
    - 해당 문서 `3-1.선형 연립방정식` 챕터에 좀 더 자세히 설명되어 있다. 
- 일단, 아래와 같이 행렬을 이용해 연립일차방정식을 간결하게 표현할 수 있다.
$$a_{11} x_1 + a_{12} x_2 = b_1$$

$$a_{21} x_1 + a_{22} x_2 = b_2$$

$$
A = \begin{bmatrix} a_{11} & a_{12} \\ a_{21} & a_{22} \end{bmatrix} = \begin{bmatrix} a & b \\ c & d \end{bmatrix}, \;\;\;\; 
X = \begin{bmatrix} x_1 \\ x_2 \end{bmatrix}, B = \begin{bmatrix} b_1 \\ b_2 \end{bmatrix}
$$

$$
AX = B
$$

> - $a$, $b$, $c$, $d$는 스칼라값

- 연립방정식이 단 하나의 해를 갖기 위해서는 행렬 A의 행렬식이 0이 아니어야 한다.
    - $\det(A) = ad - bc \neq 0$가 성립하면 연립일차방정식의 유일한 해의 존재유무를 판별할 수 있는 것이다.

#### 행렬식의 성질
행렬식은 다음과 같은 성질을 만족한다.
-  $\det(A^T)=\det(A)$ :전치행렬의 행렬식은 원래의 행렬식과 같다.
-  $\det(I)=1$ : 항등행렬의 행렬식은 1이다.
-  $\det(AB)=\det(A)\det(B)$ : 두 행렬의 곱의 행렬식은 각 행렬의 행렬식 곱과 같다.
-  $\det(A^{-1})=\frac{1}{\det(A)} $ : 역행렬의 행렬식은 원래의 행렬의 행렬식의 역수와 같다.
    -  역행렬 $A^{-1}$은 원래의 행렬 $A$에 대해 다음과 같은 관계를 만족하는 정방행렬이다.
    -  $A^{-1}A=AA^{-1}=I$
    -  $I$는 항등행렬이다.
    -  $\det(A)\det(A^{-1}) = \det(I) = 1$ : 위 식은 여인수 전개식을 사용하여 증명 가능

#### 넘파이에서 행렬식 구하기
- 넘파이에서 `linalg` 서브패키지의 `det()` 함수를 이용해 행렬식을 계산할 수 있다.

In [8]:
a = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])

np.linalg.det(a)

0.0

## 3. 최적의 가중치를 찾아내는 방법

- **선형 회귀 모델** : 입력 데이터($x$)와 가중치($w$)의 내적을 통해 계산된 결과(예측값 $\hat y$)가 실제 결과 데이터($y$)와 유사한 값을 출력하도록 하는 모델

$$
\hat y = Xw
$$
- 입력 데이터인 행렬 $X$는 주어지는 데이터라서 항상 동일(행렬의 요소가 고정된 스칼라값을 가진다.)
- 선형 회귀 모델의 목표
    - 고정값인 입력 데이터를 제외하고 **실제 데이터와 흡사한 결과물($\hat y$)을 계산할 수 있도록 최적의 가중치 $w$를 찾기**
- 최적의 $w$를 찾아내는 방법으로 연립방정식과 역행렬을 이용할 수 있다.

### 1. 선형 연립방정식(연립 일차방정식)
- **복수의 미지수를 포함하는 복수의 선형(일차) 방정식**

- M개의 미지수와 N개의 선형 방정식을 가지는 선형 연립방정식은 다음과 같은 형태이다.

$$
a_{11}x_1 \quad + \quad a_{12}x_2 \quad + \cdots + \quad a_{1M}x_M \quad = \quad b_1
$$

$$
a_{21}x_1 \quad + \quad a_{22}x_2 \quad + \cdots + \quad a_{2M}x_M \quad = \quad b_2
$$

$$
\vdots
$$

$$
a_{N1}x_1 \space\space\space\space + \space\space\space\space a_{N2}x_2 \space\space\space + \cdots + \space\space\space\space a_{NM}x_M \space\space = \quad b_N
$$

> - $x_1, x_2, \ldots, x_M$은 미지수, $a$와 $b$는 방정식의 계수

- 방정식의 계수 $a$를 행렬 $A$, 미지수를 벡터 $x$, 방정식의 계수 $b$를 벡터 $b$로 표현할 수 있다.
    - $A$를 계수행렬(cofficient matrix)라고 부른다.
    - $x$를 미지수벡터(unknown vector)라고 부른다.
    - $b$를 상수벡터(constant vector)라고 부른다.

$$
A=\begin{bmatrix}
a_{11}&a_{12}&\cdots&a_{1M}\\
a_{21}&a_{22}&\cdots&a_{2M}\\
\vdots&\vdots&\ddots&\vdots\\
a_{N1}&a_{N2}&\cdots&a_{NM}\\
\end{bmatrix},\quad
x=
\begin{bmatrix}
x_1 \\ x_2 \\ \vdots \\ x_N
\end{bmatrix},\quad
b=\begin{bmatrix}
b_1 \\ b_2 \\ \vdots \\ b_N
\end{bmatrix}
$$

- 계수행렬 $A$, 미지수벡터 $x$, 상수벡터 $b$를 이용해 선형 연립방정식을 더 간결하게 표현할 수 있다.

$$
Ax = b
$$

#### $A$, $x$, $b$가 스칼라일 경우($A \in \mathbf{R}^{1 \times 1}$)
- 1개의 미지수와 1개의 선형방정식을 가지는 선형 연립방정식일 경우이다.

$$
ax = b
$$

- 미지수 $x$는 다음과 같이 쉽게 얻어낼 수 있다.

$$
A = \begin{bmatrix}a\end{bmatrix}\;\;\;\;  \rightarrow\;\;\;\;  Ax = b \;\;\;\; \rightarrow\;\;\;\;  x = \frac{b}{A} = \frac{b}{a}
$$

#### $A$, $x$, $b$가 행렬일 경우
- 행렬은 나눗셈이 정의되지 않기 때문에 $x = \frac{b}{A}$ 수식으로 $x$를 구할 수 없다.
- 행렬에서는 나눗셈 대신 역행렬을 사용한다.

### 2. 역행렬
- 조건 : 행렬 $A$는 **정방행렬이어야 역행렬을 정의할 수 있다.**
- 역행렬 $A^{-1}$은 원래의 행렬 $A$에 대해 다음과 같은 관계를 만족하는 정방행렬이다.
    -  $I$는 항등행렬이다.

$$
A^{-1}A=AA^{-1}=I
$$

- $A^{-1}$는 $A$ 인버스라고 읽는다.

- 정방행렬 $A$에 대해 역행렬은 항상 존재하는 것이 아니다.
    - 역행렬이 존재하는 행렬 : **가역행렬**(invertible matrix), 정칙행렬(regular matrix) 또는 비특이행렬(non-singular matrix)이라고 한다.
    - 역행렬이 존재하지 않는 행렬 : 비가역행렬(non-invertible matrix) 또는 **특이행렬**(singular matrix), 퇴화행렬(degenerate matrix)이라고 한다.

#### 대각행렬의 역행렬
- 대각행렬 : 모든 비대각 요소가 0인 행렬
- 대각행렬 $D$의 역행렬이 존재하려면 정방행렬인 대각행렬 $D$에 대해 역행렬을 정의해야 한다.

$$
D \in \mathbf{R}^{N \times N}, \;\;\;\; 
D 
=
\begin{bmatrix}
\lambda_1&0&\cdots&0\\
0&\lambda_2&\cdots&0\\
\vdots&\vdots&\ddots&\vdots\\
0&0&\cdots&\lambda_N
\end{bmatrix}, \;\;\;\;
D^{-1} = \begin{bmatrix}
\lambda^{\prime}_1&0&\cdots&0\\
0&\lambda^{\prime}_2&\cdots&0\\
\vdots&\vdots&\ddots&\vdots\\
0&0&\cdots&\lambda^{\prime}_N
\end{bmatrix}
$$

$$
D D^{-1} = I \rightarrow 
\begin{bmatrix}
\lambda_1&0&\cdots&0\\
0&\lambda_2&\cdots&0\\
\vdots&\vdots&\ddots&\vdots\\
0&0&\cdots&\lambda_N
\end{bmatrix}
\begin{bmatrix}
\lambda^{\prime}_1&0&\cdots&0\\
0&\lambda^{\prime}_2&\cdots&0\\
\vdots&\vdots&\ddots&\vdots\\
0&0&\cdots&\lambda^{\prime}_N
\end{bmatrix}
=
\begin{bmatrix}
1&0&\cdots&0\\
0&1&\cdots&0\\
\vdots&\vdots&\ddots&\vdots\\
0&0&\cdots&1
\end{bmatrix} \rightarrow 
$$

- $D$와 $D^{-1}$를 내적하면 $\lambda_i \cdot \lambda^{\prime}_i = 1$의 수식을 만족해야 하는 것을 알 수 있다.
- 따라서 $\lambda^{\prime}_i = \frac{1}{\lambda_i}$로 나타내면 대칭행렬 $D$의 역행렬은 아래와 같이 나타낼 수 있다.

$$
D^{-1}
=
\begin{bmatrix}
\lambda_1&0&\cdots&0\\
0&\lambda_2&\cdots&0\\
\vdots&\vdots&\ddots&\vdots\\
0&0&\cdots&\lambda_N
\end{bmatrix}^{-1}
=
\begin{bmatrix}
\frac{1}{\lambda_1}&0&\cdots&0\\
0&\frac{1}{\lambda_2}&\cdots&0\\
\vdots&\vdots&\ddots&\vdots\\
0&0&\cdots&\frac{1}{\lambda_N}
\end{bmatrix}\quad
$$

- 즉, **대각행렬의 역행렬**은 **각 대각성분의 역수로 이루어진 대각행렬**과 같다.

#### 역행렬의 성질
- 정방행렬 $A$, $B$, $C$ 모두 역행렬이 존재할 때, 역행렬은 다음의 성질을 만족한다.
    - $(A^T)^{-1} = (A^{-1})^T $ : 전치행렬의 역행렬은 역행렬의 전치행렬과 같다. 따라서 대칭행렬의 역행렬도 대칭행렬이다.
    - 두 개 이상의 정방행렬의 곱은 같은 크기의 정방행렬이 되는데, 이러한 행렬의 곱의 역행렬은 다음 성질이 성립한다.
        - $(AB)^{-1} = B^{-1} A^{-1}$
        - $(ABC)^{-1} = C^{-1} B^{-1} A^{-1}$

#### 역행렬의 계산
- 역행렬은 행렬식을 이용하여 다음처럼 계산이 가능하다.

$$
A^{-1} = \frac{1}{\det(A)}C^T
=
\frac{1}{\text{det}(A)}
\begin{bmatrix}
C_{1,1}&\cdots & C_{N,1} \\
\vdots&\ddots & \vdots \\
C_{1,N}&\cdots & C_{N,N} \\
 \end{bmatrix}
$$

$$
C^T
=
\begin{bmatrix}
C_{1,1}&\cdots & C_{1,N} \\
\vdots&\ddots & \vdots \\
C_{N,1}&\cdots & C_{N,N} \\
\end{bmatrix}^T
=
\begin{bmatrix}
C_{1,1}&\cdots & C_{N,1} \\
\vdots&\ddots & \vdots \\
C_{1,N}&\cdots & C_{N,N} \\
\end{bmatrix}
=
\text{adj}(A)
$$

- 행렬 $C$는 정방행렬 $A$의 행렬식의 여인수($C_{i,j} = (-1)^{i+j}M_{i,j}$)를 원소로 갖는 행렬
- $C_{i,j}$는 정방행렬 $A$의 $i$행, $j$열의 원소에 대해 정의한 여인수
- 행렬 $C$를 **여인수행렬**(matrix of cofactors 또는 cofactor matrix, comatrix)이라고 한다.
- 여인수행렬의 전치행렬 $C^T$를 **어드조인트행렬 또는 수반행렬**(adjoint matrix 또는 adjugate matrix)이라고 한다.
    - 어드조인트행렬을 $\text{adj}(A)$로 표기하기도 한다.

#### 역행렬의 존재여부 판단
- $\det(A)=0$인 경우 역수가 존재하지 않으므로 역행렬이 존재하지 않는다.
- $\det(A) \neq 0$인 경우에만 역행렬이 존재한다.
    - 정방행렬 $A$가 $2 \times 2$ 차원의 행렬인 경우 $\det(A) = a_{11}a_{22} - a_{12}a_{21}$ 공식을 이용해 $a_{11}a_{22} - a_{12}a_{21} \neq 0$ 을 확인하면 역행렬이 존재하는지 확인할 수 있다.

#### 역행렬 정리

* 셔먼-모리슨(Sheman-Morrison) 공식
    - 정방행렬 $A$와 벡터 $u,v$에 대해 다음 공식이 성립
        - $uv^T$가 $A$와 같은 차원의 행렬일 때 덧셈 가능  
    - 정방행렬 $A$가 $uv^T$만큼 변화하면 $A$의 역행렬에는 $-\frac{A^{-1}uv^TA^{-1}}{1+v^TA^{-1}u}$만큼 변화가 생긴다는 의미
 
$$
(A+uv^T)^{-1}=A^{-1}-\frac{A^{-1}uv^TA^{-1}}{1+v^TA^{-1}u}
$$

> - 정방행렬 $A \in \mathbf{R}^{N \times N}$
>
> - 행렬끼리 덧셈 연산을 하기 위해서는 같은 차원의 행렬끼리만 덧셈연산을 할 수 있기 때문에 벡터 $u,v$ 는 $N$차원 벡터임을 알 수 있다.
> 
> - 열벡터 $u \in \mathbf{R}^{N\times 1}$와 행벡터 $v^T \in \mathbf{R}^{1 \times N}$의 내적의 값은 행렬이다.($uv^T\in \mathbf{R}^{N \times N}$)

* 우드베리(WoodBury) 공식
    - 정방행렬 $A$와 이해 대응하는 적절한 크기의 행렬 $U,V,C$에 대해 다음 공식이 성립
    - 셔먼 모리슨 공식과 비슷한 의미
    - 정방행렬 $A$가 $UCV$만큼 변화하면 $A$의 역행렬에는 $-A^{-1}U(C^{-1}+VA^{-1}U)^{-1}VA^{-1}$만큼 변화가 생긴다는 의미
    - 셔먼 모리슨 공식은 우드베리 공식의 행렬 $C$가 스칼라값인 $1$인 경우이다.
        - 셔먼 모리슨 공식의 우항의 분모 : $1+v^TA^{-1}u \rightarrow (C^{-1}+VA^{-1}U)^{-1}$
        - 셔먼 모리슨 공식의 우항의 분자 : $A^{-1}u \rightarrow -A^{-1}U$, $v^TA^{-1} \rightarrow VA^{-1}$
 
$$
(A+UCV)^{-1}=A^{-1}-A^{-1}U(C^{-1}+VA^{-1}U)^{-1}VA^{-1}
$$

* 부분행렬의 역행렬
  - 행렬을 임의로 4개의 블록으로 분할한 분할행렬의 역행렬을 이용하여 행렬의 역행렬을 계산할 수 있다.
  - 행렬의 데이터가 너무 많은 경우 사용한다.
 
$$
\begin{bmatrix}
A_{11}&A_{12}\\
A_{21}&A_{22}
\end{bmatrix}^{-1}=
\begin{bmatrix}
A_{11}^{-1}(I+A_{12}FA_{11}^{-1}) &-A_{11}^{-1}A_{12}F\\
-FA_{21}A_{11}^{-1}&F
\end{bmatrix}
$$

> - $F=(A_{22}-A_{21}A_{11}^{-1}A_{12})^{-1}$ 또는 $F=(A_{11}-A_{12}A_{22}^{-1}A_{21})^{-1}$

#### 넘파이를 사용한 역행렬 계산
- 넘파이의 `linalg` 서브패키지의 `inv` 함수를 이용해 역행렬을 계산할 수 있다.

In [14]:
a = np.array([[1, 1, 0], [0, 1, 1], [1, 1, 1]])
b = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])

In [15]:
# 역행렬이 존재할 경우 - 행렬식이 0이 아닐 때
np.linalg.det(a)

1.0

In [17]:
# 역행렬이 존재할 경우 - 행렬 A의 역행렬
np.linalg.inv(a)

array([[ 0., -1.,  1.],
       [ 1.,  1., -1.],
       [-1.,  0.,  1.]])

In [18]:
# 역행렬이 존재하지 않을 경우 - 행렬식이 0일 때
np.linalg.det(b)

0.0

In [19]:
# 역행렬이 존재하지 않을 경우- 행렬 A의 역행렬을 계산하면 에러 발생
np.linalg.inv(b)

LinAlgError: Singular matrix