# Numpy로 공부하는 고윳값 분해

## @jhbale11

#### git : [github/jhbale11](https://github.com/jhbale11?tab=repositories)

#### velog : [환공지능](https://velog.io/@jhbale11)

-----------------------------------------------------------------------------------------------

고윳값 분해(Eigenvalue Decomposition)은 행렬 내부 구조를 살펴보거나 행렬을 이용한 연산을 더 효율적으로 할 때 유용하다. 이번에는 고윳값과 고유벡터, 고윳값 분해의 과정에 대해 구체적으로 살펴보겠다.

## 고윳값과 고유벡터

정방 행렬 $A$에 대해 다음 식을 만족하는 영벡터가 아닌 벡터 $v$, 실수 $\lambda$를 찾을 수 있다고 가정하자.

$
\begin{align}
Av = \lambda v
\end{align}
$

위 식을 만족하는 실수 $\lambda$를 **고윳값(Eigenvalue)**, 벡터 $v$를 **고유벡터(Eigenvector)** 라고 한다. 고윳값과 고유벡터를 찾는 작업을 고유분해(Eigen-Decomposition) 또는 **고윳값 분해(Eigenvalue Decomposition)** 라고 한다.

행렬 $A$의 고유벡터는 행렬 $A$를 곱해서 변환을 해도 방향이 바뀌지 않는 벡터로 고유값은 변환된 고유벡터와 원래 고유벡터의 크기 비율이다. 위의 식을 아래와 같이 쓸 수도 있다.

$
\begin{align}
Av - \lambda v = (A - \lambda I) v = 0 
\end{align}
$

행렬 $A$에 대해 고윳값 w1과 고유벡터 V1을 구하는 과정은 아래와 같다.

In [1]:
import numpy as np

import warnings
warnings.filterwarnings(action='ignore')

In [2]:
A = np.array([[1, -2], [2, -3]])
w1, V1 = np.linalg.eig(A)

print(w1)

[-0.99999998 -1.00000002]


In [3]:
print(V1)

[[0.70710678 0.70710678]
 [0.70710678 0.70710678]]


In [4]:
np.dot(A, V1.T)

array([[-0.70710677, -0.70710679],
       [-0.70710676, -0.7071068 ]])

In [5]:
w1[0]*V1

array([[-0.70710677, -0.70710676],
       [-0.70710676, -0.70710677]])

In [6]:
w1[1]*V1

array([[-0.7071068 , -0.70710679],
       [-0.70710679, -0.7071068 ]])

## 특성방정식

위에서는 행렬과 그 행렬의 고윳값-고유벡터를 주고 이들이 정말 고윳값-고유벡터인지를 계산으로 증명했다. 그러면 행렬만 주어졌을 때 고윳값-고유벡터는 어떻게 구할 수 있을까?

행렬 $A$의 고유값은 $A-\lambda I$의 행렬식이 0이 되도록하는 **특성방정식(Characteristic Equation)** 의 해를 구하면 된다.

$
\begin{align}
\det \left( A - \lambda I \right) = 0
\end{align}
$

이 조건은 행렬 $A-\lambda I$가 역행렬이 존재하지 않는다는 뜻이다. 만약 $A-\lambda I$의 역행렬이 존재한다면 고윳값 조건을 만족하는 벡터가 항상 영벡터가 되기 때문이다.

$
\begin{align}
(A - \lambda I)^{-1}(A - \lambda I)v = 0 \;\; \rightarrow \;\; v = 0
\end{align}
$

위의 코드 예제와 같이

$
\begin{split}
\begin{align}
A=
\begin{bmatrix}
1 & -2 \\
2 & -3
\end{bmatrix}
\end{align}
\end{split}
$

에 대해서는 특성 방정식을 아래와 같이 구할 수 있다.

$
\begin{split} 
\begin{align}
\begin{aligned}
\det \left( A - \lambda I \right) 
&=
\det 
\left(
\begin{bmatrix}
1 & -2 \\
2 & -3
\end{bmatrix}
-
\begin{bmatrix}
\lambda & 0 \\
0 & \lambda
\end{bmatrix}
\right) 
\\
&=
\det 
\begin{bmatrix}
1 - \lambda & -2 \\
2 & -3 -\lambda
\end{bmatrix}
\\
&= (1 - \lambda)(-3 -\lambda) + 4 \\
&= \lambda^2 + 2\lambda + 1 = 0
\end{aligned}
\end{align}
\end{split}
$

인수분해를 하여 이차방정식인 특성방정식을 풀면 고윳값은 -1 이다.

In [7]:
B = np.array([[2, 3], [2, 1]])
B

array([[2, 3],
       [2, 1]])

In [8]:
w2, v2 = np.linalg.eig(B)

In [9]:
w2

array([ 4., -1.])

In [10]:
v2

array([[ 0.83205029, -0.70710678],
       [ 0.5547002 ,  0.70710678]])

In [11]:
np.linalg.det(B - w2[0]*np.eye(1))

4.0

## 고윳값과 대각합/행렬식

어떤 행렬의 고윳값이 $\lambda_1, \lambda_2, \lambda_3, ... , \lambda_N$이라고 하면 모든 고윳값의 곱은 행렬식의 값과 같고 모든 고윳값의 합은 대각합(Trace)와 같다.

$
\begin{align}
\det(A)=\prod_{i=1}^N \lambda_i
\tag{1}
\end{align}
$

$
\begin{align}
\text{tr}(A) =\sum_{i=1}^N \lambda_i
\tag{2}
\end{align}
$

위의 행렬 A에 대해서 대각합과 행렬식은 다음과 같다.

In [12]:
A

array([[ 1, -2],
       [ 2, -3]])

A의 대각합은 1+(-3) = -2가 될 것이다.

In [13]:
np.trace(A)

-2

A의 행렬식은 1*(-3) - 2*(-2) = 1이 될 것이다.

In [14]:
np.linalg.det(A)

1.0

In [15]:
w1

array([-0.99999998, -1.00000002])

그런데 고윳값이 -1(중복된 고윳값)이므로

In [16]:
# 이는 trace(A)와 같을 것이다.
np.sum(w1)

-2.0000000000000004

In [17]:
# 이는 det(A)와 같을 것이다.
w1[0]*w1[1]

1.0

## 대각화(Diagonalization)

$N$차원의 정방 행렬 $A$가 $N$개의 복소수 고윳값과 이에 대응하는 고유 벡터를 가진다는 성질을 이용하면 아래와 같이 행렬을 분해할 수 있다.

행렬 $A$의 고윳값과 이에 대응하는 단위벡터인 고유벡터를 각각
\begin{align}
\lambda_1, \lambda_2, \cdots, \lambda_N \;\;\; v_1, v_2, \cdots, v_N 
\end{align}

이라고 하자. 이 고윳값과 고유벡터를 묶어서 아래와 같이 고유벡터 행렬, 고윳값 행렬을 정의할 수 있다.

고유벡터행렬 $V$는 고유벡터를 열벡터로 옆으로 쌓아서 만든 행렬이다.

$
\begin{align}
V = \left[ v_1 \cdots v_N \right]
\end{align}
$

고윳값 행렬 $\Lambda$ 는 고윳값을 대각성분으로 가지는 대각행렬이다.

$
\begin{split}
\begin{align}
\Lambda =
\begin{bmatrix}
\lambda_{1} & 0 & \cdots & 0 \\
0 & \lambda_{2} & \cdots & 0 \\
\vdots & \vdots & \ddots & \vdots \\
0 & 0 & \cdots & \lambda_{N} \\
\end{bmatrix}
\end{align}
\end{split}
$

위와 같이 고유벡터행렬과 고윳값행렬을 정의하면 행렬과 고유벡터행렬의 곱은 고유벡터행렬과 고윳값행렬의 곱과 같다.

$
\begin{split} 
\begin{align}
\begin{aligned}
AV 
&= A \left[ v_1 \cdots v_N \right] \\
&= \left[ A v_1 \cdots A v_N \right] \\
&= \left[ \lambda_1 v_1 \cdots \lambda_N v_N \right] \\
&= \left[ v_1 \cdots v_N \right] 
\begin{bmatrix}
\lambda_{1} & 0 & \cdots & 0 \\
0 & \lambda_{2} & \cdots & 0 \\
\vdots & \vdots & \ddots & \vdots \\
0 & 0 & \cdots & \lambda_{N} \\
\end{bmatrix}
\\
&= V\Lambda
\end{aligned}
\end{align}
\end{split}
$

따라서 고유벡터 행렬 $V$의 역행렬이 존재한다면 행렬을 다음처럼 고유벡터행렬과 고윳값행렬의 곱으로 표현할 수 있다. 이를 행렬의 **대각화(Diagonalization)**라고 한다.

$
\begin{align}
A = V \Lambda V^{-1} 
\end{align}
$

In [18]:
B

array([[2, 3],
       [2, 1]])

In [19]:
v2

array([[ 0.83205029, -0.70710678],
       [ 0.5547002 ,  0.70710678]])

In [20]:
v2_inv = np.linalg.inv(v2)
v2_inv

array([[ 0.72111026,  0.72111026],
       [-0.56568542,  0.84852814]])

In [21]:
v2@np.diag(w2)@v2_inv

# 이 값은 B와 같을 것이다.

array([[2., 3.],
       [2., 1.]])

## 대칭행렬의 고유분해

대칭행렬에 대해서는 다음과 같은 정리가 성립한다.

**"행렬 A가 실수인 대칭행렬이면 고유값이 실수이고 고유벡터는 서로 직교(Orthogonal)하다."**

만약 고유벡터들이 크기가 1이 되도록 정규화된 상태라면 고유벡터 행렬 $V$는 정규직교(Orthonormal) 행렬이므로 전치행렬이 역행렬이다.

## 대칭행렬을 Rank-1 행렬의 합으로 분해

$N$차원 대칭행렬 A는 다음과 같이 $N$개의 Rank-1 행렬 $A_i = v_i v_i^T$의 합으로 표시할 수 있다.

$
\begin{split} 
\begin{align}
\begin{aligned}
A 
&= V\Lambda V^T \\
&= 
\begin{bmatrix}
v_1 & v_2 & \cdots & v_N
\end{bmatrix}
\begin{bmatrix}
\lambda_{1} & 0 & \cdots & 0 \\
0 & \lambda_{2} & \cdots & 0 \\
\vdots & \vdots & \ddots & \vdots \\
0 & 0 & \cdots & \lambda_{N} \\
\end{bmatrix}
\begin{bmatrix}
v_1^T \\ v_2^T \\ \vdots \\ v_N^T
\end{bmatrix} \\
&=
\begin{bmatrix}
\lambda_{1}v_1 & \lambda_{2}v_2 & \cdots & \lambda_{N}v_N
\end{bmatrix}
\begin{bmatrix}
v_1^T \\ v_2^T \\ \vdots \\ v_N^T
\end{bmatrix} \\
\end{aligned}
\end{align}
\end{split}
$

따라서 $N$차원 대칭행렬 $A$는
$
\begin{align}
A = \sum_{i=1}^{N} {\lambda_i} v_i v_i^T  = \sum_{i=1}^{N} {\lambda_i} A_i = \lambda_1 A_1 + \cdots + \lambda_N A_N 
\end{align}
$

In [22]:
A = np.array([[60., 30., 20.],
              [30., 20., 15.],
              [20., 15., 12.]])

w, V = np.linalg.eig(A)

In [23]:
w1, w2, w3 = w
v1 = V[:, 0:1]
v2 = V[:, 1:2]
v3 = V[:, 2:3]
A1 = v1 @ v1.T
A2 = v2 @ v2.T
A3 = v3 @ v3.T

In [24]:
w

array([84.49913563,  7.33962395,  0.16124042])

In [25]:
w1 * A1

array([[57.79768857, 32.13739648, 22.59357583],
       [32.13739648, 17.8694387 , 12.56276371],
       [22.59357583, 12.56276371,  8.83200836]])

In [26]:
w2 * A2

array([[ 2.19968372, -2.12270483, -2.60775134],
       [-2.12270483,  2.04841985,  2.51649195],
       [-2.60775134,  2.51649195,  3.09152039]])

In [27]:
w3 * A3

array([[ 0.00262772, -0.01469165,  0.01417551],
       [-0.01469165,  0.08214145, -0.07925566],
       [ 0.01417551, -0.07925566,  0.07647125]])

In [28]:
w1 * A1 + w2 * A2 + w3 * A3
# 이 값은 A와 같을 것이다!

array([[60., 30., 20.],
       [30., 20., 15.],
       [20., 15., 12.]])

In [29]:
A

array([[60., 30., 20.],
       [30., 20., 15.],
       [20., 15., 12.]])

이번 장에서는 머신러닝에서 사용하는 중요한 수학이론 중 하나인 고유값(Eigenvalue)과 고유벡터(Eigenvector)에 대해 알아보았다. 

이는 선형대수(Linear Algebra)에서 가장 중요한 이론 중 하나이며 많은 머신러닝 이론에서 사용되고 있다. 이후 이 개념을 이용한 데이터의 차원축소 방법인 **특이값 분해(Singular Value Decomposition)**와 **주성분 분석(Principle Component Analysis)**에 대해 앞으로 살펴보도록 하겠다.