## 고윳값과 고유벡터

정방행렬 $A$에 대해 다음 식을 만족하는 영벡터가 아닌 벡터 $v$, 실수 $\lambda$를 찾을 수 있다고 가정

$$Av = \lambda v$$

위 식을 만족하는 실수 $\lambda$값을 고윳값(eigenvalue), 벡터 $v$를 고유벡터(eigenvector)라고 한다.

위의 고윳값과 고유벡터를 찾는 작업을 고유분해(eigen-decomposition) 또는 고윳값분해라고 한다.

행렬 $A$의 고유벡터는 행렬 $A$를 곱해서 변환을 해도 방향이 바뀌지 않는 벡터이다. 이처럼 고윳값은 변환된 고유벡터와 원래 고유벡터의 크기 비율이다.

위 식을 아래처럼 바꿔 쓸 수 있다.

$$Av - \lambda v = (A - \lambda I)v = 0$$

예시

아래와 같은 정방행렬 A가있다고 가정

In [1]:
A = np.array([[1, -2],
             [2, -3]])
A

array([[ 1, -2],
       [ 2, -3]])

A의 스칼라값과 벡터는 각각 고윳값, 고유벡터

$$\lambda = 1$$

\begin{split}
\begin{align}
v=
\begin{bmatrix}
1  \\
1
\end{bmatrix}
\end{align}
\end{split}



In [6]:
lambda_ = -1

v = np.array([[1],[1]])
v

array([[1],
       [1]])

\begin{split}
\begin{align}
Av = 
\begin{bmatrix}
1 & -2 \\
2 & -3
\end{bmatrix}
\begin{bmatrix}
1  \\
1
\end{bmatrix}
=
\begin{bmatrix}
-1 \\
-1
\end{bmatrix}
=
(-1)
\begin{bmatrix}
1 \\
1 
\end{bmatrix}
=
\lambda v
\end{align}
\end{split}

In [7]:
A @ v

array([[-1],
       [-1]])

In [8]:
lambda_ * v

array([[-1],
       [-1]])

In [10]:
A @ v == lambda_ * v

array([[ True],
       [ True]])

어떤 벡터 $v$가 고유벡터이면 이 벡터에 실수를 곱한 $cv$는 $v$와 같은 방향이므로 모두 고유벡터가 된다.

\begin{align}
A(c v) = c Av = c \lambda v = \lambda (cv)
\end{align}

따라서 고유벡터는 무수히 많으므로 통상적으로 정규화 작업을 거친 고유벡터를 고유벡터라 한다.

\begin{align}
\dfrac{v}{\|v\|}
\end{align}

\begin{split}
\begin{align}
v =
\begin{bmatrix}
\dfrac{\sqrt{2}}{2}  \\
\dfrac{\sqrt{2}}{2} 
\end{bmatrix}
\approx
\begin{bmatrix}
0.7071 \\
0.7071
\end{bmatrix}
\end{align}
\end{split}

## 특성방정식

행렬만 주어진 상황에서 고윳값 - 고유벡터를 구하는 방법은 다음과 같다.

행렬 $A$의 고윳값은 $A - \lambda I$의 행렬식이 0이 되도록 하는 **특성방정식**의 해를 구하면 된다.

\begin{align}
\det \left( A - \lambda I \right) = 0
\end{align}

이 조건은 행렬 $A - \lambda I$가 역행렬이 존재하지 않는다는 뜻으로 역행렬이 존재한다면 고윳값 조건을 만족하는 벡터는 항상 영벡터이다.

다음과 같은 행렬 $A$에 대해 특성방정식은 다음과 같다.

\begin{split}
\begin{align}
A=
\begin{bmatrix}
1 & -2 \\
2 & -3
\end{bmatrix}
\end{align}
\end{split}

\begin{split} 
\begin{align}
\begin{aligned}
\det \left( A - \lambda I \right) 
&=
\det 
\left(
\begin{bmatrix}
1 & -2 \\
2 & -3
\end{bmatrix}
-
\begin{bmatrix}
\lambda & 0 \\
0 & \lambda
\end{bmatrix}
\right) 
\\
&=
\det 
\begin{bmatrix}
1 - \lambda & -2 \\
2 & -3 -\lambda
\end{bmatrix}
\\
&= (1 - \lambda)(-3 -\lambda) + 4 \\
&= \lambda^2 + 2\lambda + 1 = 0
\end{aligned}
\end{align}
\end{split}

이를 인수분해하면 

\begin{align}
\lambda^2 + 2\lambda + 1 = (\lambda + 1)^2 = 0
\end{align}

이므로 고윳값은 -1이다.

이차방정식은 기본적으로 해를 최대 2개 가질 수 있지만 이 경우 하나만 존재하므로 이러한 해를 **중복고윳값**이라 한다.

연습문제

특성방정식을 이용해 다음 행렬의 고윳값을 구하라.

![image.png](attachment:image.png)

## 고윳값의 개수

지금까지는 편의를 위해 2 * 2 행렬에 대해 고윳값을 다루었다.

그런데 N * N 차원의 행렬의 고윳값을 구한다면?

$\lambda I$는 다음과 같을 것이다.

![image.png](attachment:image.png)

즉, $\lambda^N$차식이 성립되며 이는 $N$차 방정식이 된다.

그러므로 $N$개의 해가 존재하며 고윳값은 모두 $N$개가 된다.

## 고윳값과 대각합/행렬식

어떤 행렬의 고윳값이 $\lambda_1, \lambda_2, ..., \lambda_N$이라 하면 모든 고윳값의 곱은 행렬식과 같고 모든 고윳값의 합은 대각합과 같다.

In [13]:
D = np.array([[2, 1],[1, 2]])
D

array([[2, 1],
       [1, 2]])

위의 고윳값을 구하는 예제에서 위 행렬에 대한 고윳값은 1과 3이었다는 것을 확인했다.

In [19]:
# 1 * 3 = 3

np.linalg.det(D)

2.9999999999999996

In [18]:
# 2 + 2 = 4

np.trace(D)

4

위의 정리를 통해 다음을 정의할 수 있다.

어떤 행렬에 대해 역행렬이 존재하기 위해선 행렬식의 값이 0이면 안된다.

행렬식이 0이라는 것은 고윳값 중에 0이 하나라도 있다는 것이다.

즉, 고윳값 중에 하나라도 0이 포함되어 있다면 행렬식은 0이되고 역행렬이 존재하지 않는다.

## 고유벡터의 계산

고윳값을 알면 연립방정식을 이용해 고유벡터를 구할 수 있다.

$$(A - \lambda I)v = 0$$

다음의 행렬 $A$에 대해 다음의 식이 성립한다고 하면

\begin{split}
\begin{align}
\begin{bmatrix}
1+1 & -2 \\
2 & -3+1
\end{bmatrix}
\begin{bmatrix}
v_1 \\ v_2
\end{bmatrix}
= 0
\end{align}
\end{split}

\begin{split}
\begin{align}
\begin{bmatrix}
2 & -2 \\
2 & -2
\end{bmatrix}
\begin{bmatrix}
v_1 \\ v_2
\end{bmatrix}
= 0
\end{align}
\end{split}

즉, 

$$v1 = v2$$

를 만족하는 모든 벡터가 고유벡터라는 것이다.

\begin{split}
\begin{align}
v=\begin{bmatrix} 1 \\ 1 \end{bmatrix}
\end{align}
\end{split}

위 벡터를 단위 벡터로 표현하면

\begin{split}
\begin{align}
v=\begin{bmatrix} \dfrac{\sqrt{2}}{2} \\ \dfrac{\sqrt{2}}{2} \end{bmatrix}
\end{align}
\end{split}

가 된다.

이렇게 고유벡터가 하나인 경우 중복된 고유벡터라 한다.

다만 주의할 점은 고윳값이 중복이라 해서 벡터도 무조건 하나는 아니라는 점이다.

예제

다음의 행렬에 대해 고윳값과 고유벡터를 구하라.

\begin{split}
\begin{align}
E=
\begin{bmatrix}
2 & 3 \\
2 & 1
\end{bmatrix}
\end{align}
\end{split}

![image.png](attachment:image.png)

## 넘파이를 사용한 고유분해

numpy의 linalg 서브패키지에는 고윳값과 고유벡터를 구하는 eig() 명령을 제공한다.

eig() 명령의 결과로 나오는 고유벡터 행렬은 행이 아니라 열을 고유벡터로 가진다.

또한 수치계산의 오류로 인해 중복되는 고윳값이 미세하게 다른 값으로 계산될 수 있다.

In [23]:
A = np.array([[1, -2], [2, -3]])
w1, v1 = np.linalg.eig(A)
print(w1)
print(v1)

[-0.99999998 -1.00000002]
[[0.70710678 0.70710678]
 [0.70710678 0.70710678]]


In [24]:
B = np.array([[2, 3], [2, 1]])
w2, v2 = np.linalg.eig(B)

print(w2)
print(v2)

[ 4. -1.]
[[ 0.83205029 -0.70710678]
 [ 0.5547002   0.70710678]]


만약 고유벡터가 존재하지 않는 경우 복소수로 계산해서 복수사인 고유값과 고유벡터를 반환한다.

In [25]:
C = np.array([[0, -1], [1, 0]])
w3, v3 = np.linalg.eig(C)

print(w3)
print(v3)

[0.+1.j 0.-1.j]
[[0.70710678+0.j         0.70710678-0.j        ]
 [0.        -0.70710678j 0.        +0.70710678j]]


## 대각화

N차원 정방행렬 $A$에 대해 복소수 고윳값 $N$개와 이에 대응하는 고유벡터를 가진다는 성질을 이용해 다음처럼 행렬을 분해할 수 있다.

행렬 $A$의 고윳갑과 이에 대응하는 단위벡터인 고유벡터를 각각

$\lambda_1, \lambda_2, ..., \lambda_N$

$v_1, v_2, ..., v_N$

이라 하고 이 고윳값과 고유벨터를 묶어서 고유벡터행렬, 고윳값행렬을 정의할 수 있다.

**고유벡터행렬 $V$**은 고유벡터를 열벡터로 쌓아서 만든 행렬이다.

$V = [v_1 ... v_N]$

**고윳값행렬 $\Lambda$**은 고윳값을 대각성분으로 가지는 대각행렬이다.

\begin{split}
\begin{align}
\Lambda =
\begin{bmatrix}
\lambda_{1} & 0 & \cdots & 0 \\
0 & \lambda_{2} & \cdots & 0 \\
\vdots & \vdots & \ddots & \vdots \\
0 & 0 & \cdots & \lambda_{N} \\
\end{bmatrix}
\end{align}
\end{split}

**행렬과 고유벡터행렬의 곱은 고유벡터행렬과 고윳갑행렬의 곱과 같다.**

$$AV = \Lambda V$$

여기서 추가적으로 고유벡터행렬 $V$의 역행렬이 존재한다면 다음과 같이 고유벡터행렬과 고윳값 행렬의 곱으로 행렬을 표현할 수 있으며 이를 행랼의 대각화라고 한다.

$$A = V\Lambda V^-1$$

이처럼 분해라는 것은 어떤 행렬에 대해 다른 행렬들의 곱으로 표현하는 것을 분해라 한다.

## 대각화가능

행렬을 대각화할 수 있으면 **대각화가능한행렬**이라 한다.

앞에서 고유벡터인 열벡터로 이루어진 행렬에 역행렬이 존재하면 대각화가능이라 했는데 정방행렬의 역행렬이 존재할 조건은 정방행렬의 열벡터 즉, 고유벡터들이 선형독립인 경우이다. 따라서 행렬이 대각화 가능하려면 고유벡터가 선형독립이어야 한다.

또 다른 관점에서 살펴보면 $V$의 모든 열벡터가 서로 독립이면 이는 풀랭크이며 풀랭크는 역행렬이 존재한다는 것을 의미한다.

## 고윳값과 역행렬

**대각화가능한 행렬에 0인 고윳값이 없으면 항상 역행렬이 존재한다.**

이는 다음과 같이 증명할 수 있다.

먼저 행렬 $A$가 대각화가능하면 다음처럼 표현한다.

$A = V \Lambda V^-1$

이 행렬의 역행렬은 다음처럼 계산한다.

$A^{-1} = (V \Lambda V^{-1})^{-1} = V\Lambda ^{-1}V^{-1}$

따라서 대각행렬의 역행렬은 각 대각성분의 역수로 이루어진 대각행렬이므로 0인 고윳값만 없으면 항상 역행렬이 존재한다.

또 다른 관점으로 보면 어떤 행렬의 행렬식은 고유값들의 곱과 같다.

따라서 고윳값에 0이 없다면 행렬식이 0이 아니며 이는 역행렬이 존재한다는 것을 의미한다.

## 대칭행렬의 고유분해

**행렬 $A$가 실수인 대칭행렬이면 고윳값이 실수이고 고유벡터는 서로 직교한다.**

여기서 만약 고유벡터들의 크기가 1이 되도록 정규화된 상태라면 고유벡터 행렬은 정규직교 행렬이 되므로 **전치행렬이 역행렬**이다.

$V^TV = VV^T$

$V^{-1} = V^T$

따라서 대각화가 가능하고 다음처럼 쓸 수 있다.

$A = V \Lambda V^T$

여기서 모든 행렬은 전치가 가능하므로 실수인 대칭행렬은 항상 대각화가능하다. 라는 정리도 도출된다.

## 대칭행렬을 랭크-1 행렬의 합으로 분해

$N$차원 대칭행렬 $A$는 다음처럼 $N$개의 랭크-1 행렬 $A_i = v_i v^T_i$의 합으로 표시할 수 있다.

\begin{split} 
\begin{align}
\begin{aligned}
A 
&= V\Lambda V^T \\
&= 
\begin{bmatrix}
v_1 & v_2 & \cdots & v_N
\end{bmatrix}
\begin{bmatrix}
\lambda_{1} & 0 & \cdots & 0 \\
0 & \lambda_{2} & \cdots & 0 \\
\vdots & \vdots & \ddots & \vdots \\
0 & 0 & \cdots & \lambda_{N} \\
\end{bmatrix}
\begin{bmatrix}
v_1^T \\ v_2^T \\ \vdots \\ v_N^T
\end{bmatrix} \\
&=
\begin{bmatrix}
\lambda_{1}v_1 & \lambda_{2}v_2 & \cdots & \lambda_{N}v_N
\end{bmatrix}
\begin{bmatrix}
v_1^T \\ v_2^T \\ \vdots \\ v_N^T
\end{bmatrix} \\
\end{aligned}
\end{align}
\end{split}

따라서 $N$차원 대칭행렬 $A$는

\begin{align}
A = \sum_{i=1}^{N} {\lambda_i} v_i v_i^T  = \sum_{i=1}^{N} {\lambda_i} A_i = \lambda_1 A_1 + \cdots + \lambda_N A_N 
\end{align}

가 된다.

예제

다음의 대칭행렬을 이용해 세 개의 랭크-1 행렬로 나누어보자.

\begin{split} 
\begin{align}
\begin{bmatrix}
60 & 30 & 20 \\
30 & 20 & 15 \\
20 & 15 & 12 \\
\end{bmatrix}
\end{align}
\end{split}

In [26]:
A = np.array([[60, 30, 20],
             [30, 20, 15],
             [20, 15, 12]])
A

array([[60, 30, 20],
       [30, 20, 15],
       [20, 15, 12]])

In [27]:
w, V = np.linalg.eig(A)
w1, w2, w3 = w

In [29]:
V

array([[ 0.82704493,  0.54744843,  0.12765933],
       [ 0.4598639 , -0.52829024, -0.71374689],
       [ 0.32329844, -0.64900666,  0.68867153]])

In [30]:
v1 = V[:, 0:1]
v2 = V[:, 1:2]
v3 = V[:, 2:3]

In [39]:
A1 = v1 @ v1.T
A2 = v2 @ v2.T
A3 = v3 @ v3.T

print(np.linalg.matrix_rank(A1))
print(np.linalg.matrix_rank(A2))
print(np.linalg.matrix_rank(A3))

1
1
1


In [33]:
w

array([84.49913563,  7.33962395,  0.16124042])

In [34]:
w1 * A1

array([[57.79768857, 32.13739648, 22.59357583],
       [32.13739648, 17.8694387 , 12.56276371],
       [22.59357583, 12.56276371,  8.83200836]])

In [35]:
w2 * A2

array([[ 2.19968372, -2.12270483, -2.60775134],
       [-2.12270483,  2.04841985,  2.51649195],
       [-2.60775134,  2.51649195,  3.09152039]])

In [36]:
w3 * A3

array([[ 0.00262772, -0.01469165,  0.01417551],
       [-0.01469165,  0.08214145, -0.07925566],
       [ 0.01417551, -0.07925566,  0.07647125]])

In [37]:
w1 * A1 + w2 * A2 + w3 * A3

array([[60., 30., 20.],
       [30., 20., 15.],
       [20., 15., 12.]])

여기서 만약 0인 고윳값이 없다면 역행렬도 다음처럼 $N$개의 랭크-1 행렬 $A_i = v_iv^T_i$의 합으로 표시할 수 있다.

\begin{align}
A^{-1} =
V \Lambda^{-1} V^T = \sum_{i=1}^{N} \dfrac{1}{\lambda_i} v_i v_i^T 
= \dfrac{1}{\lambda_1} A_1 + \cdots + \dfrac{1}{\lambda_N} A_N 
\end{align}

In [40]:
np.linalg.inv(A)

array([[ 0.15, -0.6 ,  0.5 ],
       [-0.6 ,  3.2 , -3.  ],
       [ 0.5 , -3.  ,  3.  ]])

In [41]:
1 / w1 * A1

array([[0.0080948 , 0.00450097, 0.00316432],
       [0.00450097, 0.00250269, 0.00175947],
       [0.00316432, 0.00175947, 0.00123696]])

In [42]:
1 / w2 * A2

array([[ 0.04083313, -0.03940415, -0.04840816],
       [-0.03940415,  0.03802519,  0.04671409],
       [-0.04840816,  0.04671409,  0.05738845]])

In [43]:
1 / w3 * A3

array([[ 0.10107208, -0.56509682,  0.54524384],
       [-0.56509682,  3.15947213, -3.04847356],
       [ 0.54524384, -3.04847356,  2.94137459]])

In [44]:
1 / w1 * A1 + 1 / w2 * A2 + 1 / w3 * A3

array([[ 0.15, -0.6 ,  0.5 ],
       [-0.6 ,  3.2 , -3.  ],
       [ 0.5 , -3.  ,  3.  ]])

## 대칭행렬의 고윳값 부호

대칭행렬이 랭크-1 행렬의 합으로 표시되고 교유벡터가 서로 직교한다는 성질을 이용해 다음 정리를 증명할 수 있다.

1. 대칭행렬이 양의 정부호(PD)이면 고윳값은 모두 양수이다.
2. 대칭행렬이 양의 준정부호(PSD)이면 고윳값은 모두 0이거나 양수다.

먼저 1번 정리에 대해 증명해보자.

대칭행렬은 랭크-1 행렬의 합으로 표시되며 이를 수식으로 나타내면 다음과 같다.

\begin{align}
A = \sum_{i=1}^{N} {\lambda_i} v_i v_i^T
\end{align}

여기서 위의 대칭행렬 $A$가 양의 정부호라면 임의의 벡터 $x$를 행렬 $A$의 앞뒤에 곱해 이차형식으로 만들어도 0보다 커야한다. 따라서 $j$번째 고유벡터 $x = v_j$를 곱해도 마찬가지이다.

\begin{align}
v_j^TAv_j > 0 
\end{align}

그런데 이 대칭행렬은 고유벡터가 서로 직교한다고 했다.

\begin{align}
v_i^Tv_j = 0 \; (\text{if } i \neq j) 
\end{align}

\begin{align}
v_i^Tv_i^{} = 1
\end{align}

따라서 다음의 식이 완성된다.

\begin{align}
v_j^TAv_j 
= v_j^T \left( \sum_{i=1}^{N} {\lambda_i} v_i v_i^T \right) v_j 
= \sum_{i=1}^{N} {\lambda_i} v_j^Tv_i v_i^Tv_j = \lambda_j 
> 0 
\end{align}

위 식에서 $v^T_i$의 값은 모두 0이되고 i와 j가 다를 때에만 그 값은 1이 되므로 양수인 고윳값만 가진다고 할 수 있다.

반대로 대칭행렬의 고윳값이 모두 양수인 경우 그 행렬은 양의 정부호가 됨을 증명한다.

고유분해로 만들어진 랭크-1 행렬 $A_i = v_iv^T_i$는 양의 준정부호임을 증명할 수 있다.

\begin{align}
x^T A_i x = x^T v_iv_i^T x = (x^T v_i)(x^T v_i)^T = (x^T v_i)(x^T v_i) = \| x^T v_i \| ^2 \geq 0
\end{align}

최종적으로 제곱합이 되기 때문에 음수는 가질 수 없다.

## 분산행렬

임의의 실수 행렬 $X$에 대해 $X^TX$인 정방행렬을 **분산행렬(scatter matrix)**라고 한다.

**분산행렬은 양의 준정부호이고 고윳값은 0보다 같거나 크다.**

임의의 영벡터가 아닌 벡터 $x$에 대해 분산행렬에 대한 이차형식을 구하면 다음과 같다.

\begin{align}
x^T(X^TX)x = (Xx)^T(Xx) = u^Tu \geq 0 
\end{align}

위 식을 통해 어떤 벡터 $u$의 제곱합이 됨을 알 수 있고 이 값은 0보다 같거나 크고 분산행렬은 양의 준정부호임을 알 수 있다. 그런데 분산행렬은 대칭행렬이므로 PSD인 경우 고유값은 모두 0 혹은 그 이상임을 알 수 있다.

In [61]:
# 연습문제 

# (1) 붓꽃(Iris) 특징데이터 행렬 X의 분산행렬을 구하고 이 분산행렬의 고윳값들을 구하라.

In [51]:
from sklearn.datasets import load_iris
iris = load_iris()
X = iris.data
X[:10]

array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2],
       [5. , 3.6, 1.4, 0.2],
       [5.4, 3.9, 1.7, 0.4],
       [4.6, 3.4, 1.4, 0.3],
       [5. , 3.4, 1.5, 0.2],
       [4.4, 2.9, 1.4, 0.2],
       [4.9, 3.1, 1.5, 0.1]])

In [57]:
# X = 풀랭크

np.linalg.matrix_rank(X)

4

In [58]:
COV = X.T @ X
COV

array([[5223.85, 2673.43, 3483.76, 1128.14],
       [2673.43, 1430.4 , 1674.3 ,  531.89],
       [3483.76, 1674.3 , 2582.71,  869.11],
       [1128.14,  531.89,  869.11,  302.33]])

In [60]:
# X는 풀랭크로 분산행렬의 역행렬도 존재

np.linalg.inv(COV)

array([[ 0.05034014, -0.0564344 , -0.04649057,  0.04508845],
       [-0.0564344 ,  0.06736108,  0.04506042, -0.03745986],
       [-0.04649057,  0.04506042,  0.06696879, -0.09831163],
       [ 0.04508845, -0.03745986, -0.09831163,  0.18358105]])

In [59]:
w, v = np.linalg.eig(COV)
w

array([9.20830507e+03, 3.15454317e+02, 1.19780429e+01, 3.55257020e+00])

In [62]:
# 연습문제 2

# (2) 보스턴 집값(Boston House Price) 특징데이터 행렬 X의 분산행렬을 구하고 이 분산행렬의 고윳값들을 구하라.

In [68]:
from sklearn.datasets import load_boston

boston = load_boston()
X = boston.data
X[:5]

array([[6.3200e-03, 1.8000e+01, 2.3100e+00, 0.0000e+00, 5.3800e-01,
        6.5750e+00, 6.5200e+01, 4.0900e+00, 1.0000e+00, 2.9600e+02,
        1.5300e+01, 3.9690e+02, 4.9800e+00],
       [2.7310e-02, 0.0000e+00, 7.0700e+00, 0.0000e+00, 4.6900e-01,
        6.4210e+00, 7.8900e+01, 4.9671e+00, 2.0000e+00, 2.4200e+02,
        1.7800e+01, 3.9690e+02, 9.1400e+00],
       [2.7290e-02, 0.0000e+00, 7.0700e+00, 0.0000e+00, 4.6900e-01,
        7.1850e+00, 6.1100e+01, 4.9671e+00, 2.0000e+00, 2.4200e+02,
        1.7800e+01, 3.9283e+02, 4.0300e+00],
       [3.2370e-02, 0.0000e+00, 2.1800e+00, 0.0000e+00, 4.5800e-01,
        6.9980e+00, 4.5800e+01, 6.0622e+00, 3.0000e+00, 2.2200e+02,
        1.8700e+01, 3.9463e+02, 2.9400e+00],
       [6.9050e-02, 0.0000e+00, 2.1800e+00, 0.0000e+00, 4.5800e-01,
        7.1470e+00, 5.4200e+01, 6.0622e+00, 3.0000e+00, 2.2200e+02,
        1.8700e+01, 3.9690e+02, 5.3300e+00]])

In [74]:
X.shape

(506, 13)

In [73]:
# X는 풀랭크

np.linalg.matrix_rank(X)

13

In [70]:
COV = X.T @ X
COV[:5]

array([[4.39703436e+04, 4.68702660e+02, 3.24790952e+04, 6.48084600e+01,
        1.22612317e+03, 1.08219511e+04, 1.68514980e+05, 3.46627456e+03,
        4.11186651e+04, 1.17307321e+06, 3.64715518e+04, 4.99455291e+05,
        3.72684187e+04],
       [4.68702660e+02, 3.40029000e+05, 2.09030900e+04, 2.70000000e+02,
        2.48444175e+03, 3.87184670e+04, 2.05485400e+05, 3.82992940e+04,
        2.29180000e+04, 1.72295450e+06, 9.61321500e+04, 2.23960499e+06,
        3.80196800e+04],
       [3.24790952e+04, 2.09030900e+04, 8.65256299e+04, 4.45170000e+02,
        3.43239536e+03, 3.44618165e+04, 4.49313490e+05, 1.62206733e+04,
        7.17656500e+04, 2.72134904e+06, 1.06875320e+05, 1.89702529e+06,
        8.62407050e+04],
       [6.48084600e+01, 2.70000000e+02, 4.45170000e+02, 3.50000000e+01,
        2.07699000e+01, 2.28186000e+02, 2.71250000e+03, 1.06039800e+02,
        3.26000000e+02, 1.35190000e+04, 6.12200000e+02, 1.30549100e+04,
        3.93460000e+02],
       [1.22612317e+03, 2.48444175e+

In [75]:
# COV의 역행렬도 존재

np.linalg.inv(COV)

array([[ 4.77679420e-05, -1.77639818e-06,  3.65436158e-06,
         6.07165346e-05,  1.36416009e-04, -1.18002436e-05,
         4.02982362e-08,  2.73366113e-05, -2.40759033e-05,
         2.63959004e-08, -3.37270898e-06,  3.86699871e-07,
        -1.27292879e-05],
       [-1.77639818e-06,  8.36403150e-06,  4.03591354e-06,
        -8.08848326e-06,  5.35927145e-05, -4.39231257e-05,
         9.87579867e-07, -4.99747370e-05,  4.54926112e-06,
        -5.17551938e-07,  2.36985506e-05, -2.98513682e-08,
        -1.85921319e-06],
       [ 3.65436158e-06,  4.03591354e-06,  1.67415802e-04,
        -2.38781239e-04, -2.43450294e-03,  1.50301397e-04,
        -2.10299192e-07,  1.25848769e-04,  4.75502048e-05,
        -4.43474917e-06, -3.44071168e-05,  3.63805766e-07,
        -8.22935145e-06],
       [ 6.07165346e-05, -8.08848326e-06, -2.38781239e-04,
         3.29414817e-02, -7.07147720e-03, -8.06778484e-04,
        -2.45040505e-05,  4.65339910e-05, -2.53512425e-04,
         1.70106865e-05,  3.87256771e

In [76]:
# 고윳값 출력

w, v = np.linalg.eig(COV)

print(w)

[1.58386796e+08 1.18747372e+07 4.17002244e+05 1.61644573e+05
 2.52697480e+04 1.47629635e+04 8.18396001e+03 6.07326738e+03
 4.23577535e+03 6.06399504e+02 3.27412564e+02 3.04157837e+01
 2.19326965e+00]


## 분산행렬의 역행렬

**행렬 $X$가 풀랭크이면 이 행렬의 분산행렬 $X^TX$의 역행렬이 존재한다.**

행렬 $X$가 풀랭크면 $X$의 열벡터가 기저벡터를 이룬다. 따라서 영벡터가 아닌 모든 벡터 $v$에 대해 $Xv = u$는 영벡터가 될 수 없다. 만약 영벡터가 된다면 이는 독립이 아닌 종속이다.

그러면 $X^TX$의 이차형식은 항상 양수이다.

\begin{align}
v^T(X^TX)v = (Xv)^T(Xv) = u^Tu > 0
\end{align}

따라서 분산행렬은 양의 정부호이고 역행렬이 존재한다.

## 요약 : 고유분해 성질

$N$차원 정방행렬 $A$에 대해

1. 행렬 $A$는 $N$개의 고윳값-고유벡터를 가진다.(복소수와 중복을 포함)
2. 행렬의 대각합은 모든 고윳값의 합과 같다.
3. 행렬의 행렬식은 모든 고윳값의 곱과 같다.
4. 행렬 $A$가 대칭행렬이면 $N$개의 실수 고윳값만을 가지며 고유벡터들이 서로 직교이다.
5. 행렬 $A$가 대칭행렬이고 고윳값이 모두 양수이면 양의 정부호이고 역행렬도 존재한다.
6. 행렬 $A$가 어떤 행렬 $X$의 분산행렬 $X^TX$이면 0또는 양의 고윳값을 가진다.
7. 행렬 $X$가 풀랭크면 분산행렬 또한 역행렬이 존재한다.

## 특잇값분해

지금까지는 정방행렬에 대해 고유분해를 살펴보았다. 그렇다면 정방행렬이 아닌 경우는 분해가 불가능할까?

정방행렬이 아닌 경우 고유분해 대신 특이분해를 할 수 있다.

## 특잇값과 특이벡터

고유분해의 경우 다음의 식을 만족했다.

$$A = V \Lambda V^-1 $$

반면 특이분해는 아래와 같다.

$N$ X $M$크기의 행렬 $A$를 다음과 같은 3개의 행렬곱으로 나타내는 것을 특잇값분해(singular value decomposition) 또는 특이분해라 한다.

\begin{align}
A = U\Sigma V^T 
\end{align}

여기서 $U, \Sigma, V$는 다음 조건을 만족한다.

- 대각성분이 양수인 대각행렬이어야 한다. 큰 수부터 작은 수 순서로 배열한다.

\begin{align}
\Sigma \in \mathbf{R}^{N \times M}
\end{align}

$U$는 $N$차원 정방행렬로 모든 열벡터가 단위벡터이고 서로 직교한다.

\begin{align}
U \in \mathbf{R}^{N \times N}
\end{align}

$V$는 $M$차원 정방행렬로 모든 열벡터가 단위벡터이고 서로 직교한다.

\begin{align}
V \in \mathbf{R}^{M \times M}
\end{align}

위 조건을 만족하는 행렬 $\Sigma$의 대각성분들을 특잇값(Singular Value), 행렬 $U$의 열벡터들을 왼쪽 특이벡터, 행렬 $V$의 행벡터들을 오른쪽 특이벡터라 한다.

**특이분해는 모든 행렬에 대해 가능하다.** 

## 특이값 분해 행렬의 크기

**특이값의 개수는 행렬의 열과 행의 개수 중 작은 값과 같다.**
특이분해된 형태를 구체적으로 나타내보자.

만약 $N > M$이면 $\Sigma$ 행렬이 $M$개의 특잇값(대각성분)을 가지고 다음처럼 아랫부분이 0으로 채워진다.

\begin{split} 
\begin{align}
A = 
\begin{bmatrix}
\boxed{\begin{matrix} \\ \\ \\ \\ \\ \, u_1 \, \\ \\ \\ \\ \\ \\ \end{matrix}} \!\!\!\!& 
\boxed{\begin{matrix} \\ \\ \\ \\ \\ \, u_2 \, \\ \\ \\ \\ \\ \\ \end{matrix}} \!\!\!\!& 
\boxed{\begin{matrix} \\ \\ \\ \\ \\ \, u_3 \, \\ \\ \\ \\ \\ \\ \end{matrix}} \!\!\!\!& 
\cdots \!\!\!\!& 
\boxed{\begin{matrix} \\ \\ \\ \\ \\  u_M  \\ \\ \\ \\ \\ \\ \end{matrix}} \!\!\!\!&
\cdots \!\!\!\!& 
\boxed{\begin{matrix} \\ \\ \\ \\ \\ u_N \\ \\ \\ \\ \\ \\ \end{matrix}} 
\end{bmatrix}
\begin{bmatrix}
\boxed{\sigma_1 \phantom{\dfrac{}{}} \!\!} & 0 & 0 & \cdots & 0 \\
0 & \boxed{\sigma_2 \phantom{\dfrac{}{}} \!\!} & 0 & \cdots & 0 \\
0 & 0 & \boxed{\sigma_3 \phantom{\dfrac{}{}} \!\!} & \cdots & 0 \\
\vdots & \vdots & \vdots & \ddots \\
0 & 0 & 0 & \cdots & \boxed{\sigma_M \phantom{\dfrac{}{}} \!\!} \\
0 & 0 & 0 & \cdots & 0 \\
\vdots & \vdots & \vdots &  & \vdots \\
0 & 0 & 0 & \cdots & 0 \\
\end{bmatrix}
\begin{bmatrix}
\boxed{\begin{matrix} & & & v_1^T & & & \end{matrix}} \\ 
\boxed{\begin{matrix} & & & v_2^T & & & \end{matrix}} \\ 
\vdots \\ 
\boxed{\begin{matrix} & & & v_M^T & & & \end{matrix}} \\ 
\end{bmatrix}
\end{align}
\end{split}

반대로 $N < M$이면 $\Sigma$행렬이 $N$개의 특잇값(대각성분)을 가져 다음처럼 오른쪽 부분이 0으로 채워진다.

\begin{split} 
\begin{align}
A = 
\begin{bmatrix}
\boxed{\begin{matrix} \\ \\ \\ \, u_1 \, \\ \\ \\ \\ \end{matrix}} \!\!\!\!& 
\boxed{\begin{matrix} \\ \\ \\ \, u_2 \, \\ \\ \\ \\ \end{matrix}} \!\!\!\!& 
\cdots \!\!\!\!& 
\boxed{\begin{matrix} \\ \\ \\ u_N \\ \\ \\ \\ \end{matrix}} 
\end{bmatrix}
\begin{bmatrix}
\boxed{\sigma_1 \phantom{\dfrac{}{}} \!\!} & 0 & 0 & \cdots & 0 & 0 & \cdots & 0 \\
0 & \boxed{\sigma_2 \phantom{\dfrac{}{}} \!\!} & 0 & \cdots & 0 & 0 & \cdots & 0 \\
0 & 0 & \boxed{\sigma_3 \phantom{\dfrac{}{}} \!\!} & \cdots & 0 & 0 & \cdots & 0 \\
\vdots & \vdots & \vdots & \ddots & \vdots & \vdots & & \vdots \\
0 & 0 & 0 & \cdots & \boxed{\sigma_N \phantom{\dfrac{}{}} \!\!} & 0 & \cdots & 0 \\
\end{bmatrix}
\begin{bmatrix}
\boxed{\begin{matrix} \quad & \quad & \quad & v_1^T & \quad & \quad & \quad \end{matrix}} \\ 
\boxed{\begin{matrix} \quad & \quad & \quad & v_2^T & \quad & \quad & \quad \end{matrix}} \\ 
\boxed{\begin{matrix} \quad & \quad & \quad & v_3^T & \quad & \quad & \quad \end{matrix}} \\ 
\vdots \\ 
\boxed{\begin{matrix} \quad & \quad & \quad & v_N^T & \quad & \quad & \quad \end{matrix}} \\ 
\vdots \\ 
\boxed{\begin{matrix} \quad & \quad & \quad & v_M^T & \quad & \quad & \quad \end{matrix}} \\ 
\end{bmatrix}
\end{align}
\end{split}

행렬의 크기는 다음과 같다.

$N > M$

\begin{split}
\begin{align}
N\;\left\{\phantom{\begin{matrix} \\ \\ \\ \\ \\ \end{matrix}}\right.\!\!
\overbrace{
\boxed{
\begin{matrix}
\; &   & \; \\
\; &   & \; \\
\; & A & \; \\
\; &   & \; \\
\; &   & \; \\
\end{matrix}
}}^{\large M}
=
N\;\left\{\phantom{\begin{matrix} \\ \\ \\ \\ \\ \end{matrix}}\right.\!\!
\overbrace{
\boxed{
\begin{matrix}
\; & & & & \quad \\
\; & & & & \quad \\
\; & & \; U & & \quad \\
\; & & & & \quad \\
\; & & & & \quad \\
\end{matrix}
}}^{\large N}
\;
\overbrace{
\boxed{
\begin{matrix}
& & \\
& & \\
& \Sigma & \\
& & \\
& & \\
\end{matrix}
}}^{\large M}
\;
\overbrace{
\boxed{
\begin{matrix}
\; &   & \; \\
\; & V^T & \; \\
\; &   & \; \\
\end{matrix}
}}^{\large M}
\!\!\left.\phantom{\begin{matrix} \\ \\ \\ \end{matrix}}\right\}M
\end{align}
\end{split}

$M > N$

\begin{split}
\begin{align}
N\;\left\{\phantom{\begin{matrix} \\ \\ \\ \end{matrix}}\right.\!\!
\overbrace{
\boxed{
\begin{matrix}
\quad & &   & & \quad \\
\quad & & A & & \quad \\
\quad & &   & & \quad \\
\end{matrix}
}}^{\large M}
=
N\;\left\{\phantom{\begin{matrix} \\ \\ \\  \end{matrix}}\right.\!\!
\overbrace{
\boxed{
\begin{matrix}
\begin{matrix}
\, & & \; \\
\, & U \; \\
\, & & \; \\
\end{matrix}
\end{matrix}
}}^{\large N}
\;
\overbrace{
\boxed{
\begin{matrix}
\quad & &   & & \quad \\
\quad & & \Sigma & & \quad \\
\quad & &   & & \quad \\
\end{matrix}
}}^{\large M}
\;
\overbrace{
\boxed{
\begin{matrix}
\; & & & & \quad \\
\; & & & & \quad \\
\; & & \; V^T & & \quad \\
\; & & & & \quad \\
\; & & & & \quad \\
\end{matrix}
}}^{\large M}
\!\!\left.\phantom{\begin{matrix} \\ \\ \\\\ \\ \end{matrix}}\right\}M
\end{align}
\end{split}

예제

다음의 행렬을 특이분해하면 다음과 같다.

\begin{split}
\begin{align}
A = 
\begin{bmatrix}
3 & -1 \\
1 & 3 \\
1 & 1
\end{bmatrix}
\end{align}
\end{split}

\begin{split}
\begin{align}
A = 
\begin{bmatrix}
 -\frac{1}{\sqrt{6}} &  \frac{2}{\sqrt{5}} & -\frac{1}{\sqrt{6}} \\ 
 -\frac{2}{\sqrt{6}} & -\frac{1}{\sqrt{5}} &  -\frac{2}{\sqrt{30}} \\ 
 -\frac{1}{\sqrt{6}} & 0 &  \frac{5}{\sqrt{30}}
\end{bmatrix}
\begin{bmatrix}
\sqrt{12} & 0        \\
       0  & \sqrt{10} \\
       0 & 0 
\end{bmatrix}
\begin{bmatrix}
-\frac{1}{\sqrt{2}} & -\frac{1}{\sqrt{2}} \\
 \frac{1}{\sqrt{2}} & -\frac{1}{\sqrt{2}} 
\end{bmatrix}
\end{align}
\end{split}

## 특잇값 분해의 축소형

특잇값 대각행렬에서 0인 부분은 사실상 의미가 없다. 따라서 대각행렬의 0 원소와 이에 대응하는 왼쪽, 오른쪽 특이벡터를 없애면 다음과 같은 축소된 형태의 행렬이 도출되며 원래 행렬과 같다.

$N이 M$보다 큰 경우 왼쪽 특이벡터 중 $u_{M+1}, ..., u_n$을 없앤다.

\begin{split} 
\begin{align}
A = 
\begin{bmatrix}
\boxed{\begin{matrix} \\ \\ \\ \\ \\ \, u_1 \, \\ \\ \\ \\ \\ \\ \end{matrix}} \!\!\!\!& 
\boxed{\begin{matrix} \\ \\ \\ \\ \\ \, u_2 \, \\ \\ \\ \\ \\ \\ \end{matrix}} \!\!\!\!& 
\cdots \!\!\!\!& 
\boxed{\begin{matrix} \\ \\ \\ \\ \\  u_M  \\ \\ \\ \\ \\ \\ \end{matrix}} \!\!\!\!&
\end{bmatrix}
\begin{bmatrix}
\boxed{\sigma_1 \phantom{\dfrac{}{}} \!\!} & 0 & 0 & \cdots & 0 \\
0 & \boxed{\sigma_2 \phantom{\dfrac{}{}} \!\!} & 0 & \cdots & 0 \\
0 & 0 & \boxed{\sigma_3 \phantom{\dfrac{}{}} \!\!} & \cdots & 0 \\
\vdots & \vdots & \vdots & \ddots \\
0 & 0 & 0 & \cdots & \boxed{\sigma_M \phantom{\dfrac{}{}} \!\!} \\
\end{bmatrix}
\begin{bmatrix}
\boxed{\begin{matrix} & & & v_1^T & & & \end{matrix}} \\ 
\boxed{\begin{matrix} & & & v_2^T & & & \end{matrix}} \\ 
\vdots \\ 
\boxed{\begin{matrix} & & & v_M^T & & & \end{matrix}} \\ 
\end{bmatrix}
\end{align}
\end{split}

$N이 M$보다 작은 경우 오른쪽 특이벡터 중 $u_{N+1},...,u_m$을 없앤다.

\begin{split} 
\begin{align}
A = 
\begin{bmatrix}
\boxed{\begin{matrix} \\ \\ \\ \, u_1 \, \\ \\ \\ \\ \end{matrix}} \!\!\!\!& 
\boxed{\begin{matrix} \\ \\ \\ \, u_2 \, \\ \\ \\ \\ \end{matrix}} \!\!\!\!& 
\cdots \!\!\!\!& 
\boxed{\begin{matrix} \\ \\ \\ u_N \\ \\ \\ \\ \end{matrix}} 
\end{bmatrix}
\begin{bmatrix}
\boxed{\sigma_1 \phantom{\dfrac{}{}} \!\!} & 0 & 0 & \cdots & 0 \\
0 & \boxed{\sigma_2 \phantom{\dfrac{}{}} \!\!} & 0 & \cdots & 0  \\
0 & 0 & \boxed{\sigma_3 \phantom{\dfrac{}{}} \!\!} & \cdots & 0  \\
\vdots & \vdots & \vdots & \ddots & \vdots \\
0 & 0 & 0 & \cdots & \boxed{\sigma_N \phantom{\dfrac{}{}} \!\!}  \\
\end{bmatrix}
\begin{bmatrix}
\boxed{\begin{matrix} \quad & \quad & \quad & v_1^T & \quad & \quad & \quad \end{matrix}} \\ 
\boxed{\begin{matrix} \quad & \quad & \quad & v_2^T & \quad & \quad & \quad \end{matrix}} \\ 
\vdots \\ 
\boxed{\begin{matrix} \quad & \quad & \quad & v_N^T & \quad & \quad & \quad \end{matrix}} \\ 
\end{bmatrix}
\end{align}
\end{split}

축소형의 경우 행렬의 크기는 다음과 같다.

\begin{split}
\begin{align}
N\;\left\{\phantom{\begin{matrix} \\ \\ \\ \\ \\ \end{matrix}}\right.\!\!
\overbrace{
\boxed{
\begin{matrix}
\; &   & \; \\
\; &   & \; \\
\; & A & \; \\
\; &   & \; \\
\; &   & \; \\
\end{matrix}
}}^{\large M}
=
N\;\left\{\phantom{\begin{matrix} \\ \\ \\ \\ \\ \end{matrix}}\right.\!\!
\overbrace{
\boxed{
\begin{matrix}
& & \\
& & \\
& U & \\
& & \\
& & \\
\end{matrix}
}}^{\large M}
\;
\overbrace{
\boxed{
\begin{matrix}
\; &   & \; \\
\; & \Sigma & \; \\
\; &   & \; \\
\end{matrix}
}}^{\large M}
\;
\overbrace{
\boxed{
\begin{matrix}
\; &   & \; \\
\; & V^T & \; \\
\; &   & \; \\
\end{matrix}
}}^{\large M}
\!\!\left.\phantom{\begin{matrix} \\ \\ \\ \end{matrix}}\right\}M
\end{align}
\end{split}

$$or$$

\begin{split}
\begin{align}
N\;\left\{\phantom{\begin{matrix} \\ \\ \\ \end{matrix}}\right.\!\!
\overbrace{
\boxed{
\begin{matrix}
\quad & &   & & \quad \\
\quad & & A & & \quad \\
\quad & &   & & \quad \\
\end{matrix}
}}^{\large M}
=
N\;\left\{\phantom{\begin{matrix} \\ \\ \\  \end{matrix}}\right.\!\!
\overbrace{
\boxed{
\begin{matrix}
\begin{matrix}
\, & & \; \\
\, & U \; \\
\, & & \; \\
\end{matrix}
\end{matrix}
}}^{\large N}
\;
\overbrace{
\boxed{
\begin{matrix}
\, & & \; \\
\, & \Sigma \; \\
\, & & \; \\
\end{matrix}
}}^{\large N}
\;
\overbrace{
\boxed{
\begin{matrix}
\quad & &   & & \quad \\
\quad & & V^T & & \quad \\
\quad & &   & & \quad \\
\end{matrix}
}}^{\large M}
\!\!\left.\phantom{\begin{matrix} \\ \\ \\ \end{matrix}}\right\}N
\end{align}
\end{split}

## 파이썬을 사용한 특이분해

오른쪽 특이행렬은 전치행렬로 출력된다.

In [78]:
from numpy.linalg import svd

In [79]:
A = np.array([[3, -1], [1, 3], [1,1]])
A

array([[ 3, -1],
       [ 1,  3],
       [ 1,  1]])

In [80]:
U, S, VT = svd(A)

In [81]:
# 왼쪽 특이벡터
U

array([[-4.08248290e-01,  8.94427191e-01, -1.82574186e-01],
       [-8.16496581e-01, -4.47213595e-01, -3.65148372e-01],
       [-4.08248290e-01, -2.06937879e-16,  9.12870929e-01]])

In [82]:
# 특이값
S

array([3.46410162, 3.16227766])

In [84]:
np.diag(S, 1)[:, 1:]

array([[3.46410162, 0.        ],
       [0.        , 3.16227766],
       [0.        , 0.        ]])

In [83]:
# 오른쪽 특이벡터
VT

array([[-0.70710678, -0.70710678],
       [ 0.70710678, -0.70710678]])

In [94]:
result = U @ np.diag(S, 1)[:, 1:] @ VT

result

array([[ 3., -1.],
       [ 1.,  3.],
       [ 1.,  1.]])

In [95]:
A

array([[ 3, -1],
       [ 1,  3],
       [ 1,  1]])

축소형을 구하려면 `full_matrices=False`로 지정한다.

In [96]:
U2, S2, VT2 = svd(A, full_matrices=False)

In [97]:
U2

array([[-4.08248290e-01,  8.94427191e-01],
       [-8.16496581e-01, -4.47213595e-01],
       [-4.08248290e-01, -2.06937879e-16]])

In [98]:
S2

array([3.46410162, 3.16227766])

In [99]:
VT2

array([[-0.70710678, -0.70710678],
       [ 0.70710678, -0.70710678]])

In [100]:
U2 @ np.diag(S2) @ VT2

array([[ 3., -1.],
       [ 1.,  3.],
       [ 1.,  1.]])

In [127]:
B = np.array([[3, 2, 2], [2, 3, -2]])

B에 대한 특이분해

In [115]:
B

array([[ 3,  2,  2],
       [ 2,  3, -2]])

In [102]:
U, S, VT = svd(B)

In [104]:
U

array([[-0.70710678, -0.70710678],
       [-0.70710678,  0.70710678]])

In [105]:
S

array([5., 3.])

In [106]:
VT

array([[-7.07106781e-01, -7.07106781e-01, -6.47932334e-17],
       [-2.35702260e-01,  2.35702260e-01, -9.42809042e-01],
       [-6.66666667e-01,  6.66666667e-01,  3.33333333e-01]])

In [126]:
# SIGMA의 SHAPE은 A의 SHAPE과 동일

U @ np.diag(S, -1)[1:] @ VT

array([[ 3.,  2.,  2.],
       [ 2.,  3., -2.]])

In [152]:
# B의 축소형

U, S, VT = svd(B, full_matrices=False)

print(U)
print(S)
print(VT)

[[-0.70710678 -0.70710678]
 [-0.70710678  0.70710678]]
[5. 3.]
[[-7.07106781e-01 -7.07106781e-01 -6.47932334e-17]
 [-2.35702260e-01  2.35702260e-01 -9.42809042e-01]]


In [153]:
U @ np.diag(S) @ VT

array([[ 3.,  2.,  2.],
       [ 2.,  3., -2.]])

C에 대한 특이분해

In [128]:
C = np.array([[2, 4], [1, 3], [0, 0], [0, 0]])
C

array([[2, 4],
       [1, 3],
       [0, 0],
       [0, 0]])

In [129]:
U2, S2, VT2 = svd(C)

In [130]:
U2

array([[-0.81741556, -0.57604844,  0.        ,  0.        ],
       [-0.57604844,  0.81741556,  0.        ,  0.        ],
       [ 0.        ,  0.        ,  1.        ,  0.        ],
       [ 0.        ,  0.        ,  0.        ,  1.        ]])

In [131]:
S2

array([5.4649857 , 0.36596619])

In [132]:
VT2

array([[-0.40455358, -0.9145143 ],
       [-0.9145143 ,  0.40455358]])

In [148]:
U2 @ np.diag(S2, 2)[:,2:] @ VT2

array([[2., 4.],
       [1., 3.],
       [0., 0.],
       [0., 0.]])

In [154]:
# C의 축소형 

U2, S2, VT2 = svd(C, full_matrices=False)

print(U2)
print(S2)
print(VT2)

[[-0.81741556 -0.57604844]
 [-0.57604844  0.81741556]
 [ 0.          0.        ]
 [ 0.          0.        ]]
[5.4649857  0.36596619]
[[-0.40455358 -0.9145143 ]
 [-0.9145143   0.40455358]]


In [155]:
U2 @ np.diag(S2) @ VT2

array([[2., 4.],
       [1., 3.],
       [0., 0.],
       [0., 0.]])

## 특이값과 특이벡터의 관계

어떤 행렬 $A$에 대한 특이분해 결과는 $\Sigma$(특잇값), $U$왼쪽 특이벡터, $V$오른쪽 특이벡터다.

여기서 왼쪽 특이벡터, 오른쪽 특이벡터는 정규직교이다.

따라서 행렬 $V$는 정규직교 행렬이므로 전치행렬이 곧 역행렬이라 할 수 있다.

$$V^T = V^{-1}$$

이 정리를 이용해 특잇값분해된 등식에 양변 $V$를 곱하면

$$AV = U\Sigma V^TV = U\Sigma$$

가 성립한다.

\begin{split} 
\begin{align}
A 
\begin{bmatrix}
v_1 & v_2 & \cdots & v_M
\end{bmatrix}
= 
\begin{bmatrix}
u_1 & u_2 & \cdots & u_N
\end{bmatrix}
\begin{bmatrix}
\sigma_1 & 0 & \cdots \\
0 & \sigma_2 & \cdots \\
\vdots & \vdots & \ddots \\
\end{bmatrix}
\end{align}
\end{split}

행렬 $A$를 곱하여 정리하면 $M$이 $N$보다 클 때는

\begin{align}
\begin{bmatrix}
Av_1 & Av_2 & \cdots & Av_N
\end{bmatrix}
= 
\begin{bmatrix}
\sigma_1u_1 & \sigma_2u_2 & \cdots & \sigma_Nu_N
\end{bmatrix}
\end{align}

이 되고 $N$이 $M$보다 클 때는

\begin{align}
\begin{bmatrix}
Av_1 & Av_2 & \cdots & Av_M
\end{bmatrix}
= 
\begin{bmatrix}
\sigma_1u_1 & \sigma_2u_2 & \cdots & \sigma_Mu_M
\end{bmatrix}
\end{align}

이 된다.

즉, $i$번째 특잇값 $\sigma_i$와 특이벡터 $u_i, v_i$는 다음과 같은 관계가 성립한다.

\begin{align}
Av_i = \sigma_i u_i \;\; (i=1, \ldots, \text{min}(M,N))
\end{align}

다시 한 번 고유분해와 특이분해의 차이를 살펴보자.

고유분해

$$Av = \lambda v$$

특이분해

$$Av = \sigma u$$

연습문제

In [178]:
B = np.array([[3, 2, 2],
             [2, 3, -2]])
print("\nB")
print(B)


B
[[ 3  2  2]
 [ 2  3 -2]]


In [179]:
U, S, VT = svd(B)

print("\nU")
print(U)
print("\nS")
print(np.diag(S, -1)[1:, :])
print("\nV")
print(VT.T)


U
[[-0.70710678 -0.70710678]
 [-0.70710678  0.70710678]]

S
[[5. 0. 0.]
 [0. 3. 0.]]

V
[[-7.07106781e-01 -2.35702260e-01 -6.66666667e-01]
 [-7.07106781e-01  2.35702260e-01  6.66666667e-01]
 [-6.47932334e-17 -9.42809042e-01  3.33333333e-01]]


In [181]:
# AV

print('AV')
print(B @ VT.T)

AV
[[-3.53553391e+00 -2.12132034e+00  0.00000000e+00]
 [-3.53553391e+00  2.12132034e+00 -3.33066907e-16]]


In [182]:
# U SIGMA

print('U SIGMA')
print(U @ np.diag(S, -1)[1:, :])

U SIGMA
[[-3.53553391 -2.12132034  0.        ]
 [-3.53553391  2.12132034  0.        ]]


In [184]:
# A = U SIGMA VT

print(B)

U @ np.diag(S, -1)[1:, :] @ VT

[[ 3  2  2]
 [ 2  3 -2]]


array([[ 3.,  2.,  2.],
       [ 2.,  3., -2.]])

연습문제 2

In [185]:
C = np.array([[2, 4],
             [1, 3],
             [0, 0],
             [0, 0]])
print("\nC")
print(C)


C
[[2 4]
 [1 3]
 [0 0]
 [0 0]]


In [198]:
U2, S2, VT2 = svd(C)

print("\nU")
print(U2)
print("\nS")
print(np.diag(S2, 2)[:, 2:])
print("\nV")
print(VT2.T)


U
[[-0.81741556 -0.57604844  0.          0.        ]
 [-0.57604844  0.81741556  0.          0.        ]
 [ 0.          0.          1.          0.        ]
 [ 0.          0.          0.          1.        ]]

S
[[5.4649857  0.        ]
 [0.         0.36596619]
 [0.         0.        ]
 [0.         0.        ]]

V
[[-0.40455358 -0.9145143 ]
 [-0.9145143   0.40455358]]


In [199]:
# AV

C @ VT2.T

array([[-4.46716435, -0.21081425],
       [-3.14809647,  0.29914646],
       [ 0.        ,  0.        ],
       [ 0.        ,  0.        ]])

In [200]:
# U SIGMA

U2 @ np.diag(S2, 2)[:, 2:]

array([[-4.46716435, -0.21081425],
       [-3.14809647,  0.29914646],
       [ 0.        ,  0.        ],
       [ 0.        ,  0.        ]])

In [203]:
# A = U SIGMA VT

print(C)

U2 @ np.diag(S2, 2)[:, 2:] @ VT2

[[2 4]
 [1 3]
 [0 0]
 [0 0]]


array([[2., 4.],
       [1., 3.],
       [0., 0.],
       [0., 0.]])

## 특잇값과 고유분해의 관계

행렬 $A$의 분산행렬 $A^TA$는

$$A^TA = (V \Sigma^TU^T)(U \Sigma V^T) = V \Lambda V^T$$

가 되어 행렬 $A$의 특잇값의 제곱이 분산행렬 $A^TA$의 고윳값, 행렬 $A$의 오른쪽 특이벡터가 분산행렬 $A^TA$의 고유벡터가 된다.

In [204]:
A

array([[ 3, -1],
       [ 1,  3],
       [ 1,  1]])

In [205]:
U, S, VT = svd(A)

In [207]:
# 특잇값의 제곱

S ** 2 

array([12., 10.])

In [210]:
# 분산행렬

w, V = np.linalg.eig(A.T @ A)

# 분산행렬의 고윳값 계산
w

array([12., 10.])

In [214]:
# 행렬 A의 오른쪽 특이벡터

VT.T

array([[-0.70710678,  0.70710678],
       [-0.70710678, -0.70710678]])

In [212]:
# 분산행렬의 고유벡터

V

array([[ 0.70710678, -0.70710678],
       [ 0.70710678,  0.70710678]])

### 연습문제

NumPy를 사용하여 행렬 A의 왼쪽 특이벡터가 행렬 AAT의 고유벡터가 된다는 것을 보여라.

\begin{split}
\begin{align}
A = 
\begin{bmatrix}
3 & -1 \\
1 & 3 \\
1 & 1
\end{bmatrix}
\end{align}
\end{split}

In [215]:
A = np.array([[3, -1],
             [1, 3],
             [1, 1]])
A

array([[ 3, -1],
       [ 1,  3],
       [ 1,  1]])

In [216]:
U, S, VT = svd(A)

In [220]:
# 왼쪽 특이벡터

U

array([[-4.08248290e-01,  8.94427191e-01, -1.82574186e-01],
       [-8.16496581e-01, -4.47213595e-01, -3.65148372e-01],
       [-4.08248290e-01, -2.06937879e-16,  9.12870929e-01]])

In [218]:
# AAT의 고유벡터

w, V = np.linalg.eig(A@A.T)

V

array([[ 1.82574186e-01, -8.94427191e-01, -4.08248290e-01],
       [ 3.65148372e-01,  4.47213595e-01, -8.16496581e-01],
       [-9.12870929e-01,  5.07704275e-16, -4.08248290e-01]])

**행렬 A의 왼쪽 특이벡터가 행렬 AAT의 고유벡터가 된다.**