### 대칭행렬을 랭크-1 행렬의 합으로 분해

N차원 대칭행렬 A는 다음처럼 N개의 랭크-1 행렬 Ai = vi*vi.T의 합으로 표시할 수 있다.

**A = V @ Λ @ V.T** <br>
**A = ∑(λi vi vi.T) = ∑(λi* Ai) = λ1* A1 + ... + λn* An**

In [2]:
A = np.array([[60., 30., 20.],
              [30., 20., 15.],
              [20., 15., 12.]])

w, V = np.linalg.eig(A)
w1, w2, w3 = w
v1 = V[:, 0:1]
v2 = V[:, 1:2]
v3 = V[:, 2:3]
A1 = v1 @ v1.T
A2 = v2 @ v2.T
A3 = v3 @ v3.T

w1*A1 + w2*A2 + w3*A3

array([[60., 30., 20.],
       [30., 20., 15.],
       [20., 15., 12.]])

**만약 0인 고윳값이 없다면** 역행렬도 다음처럼 N개의 랭크-1 행렬 Ai = vi * vi.T의 합으로 표시할 수 있다.<br>
**A^-1 =  V @ Λ^-1 @ V.T = ∑(1 / λi * Ai) = 1 / λ1* A1 + ... + 1 / λn * An**

In [3]:
np.linalg.inv(A), 1 / w1 * A1 + 1 / w2 * A2 + 1/ w3 * A3

(array([[ 0.15, -0.6 ,  0.5 ],
        [-0.6 ,  3.2 , -3.  ],
        [ 0.5 , -3.  ,  3.  ]]),
 array([[ 0.15, -0.6 ,  0.5 ],
        [-0.6 ,  3.2 , -3.  ],
        [ 0.5 , -3.  ,  3.  ]]))

### 대칭행렬의 고윳값 부호

대칭행렬이 위와 같이 랭크-1 행렬의 합으로 표시되고 고유벡터가 서로 직교한다는 성질을 이용하면 다음 정리를 증명할 수 있다.

* 대칭행렬이 양의 정부호이면 고윳값은 모두 양수다. 역도 성립한다.
* 대칭행렬이 양의 준정부호이면 고윳값은 모두 0이거나 양수다. 역도 성립한다.

### 분산행렬

임의의 실수 행렬 X에 대해 X.T @ X인 정방행렬을 **분산행렬**이라고 한다.<br>
* 분산행렬은 양의 준정부호이고 모든 고윳값은 0보다 크거나 같다.

### 연습문제 3.3.9

In [8]:
from sklearn.datasets import load_iris
iris = load_iris()
X = iris.data

COV = X.T @ X
w, V = np.linalg.eig(COV)
w

array([9.20830507e+03, 3.15454317e+02, 1.19780429e+01, 3.55257020e+00])

In [9]:
from sklearn.datasets import load_boston
boston = load_boston()
X = boston.data

COV = X.T @ X
w, V = np.linalg.eig(COV)
w

array([1.58386796e+08, 1.18747372e+07, 4.17002244e+05, 1.61644573e+05,
       2.52697480e+04, 1.47629635e+04, 8.18396001e+03, 6.07326738e+03,
       4.23577535e+03, 6.06399504e+02, 3.27412564e+02, 3.04157837e+01,
       2.19326965e+00])

### 분산행렬의 역행렬

* 행렬 X가 풀랭크이면 이 행렬의 분산행렬 X.T@X의 역행렬이 존재한다.

### 연습문제 3.3.10

1. 양의 정부호인 대칭행렬은 항상 역행렬이 존재하는가?<br>
:  그렇다. 역행렬이 존재하지 않는 경우는 행렬식이 0일 때이다. 그러나 양의 정부호인 대칭행렬은 양의 고윳값만 가지고, <br>
   모든 고윳값의 곱 = 행렬식이기 때문에 양의 정부호인 대칭행렬은 항상 역행렬이 존재한다. <br>


2. 역으로 역행렬이 존재하는 대칭행렬은 항상 양의 정부호인가? <br>
:  아니다. 행렬식이 음수라 역행렬이 존재한다. 음수라는 것은 고윳값 중에 음수가 하나 이상 포함되어 있다는 뜻이고<br>
   모든 고윳값이 양수가 아니면 양의 정부호가 아니다.

### 고유분해의 성질 요약

정방행렬 (A∈R^NxN) ⊃ 대칭행렬 (A = A.T) ⊃ 공분산행렬 (A = X.T @ X) ⊃ 양의 정부호(PD)<br>
1. 정방행렬: λ는 복소수, λ는 N개, AV = VΛ,  ∑(λi) = tr(A), ∏(λi) = det(A)
2. 대칭행렬: λ는 실수, V.T = V^-1, A = V @Λ @ V.T, A = ∑(λi @ vi @ vi.T)
3. 공분산행렬: 모든 고윳값 λi>=0 
4. 양의 정부호: X가 풀랭크, 역행렬이 존재, 모든 고윳값 λi>0 

N차원 정방행렬 A에 대해 다음과 같은 사항이 성립한다.
* 행렬 A는 N개의 고윳값- 고유벡터를 가진다.(복소수인 경우와 중복인 경우 포함)
* 행렬의 대각합은 모든 고윳값의 합과 같다.
* 행렬의 행렬식은 모든 고윳값의 곱과 같다.
* 행렬 A가 대칭행렬이면 실수 고윳값 N개를 가지며 고유벡터들이 서로 직교이다.
* 행렬 A가 대칭행렬이고 고윳값이 모두 양수이면 양의 정부호이고 역행렬이 존재한다. 역도 성립한다.
* 행렬 A가 어떤 행렬 X의 분산행렬 X.T @ X이면 0 또는 양의 고윳값을 가진다.
* 행렬 X가 풀랭크이면 분산행렬 X.T @ X는 역행렬이 존재한다.

# 3.4 특잇값 분해

정방행렬이 아닌 행렬은 고유분해가 불가능. 특잇값분해 해야 함.

### 특잇값과 특이벡터

N x M 크기의 행렬 A를 다음과 같은 3개의 행렬의 곱으로 나타낸 것을 특잇값분해/특이분해라고한다.

* 특잇값 분해는 모든 행렬에 대해 가능하다.

* **A = U ∑ V.T**

여기에서 ∑는 대각성분이 양수인 대각행렬이고, 큰 수부터 작은 수 순서로 배열한다. (N x M)

U는 N차원 정방행렬로 모든 열벡터가 단위벡터이고 서로직교해야 한다. (N x N)

V는 M차원 정방행렬로 모든 열벡터가 단위벡터이고 서로 직교해야한다.(M x M)

행렬 ∑의 대각성분들을 **특잇값**, 행렬 U의 열벡터들을 **왼쪽 특이벡터**, 행렬 V의 행벡터들을 **오른쪽 특이벡터**라고 부른다.

### 특잇값 분해 행렬의 크기

특잇값의 개수는 행렬의 열과 행 개수 중 작은 값과 같다.

### 특잇값 분해의 축소형

특잇값 대각행렬에서 0인 부분은 사실상 아무런 의미가 없기 때문에 대각행렬의 0 원소 부분과 이에 대응하는 왼쪽(혹은 오른쪽)<br>
특이 벡터들을 없애고 다음처럼 축소된 형태로 해도 마찬가지로 원래 행렬이 나온다.

1. N > M인 경우 왼쪽 특이벡터 중에서 u_m+1, ... u_N을 없앤다.
2. N < M인 경우 오른쪽 특이벡터 중에서 v_n+1, ...vn을 없앤다.

### 파이썬을 사용한 특잇값 분해

numpy.linalg 서브패키지와 scipy.linalg 서브패키지에서는 특잇값 분해를 할 수 있는 svd() 명령 제공<br>
(오른쪽 특이행렬은 전치행렬로 출력)

In [3]:
from numpy.linalg import svd
A = np.array([[3, -1], [1, 3], [1, 1]])
U, S, VT = svd(A)
U, S, np.diag(S, 1)[:, 1:], VT, U @ np.diag(S, 1)[:, 1:] @ VT

(array([[-4.08248290e-01,  8.94427191e-01, -1.82574186e-01],
        [-8.16496581e-01, -4.47213595e-01, -3.65148372e-01],
        [-4.08248290e-01, -1.94289029e-16,  9.12870929e-01]]),
 array([3.46410162, 3.16227766]),
 array([[3.46410162, 0.        ],
        [0.        , 3.16227766],
        [0.        , 0.        ]]),
 array([[-0.70710678, -0.70710678],
        [ 0.70710678, -0.70710678]]),
 array([[ 3., -1.],
        [ 1.,  3.],
        [ 1.,  1.]]))

축소형을 구하려면 인수 full_matrices=False로 지정

In [8]:
U2, S2, VT2 = svd(A, full_matrices=False)
U2, S2, VT2, U2 @ np.diag(S2) @ VT2

(array([[-4.08248290e-01,  8.94427191e-01],
        [-8.16496581e-01, -4.47213595e-01],
        [-4.08248290e-01, -1.94289029e-16]]),
 array([3.46410162, 3.16227766]),
 array([[-0.70710678, -0.70710678],
        [ 0.70710678, -0.70710678]]),
 array([[ 3., -1.],
        [ 1.,  3.],
        [ 1.,  1.]]))

### 연습문제 3.4.1

In [7]:
B = np.array([[3, 2, 2,], [2, 3, -2]])
C = np.array([[2, 4], [1, 3], [0, 0], [0, 0]])
Ub1, Sb1, VTb1 = np.linalg.svd(B)
Ub2, Sb2, VTb2 = np.linalg.svd(B, full_matrices = False)
print(Ub1 @ np.diag(Sb1, -1)[1:, :] @ VTb1)
print(Ub2 @ np.diag(Sb2) @ VTb2)

Uc1, Sc1, VTc1 = np.linalg.svd(C)
Uc2, Sc2, VTc2 = np.linalg.svd(C, full_matrices = False)
print(Uc1 @ np.diag(Sc1, 2)[:, 2:] @ VTc1)
print(Uc2 @ np.diag(Sc2) @ VTc2)


[[ 3.  2.  2.]
 [ 2.  3. -2.]]
[[ 3.  2.  2.]
 [ 2.  3. -2.]]
[[2. 4.]
 [1. 3.]
 [0. 0.]
 [0. 0.]]
[[2. 4.]
 [1. 3.]
 [0. 0.]
 [0. 0.]]


In [8]:
Ub2, VTb2

(array([[ 0.70710678, -0.70710678],
        [ 0.70710678,  0.70710678]]),
 array([[ 7.07106781e-01,  7.07106781e-01,  3.88578059e-16],
        [-2.35702260e-01,  2.35702260e-01, -9.42809042e-01]]))

In [19]:
C = np.array([[2, 4], [1, 3], [0, 0], [0, 0]])
Uc1, Sc1, VTc1 = svd(C)
Sc1, np.diag(Sc1, 2)[:, 2:]

(array([5.4649857 , 0.36596619]),
 array([[0.        , 0.        , 5.4649857 , 0.        ],
        [0.        , 0.        , 0.        , 0.36596619],
        [0.        , 0.        , 0.        , 0.        ],
        [0.        , 0.        , 0.        , 0.        ]]))

### 특잇값과 특이벡터의 관계

행렬 V는 정규직교 행렬이므로 전치행렬이 역행렬이다.
V.T = V^-1

특잇값분해된 등식의 양변에 V를 곱하자.
AV = U∑V.TV = U∑

1) N < M:<br>
    [Av_1, Av_2, ... Av_N] = [σ_1u_1, σ_2u_2, ... σ_Nu_N ]<br>

2) N > M:<br>
    [Av_1, Av_2, ... Av_M] = [σ_1u_1, σ_2u_2, ... σ_Mu_M ]<br>

즉, **Av_i = σ_iu_i (i = 1, ...min(M,N))**

### 연습문제 3.4.2

In [14]:
from numpy.linalg import svd
B = np.array([[3, 2, 2], [2, 3, -2]])
Ub, Sb, VTb = svd(B, full_matrices = False)
C = np.array([[2, 4],[1, 3], [0, 0], [0, 0]])
Uc, Sc, VTc = svd(C, full_matrices = False)
B @ VTb.T, Ub @ np.diag(Sb),C @ VTc.T, Uc @ np.diag(Sc)

(array([[ 3.53553391, -2.12132034],
        [ 3.53553391,  2.12132034]]),
 array([[ 3.53553391, -2.12132034],
        [ 3.53553391,  2.12132034]]),
 array([[-4.46716435, -0.21081425],
        [-3.14809647,  0.29914646],
        [ 0.        ,  0.        ],
        [ 0.        ,  0.        ]]),
 array([[-4.46716435, -0.21081425],
        [-3.14809647,  0.29914646],
        [ 0.        ,  0.        ],
        [ 0.        ,  0.        ]]))

### 특잇값분해와 고유분해의 관계

행렬 A의 분산행렬 A.T @ A는
* **A.T @ A = VΛV.T**이고 여기에서 Λ는,<br>
1. N > M: <br>
    **Λ = diag(σ_i^2)**<br>
2. N M: <br>
    **Λ = diag(σ_i^2,...0..0)**

여기서 행렬 A의 특잇값의 제곱(과 0)이 분산행렬 A.T @ A의 고윳값, **행렬 A의 오른쪽 특이벡터가 분산행렬 A.T @ A의 고유벡터**가 된다.

마찬가지로 행렬 A의 왼쪽 특이벡터가 행렬 A @ A.T의 고유벡터가 된다.

In [None]:
ㄴ