# 쑤튜브 83강 특이값 분해 (SVD)
- Singular Value Decomposition
- 지난 시간에 알아본 EVD는 대칭행렬이라는 제약이 있음
- SVD는 대칭행렬이 아닐 경우에도 해볼 수 있는 방법이다



## 개요
- 고유값 분해에서
    - 행렬 A는 정방, 대칭행렬
    - $ A=PDP^T \quad $ (P는 직교행렬, D는 대각행렬)} 
- 특이값 분해에서
    - 행렬 A는 정방, 꼭 대칭행렬이 아니더라도
    - $ A=UDV^T \quad $ (U,V는 직교행렬}
    - 이런식으로 양쪽에 똑같은 P행렬이 아닌, U,V행렬을 곱하는 방식으로도 분해를 할 수 있다

## SVD
- A는 n차 정방행렬, 꼭 대칭행렬일 필요는 없다.
- rank(A)=k 라면, $A=U \, \Sigma \, V^T$
- U,V는 직교행렬
- $\Sigma $ 는 대각행렬인데, 대각성분이 랭크(=k)개 만큼만 값이 존재, 나머지 대각요소는 0
- $\Sigma $ 는 요렇게 생겼다.
$$
\Sigma = 
\begin{align}
\begin{bmatrix}
\sigma_{1}  \\
 & \sigma_{2}  \\
 &       & \ddots  \\
 &  &  & \sigma_{k}  \\
 &  &  &  & 0  \\
 &  &  &  &  & \ddots \\
 &  &  &  &  &  & 0 \\
\end{bmatrix}
\end{align}
\quad (n \times n \text{ Diagonal matrix} )
$$


### 뭐를 하려고? 증명!
> A를 $A=U \, \Sigma \, V^T$ 이런 꼴로 분해할 수 있다. 

이것을 증명하려고 한다.

### 사전 지식
- $ A^T A$는 대칭행렬, 전치해보면 자기 자신이니까 대칭행렬 $\Rightarrow \quad (A^TA)^T = A^TA $
- $ rank(A) = rank(A^T A) $
- 내적할 때 $ A u \cdot v = u \cdot A^T v \quad \Rightarrow $ A를 transpose해서 앞으로 뒤로 이동할 수 있다. (쑤튜브 17강 참고 - 대각합)
- 정규직교 기저 만드는 법을 알고 있어야 한다.(쑤튜브 71강 참고 - 정규직교기저 찾는 기술)

---

### 증명
- $A^TA = V \, D \, U^T $ 직교대각화를 했다고 하자.
- $ D = \lambda_1 \cdots \lambda_n $ 의 n차 대각행렬
- $ V = [ v_1 \cdots v_n ] \quad $ (V는 n차 정방행렬, $v_i$ 는 열벡터)

---

- $ \lambda \ge 0 $이다. Why?
    - $
        \lVert A x^2 \rVert = Ax \cdot Ax = x \cdot A^T A x = x \cdot \lambda x = \lambda (x \cdot x ) = \lambda \lVert x^2 \rVert
      $
    - $ \lVert x^2 \rVert \ge 0 $이므로 $ \lambda \ge 0 $ 이다.

---

- $ rank(A^T A) = k $ 이므로 $ \lambda_1 \ge \lambda_2 \ge \cdots \ge \lambda_k \ge 0 $이다. Why?
    - D행렬의 $\lambda$들 중에서 $ \lambda_1 \quad \cdots \quad \lambda_k \quad \lambda_{k+1} \quad \cdots \quad \lambda_{n} $
    - $ \lambda_1 \ge \lambda_2 \ge \cdots \ge \lambda_k \ge 0 $이고
    - $\lambda_{k+1} = \cdots = \lambda_{n} = 0 $ 이다.

---

- $ \{ Av_1,Av_2, \cdots , Av_n \} $들은 직교집합이다. Why?
    - $ v_1 \cdots v_n $은 직교한다는 사실은 이미 알고 있다. $ \Rightarrow v_i \cdot v_j = 0 $
    - $ \{ Av_1,Av_2, \cdots , Av_n \} $들도 직교할까? 직교한다. 
    - 왜냐하면 $ Av_i \cdot Av_j = v_i \cdot A^TAv_j = v_i \cdot \lambda_j v_j = \lambda_j (v_i \cdot v_j ) = 0 $이기 때문이다.
    - 내적이 0이니까 직교하는 것이다.
---

- $ \lVert A v_i \rVert = \sqrt{\lambda_i} \;\; (i=1,2,\cdots,n) $이다. Why?
    - $ \lVert A v_i \rVert^2 
    = Av_i \cdot Av_i 
    = v_i \cdot A^T A v_i 
    = v_i \cdot \lambda v_i = \lambda (v_i \cdot v_i) = \lambda \lVert v_i \rVert^2  $ 으로 풀이되고
    - v는 정규화된 벡터이므로 $ \lVert v_i \rVert = 1$이므로 $ \lambda \lVert v_i \rVert^2  = \lambda $가 된다.
    - 따라서 $ \lVert A v_i \rVert^2  = \lambda  \quad \Rightarrow \quad \lVert A v_i \rVert = \sqrt{\lambda} $이다.

---

- $ \lVert A v_i \rVert$ 는 직교인데, 정규화되어 있는가? 그렇지 않다.
    1. 방금 $ \lVert A v_i \rVert = \sqrt{\lambda_i}  $임을 보았으므로, 반드시 1인 것은 아니다.
    1. 정규화해보자. 간단하다. $ A v_i $을 $ \sqrt{\lambda_i} $로 나눠주면 된다.
    1. $ \{ \frac{Av_1}{\sqrt{\lambda_1}}, \frac{Av_2}{\sqrt{\lambda_2}}, \cdots , \frac{Av_n}{\sqrt{\lambda_n}} \} $ 이렇게 정규화 할 수 있을 것 같은데
    1. $ \lambda_{k+1} = \cdots = \lambda_n = 0 $ 이므로 k까지만 나열해야 한다. 분모에 0이 있으면 안되니까
    1. 정리하면 요렇게 된다. $ \{ \frac{Av_1}{\sqrt{\lambda_1}}, \frac{Av_2}{\sqrt{\lambda_2}}, \cdots , \frac{Av_k}{\sqrt{\lambda_k}} \} $
        - 너무 복잡하니 $ \frac{Av_i}{\sqrt{\lambda_i}} $를 $u_i$로 대체하자.
        - 일단은 완성 $ \{ \frac{Av_1}{\sqrt{\lambda_1}}, \frac{Av_2}{\sqrt{\lambda_2}}, \cdots , \frac{Av_k}{\sqrt{\lambda_k}} \} = \{ u_1, u_2, \cdots , u_k \} $
        - 하지만 $ k+1 $부터 $n$까지는 나열하지 못했으니 기저가 되지는 못하겠다.
---

- $ U = [ u_1, u_2, \cdots , u_n ] $ 행렬 만들기, $u_i$는 열벡터
    - u벡터들이 n개가 있어야 하는데 k개만 존재하므로 기저가 되지 못한다. 
    - $u_{k+1}$부터 $u_n$까지의 벡터를 정규직교기저 만드는 법을 이용해서 채운다.(쑤튜브 71강 참고)
 
---

- $\Sigma$ 행렬을 아래와 같이 만들었다고 생각해보자.
$$
\Sigma = 
\begin{align}
\begin{bmatrix}
\sqrt{\lambda_{1}}  \\
 & \sqrt{\lambda_{2}}  \\
 &       & \ddots  \\
 &  &  & \sqrt{\lambda_{k}}  \\
 &  &  &  & 0  \\
 &  &  &  &  & \ddots \\
 &  &  &  &  &  & 0 \\
\end{bmatrix}
\end{align}
\quad (n \times n \text{ 대각행렬} )
$$

---

- 이제 $U$와 $\Sigma$ 를 곱해보자.
    - $U \Sigma = [\sqrt{\lambda_1} \, u_1 , \cdots , \sqrt{\lambda_k} \, u_k , 0 \cdots 0 ]$ 이므로
    - $U \Sigma = [Av_1, Av_2, \cdots , Av_k , Av_{k+1}, Av_n ]$ 이 된다.
    - 결국 $U \Sigma = AV $이 되었다.
    - 양변에 $ V^{-1} $를 곱하면 
    $$ A = U \Sigma V^{-1} = U \Sigma V^T $$
    
- 증명 끝

## 정리

- A는 이런 식으로 분해할 수 있다.

$$ A = U \Sigma V^T $$

- U는 어떤 모양?
    - $ \{ u_1, u_2, \cdots , u_k \} =
        \{ \frac{Av_1}{\sqrt{\lambda_1}}, \frac{Av_2}{\sqrt{\lambda_2}}, \cdots , \frac{Av_k}{\sqrt{\lambda_k}} \}
      $
    - $ \{ u_{k+1}, \cdots , u_n \}$는 정규직교기저 찾기를 통해서 찾은 벡터들이다.
      
- $\Sigma$는 어떤 모양?
$$
\Sigma = 
\begin{align}
\begin{bmatrix}
\sqrt{\lambda_{1}}  \\
 & \sqrt{\lambda_{2}}  \\
 &       & \ddots  \\
 &  &  & \sqrt{\lambda_{k}}  \\
 &  &  &  & 0  \\
 &  &  &  &  & \ddots \\
 &  &  &  &  &  & 0 \\
\end{bmatrix}
\end{align}
\quad (n \times n \text{ 대각행렬} )
$$

- $V$는 어떤 모양?
    - $A^TA$의 고유벡터들로 구성된 직교행렬(정규)
    - 고유값 분해할때 배운 내용

- $\sqrt{\lambda}$를 특이값이라고 한다. 그래서 특이값 분해라고 부른다.

## 나만의 정리

### 계산하는 순서를 다시 한번 적어본다
1. 대칭행렬이 아닌 n차 정방행렬 A가 있을때
1. $A^TA$의 $\lambda$와 고유벡터 V를 계산한다.
1. 고유벡터 V를 정규화한다.
1. 이렇게 찾은 $\lambda$와 $V=[v_1, \cdots, v_n ]$을 이용해서 $U$와 $\Sigma$를 찾는다.
1. U행렬 만들기
    - $ \{ u_1, u_2, \cdots , u_k \} =
        \{ \frac{Av_1}{\sqrt{\lambda_1}}, \frac{Av_2}{\sqrt{\lambda_2}}, \cdots , \frac{Av_k}{\sqrt{\lambda_k}} \}
      $
    - $ \{ u_{k+1}, \cdots , u_n \}$는 정규직교기저 찾기를 통해서 벡터들을 찾는다.
1. $\Sigma$ 대각행렬은 대각 원소가 $\sqrt{\lambda_i}$
1. 이렇게 $A$행렬을 $ U \Sigma V^T $로 분해했다.
$$ A = U \Sigma V^T $$

---


끝