# 3 고급 선형대수
## 3.1 선형대수와 해석기하의 기초

선형대수는 숫자 데이터의 계산에만 사용되는 것이 아니다

직선과 화살표, 이미지 등을 다루는 기하학에서도 선형대수는 중요한 역할을 한다

이 절에서는 선형대수를 기하학에서 어떻게 응용하고 선형대수의 연산이 기하학적으로 어떤 의미를 가지는지 알아본다

### 벡터의 기하학적 의미
$N$차원 벡터 $a$는 $N$차원 공간에서
* 벡터 $a$의 값으로 표시되는 점(point) 또는
* 원점과 벡터 $a$의 값으로 표시되는 점을 연결한 화살표 (arrow)
라고 생각할 수 있다

예를 들어 2차원 벡터

$$ a = \left[ \begin{matrix} a_1 \\ a_2 \end{matrix}  \right] $$
는 $(a_1, a_2)$ 좌표의 점으로 생각할 수도 있고, 원점에서 이 점을 가리키는 화살표로 생각할 수도 있다

### 벡터의 길이
벡터 $a$의 길이는 놈(norm)으로 $\Vert a \Vert$로 정의한다

### 벡터의 선형 조합
여러 개의 벡터를 스칼라곱을 한 후 더한 것을 선형조합 (linear combination)이라 한다

$$ c_1x_1 + c_2x_2 + ... + c_Nx_N $$

이 식에서 $c$는 스칼라 계수다

결국 선형 조합은 입력 벡터 $x$와 가중치 $c$의 연산으로 생각할 수 있다

### 연습 문제 3.1.1

In [2]:
import numpy as np

In [39]:
x1 = np.array([1, 2])
x2 = np.array([2, 1])

y1 = np.array([3, 1])
y2 = np.array([-1, -1])

x = np.vstack((x1, x2))
y = np.vstack((y1, y2))
y = y.T
print(x)
print(y)

c = np.linalg.lstsq(x, y, rcond=None)
print(c[0])

print(x @ c[0])

print("c1, c2 \n", np.linalg.inv(x) @ np.array([3, 1]).T)
print("c1, c2 \n", np.linalg.inv(x) @ np.array([-1, -1]).T)

print(-0.3333*1 + 1.6666*2)
print(-0.3333*2 + 1.6666*1)

print(-0.3333*1 + -0.3333*2)
print(-0.3333*2 + -0.3333*1)


[[1 2]
 [2 1]]
[[ 3 -1]
 [ 1 -1]]
[[-0.33333333 -0.33333333]
 [ 1.66666667 -0.33333333]]
[[ 3. -1.]
 [ 1. -1.]]
c1, c2 
 [-0.33333333  1.66666667]
c1, c2 
 [-0.33333333 -0.33333333]
2.9999000000000002
1.0
-0.9999
-0.9999


### 벡터의 내적과 삼각함수

두 벡터의 내적은 벡터의 길이 $\Vert a \Vert$, $\Vert b \Vert$와 두 벡터 사이의 각도 $\theta$의 코사인 함수 값으로 계산할 수 있다

$$ a^Tb = \Vert a \Vert \Vert b \Vert cos \theta $$

두 벡터 $a$와 $b$가 이루는 각도가 90도이면 서로 직교 (orthogonal)하다고 말한다
이때 서로 직교인 두 벡터의 내적은 0이 된다

In [42]:
a = np.array([1, 1]) # [1 1]T
b = np.array([-1, 1]) # [-1 1]T

np.dot(a, b)

0

### 연습 문제 3.1.3
다음 두 벡터에 대해 모두 직교하는 단위벡터를 찾아라

$$ x = \left[ \begin{matrix} 1 \\ 1 \\ 0 \end{matrix} \right], 
y = \left[ \begin{matrix} 1 \\ 0 \\ 0 \end{matrix} \right] $$

$$ Ax = Ay = \left[ \begin{matrix} 0 \\ 0 \\ 0 \end{matrix} \right] $$

$$ A\left[\begin{matrix}x & y\end{matrix}\right] = \left[ \begin{matrix} 0 \\ 0 \\ 0 \end{matrix} \right] $$

$$ A\left[\begin{matrix} 1 & 0 \\ 1 & 0 \\ 0 & 0 \end{matrix}\right] = \left[ \begin{matrix} 0 \\ 0 \\ 0 \end{matrix} \right] $$

$$ \left[\begin{matrix} 1 & 1 & 0 \\ 0 & 0 & 0 \end{matrix} \right] A^T = \left[ \begin{matrix} 0 & 0 & 0 \end{matrix} \right] $$


$Ax = 0$ 선형 시스템의 해는 Total least square에 의해 SVD 특이값 분해 결과의 V의 마지막 열과 같다

In [58]:
x = np.array([[1, 1, 0], [1, 0, 0]])
u, s, v = np.linalg.svd(x)
v[:, -1]

array([0., 0., 1.])

### 코사인 유사도
두 벡터의 방향이 비슷할수록 벡터가 비슷하다고 간주하면

두 벡터 사이의 코사인 값을 이용해 코사인 유사도를 구할 수 있다

코사인 값은 각도가 0일 때 1로 가장 크기 때문에 같은 방향을 가리키면 코사인 유사도가 1을 가진다

$$ cosine similarity = cos \theta = {x^Ty \over \Vert x \Vert \Vert y \Vert} $$

### 벡터의 분해와 성분

어떤 두 벡터 $a$와 $b$의 합이 다른 벡터 $c$가 될 때 $c$가 두 벡터 성분 (component) $a, b$로 분해된다고 말한다 (decomposition)

### 투영 성분과 직교 성분 (projection, rejection)
벡터 $a$를 다른 벡터 $b$에 직교하는 성분과 벡터 $b$에 평행한 성분으로 분해할 수 있다

* 평행한 성분: 백터 $b$에 대한 투영 성분 (projection)
* 직교하는 성분: 벡터 $b$에 대한 직교 성분 (rejection)

## 3.2 좌표와 변환
벡터의 선형독립과 랭크에 개념을 알아보고

기저 벡터와 좌표변환이 선형대수와 어떤 연관이 있는지 공부한다

좌표변환은 이미지 처리 작업뿐 아니라 다변수 확률변수를 분석하는데도 사용된다

### 선형 종속과 선형 독립
벡터 집합 $x_1, x_2, ..., x_N$을 이루는 벡터의 선형조합이 0벡터가 되도록 하는 스칼라 계수

$c_1,c_2, ..., c_N$이 존재하면 벡터들이 선형 종속 (linearly dependent)하다고 한다

단 $c$가 영벡터인 경우는 제외한다

$$ c_1x_1 + c_2x_2 + ... + c_Nx_N = 0 $$

반대로 $c$가 존재하지 않으면 벡터들이 선형 독립 (linearly independent)하다고 한다

### 선형독립과 선형 연립방정식
선형독립 관계를 행렬과 벡터의 곱으로 나타낼 수도 있다

$$ c_1x_1 + c_2x_2 + ... + c_Nx_N = Xc = 0 $$

이 연립방정식의 해가 영벡터밖에 없으면 선형독립이다

(Least square 문제에서 residual이 0이면 되지 않나?; `lstsq`)

### 선형종속인 경우 (X를 영벡터로 만드는 c벡터가 있는 경우)
* 경우 1: 벡터의 개수가 벡터의 차원보다 클 때
* 경우 2: 값이 같은 벡터가 있을 때
* 경우 3: 어떤 벡터가 다른 벡터의 선형조합일 때

국, 영, 수 점수와 (국+영+수)/3 점수는 서로 선형조합이다

### 랭크
행렬의 열벡터 중 서로 독립인 열벡터의 최대 개수: 열랭크 (column rank)

행렬의 행벡터 중 서로 독립인 행벡터의 최대 개수: 행랭크 (row rank)

* 행랭크와 열랭크는 항상 같다 = 그냥 랭크 (rank)

행렬 $A$의 랭크는 기호로 $rankA$로 표시한다

$$ rankA \leq min(M, N) $$

### 예제 (numpy matrix_rank())

In [59]:
X1 = np.array([[1, 3], [2, 4]])
print(np.linalg.matrix_rank(X1))

X2 = np.array([[1, 3, 5], [2, 4, 7]])
print(np.linalg.matrix_rank(X2))

2
2


### 풀랭크
$ rankA = min(M, N) $을 만족하는 행렬을 풀랭크라고 한다


### 로우-랭크 행렬 (low-rank matrix)
$N$차원 벡터 $x$ 하나를 이용하여 만들어지는 다음과 같은 행렬을 랭크-1 행렬 (rank-1 matrix)라고 한다

$$ {x x^T} \in \mathbb{R}^{N \times N} $$

이 행렬의 열벡터들은 $x$라고 하는 하나의 벡터를 하나의 벡터를 $x_1$배, $x_2$배, ... 한 벡터이므로 독립적인 열벡터는 1개다

따라서 랭크-1 행렬의 랭크는 1이다

$$ A = xx^T = \left[ \begin{matrix} 1 \\ 2 \end{matrix} \right] \left[ \begin{matrix} 1 & 2 \end{matrix} \right]
= \left[ \begin{matrix} 1 & 2 \\ 2 & 4 \end{matrix} \right] $$

$$ rankA = 1 $$

앞서 비슷한 방법으로 선형 독립인 두 개의 $N$ 차원 백터 $x_1, x_2$를 이용하면 랭크-2 행렬을 만들 수 있다

마찬가지로 $M$개의 $N$차원 벡터를 이용하면 랭크-M 행렬이 된다

이러한 행렬들을 가리켜 로우-랭크 행렬 (low-rank matrix)라고 한다

이 로우-랭크 행렬은 나중에 특이 분해 (singular value decomposition)과 PCA (principal component analysis)에서 사용된다

In [61]:
x1 = np.array([1, 1])
A = x1 @ x1.T

print(A)
print(np.linalg.matrix_rank(A))

2
1


### 벡터공간과 기저벡터 (vector space, basis vector)
여러 벡터를 선형조합하면 다른 벡터를 만들 수 있다

벡터 $N$개가 서로 선형 독립이면 이 벡터를 선형조합하여 만들어지는 모든 벡터의 집합을

벡터공간 (vector space) $V$라고 하고 이 벡터공간의 차원을 $N$이라 한다

그리고 그 벡터들을 벡터공간의 기저벡터 (basis vector)라고 한다

$$ V = \left[ c_1x_1 + ... + c_Nx_N | c_1,  ... , c_N \in \mathbb{R} \right] $$

$N$개의 $N$차원 벡터 $x_1, x_2, ..., x_N$이 선형독립이면 이를 선형조합하여 모든 $N$차원 벡터를 만들 수 있다

### 랭크와 역행렬
정방행렬의 랭크과 역행렬 사이에는 다음과 같은 정리가 성립한다

정방행렬이 풀랭크면 역행렬이 존재한다. 역도 성립한다. 즉, 정방행렬의 역행열이 존재하면 풀랭크다 **

### 벡터공간 투영
$M$개의 $N$차원 기저벡터 $v_1, v_2, ..., v_M$가 존재한다고 하자

$M$은 $N$보다 작다. 이 때 모든 $N$차원 벡터 $x$에 대해 기저벡터 $v_1, v_2, ..., v_M$을 선형조합해 단든 벡터,,,

### 표준 기저 벡터 (standard basis vector)
크기가 1인 X, Y, Z와도 같은 벡터

$$ e_1 = \left[  \begin{matrix} 1 \\ 0 \\ ... \\ 0 \end{matrix} \right],
e_2 = \left[  \begin{matrix} 0 \\ 1 \\ ... \\ 0 \end{matrix} \right],
...
$$

### 좌표

어떤 벡터의 좌표 (coordinate)는 기저벡터를 선형조합하여 벡터를 표현하기 위한 계수를 말한다

예를 들어 다음처럼 기저벡터 $ \{ e_1, e_2 \} $를 선형조합해 벡터 $x$를 나타낼 수 있다고 하면

$$ x = x_{e_1}e_1 + x_{e_2}e_2 $$

이 때 벡터 $x_e$

$$ x_e = \left[ \begin{matrix} x_{e_1} \\ x_{e_2} \end{matrix} \right] $$

### 변환행렬
원래의 기저벡터가 아닌 새로운 기저벡터가 있다고 하자 (좌표계가 다르다고 이해하면 된다)

이 새로운 기저벡터들의 기존 기저벡터에 대한 좌표를 열벡터로 보고 이를 행렬로 묶은 행렬 $A$를 생각하자

예를 들어, 기존의 기저벡터가 $\{ e_1, e_2 \} $이고 새로운 기저벡터 $\{ g_1, g_2 \} $ 간에 다음과 같은 관계가 성립한다면

$$ g1 = k_{11}e_1 + k_{12}e_2 \\ g2 = k_{21}e_1 + k_{22}e_2 $$

$$ A = \left[ \begin{matrix} k_{11} & k_{12} \\ k_{21} & k_{22} \end{matrix} \right] $$

### 좌표변환
새로운 기저벡터에 대해 좌표를 계산하는 것을 좌표변환 (coordinate transform)이라고 한다

기저벡터가 달라지더라도 좌푯값이 가리키는 실제 위치는 원래의 벡터가 가리키는 위치와 같아야 하므로

$$ x = x_{e_1}e_1 + x_{e_2}e_2 = x_{g_1}g_1 + x_{g_2}g_2 $$
$$ x = [ \begin{matrix} e_1 & e_2 \end{matrix}]x_e = [ \begin{matrix} g_1 & g_2 \end{matrix}]x_g $$


$ (A^T)^{-1} $이 $x_e$를 $x_g$로 변환하는 변환행렬이다

즉 새로운 좌표벡터는 원래의 좌표벡터에 변환행렬을 곱하여 구할 수 있다

### 이미지 변환

새로운 기저벡터에 대한 좌표변환을 응용하면 이미지를 자유롭게 변환할 수도 있다

파이썬에서는 `scipy.ndimage`의 `affine_transform()` 명령을 사용한다

이 명령은 이미지를 이루는 픽셀을 새로운 좌표로 이동시킨다

인수로는 이미지와 변환행렬의 역행렬을 받는다

파이썬 이미지에서는 다음과 같은 표준 기저벡터를 사용한다 ($x_1$이 아래를 향하는 세로축, $x_2$가 오른쪽을 향하는 가로축)

$$ e_1 = \left[ \begin{matrix} 0 \\ -1 \end{matrix} \right], e_2 = \left[ \begin{matrix} 1 \\ 0 \end{matrix} \right] $$

## 3.3 고윳값 분해 (eigen-decomposition)

분해를 통해 행렬의 내부 구조를 살펴보거나 행렬을 이용한 연산을 더 효울적으로 할 수 있다

### 고윳값과 고유벡터 (eigen value, eigen vector)
정방 행렬 $A$에 대해 다음 식을 만족하는 영벡터가 아닌 벡터 $v$를 고유벡터 (eigen vector)라 부른다

$$ Av = \lambda v $$

eigen value와 eigen vector를 찾는 작업을 eigen-decomposition이라 부른다

### 예제

행렬 $A$

$$ A = \left[ \begin{matrix} 1 & -2 \\ 2 & -3  \end{matrix} \right]

### 특성방정식
행렬만 주어졌을 때 고윳값과 고유벡터는 어떻게 구할 수 있을까?

행렬 $A$의 고윳값은 $A - \lambda I $의 행렬식이 0이 되도록 하는 특성방정식을 구하면 된다

$$ det(A - \lambda I) = 0 $$

$ det(A - \lambda I) = 0 $이라는 의미는 $ A - \lambda I $의 역행렬이 존재하지 않는다는 뜻이다 (0으로 나눠지니까)

### 고윳값의 개수
$N$차 방정식이 항상 $N$개의 복소수 해를 가진다는 사실을 이용하면 $N$차원 정방행렬의 고윳값 개수에 대해 다음 정리가 성립한다

중복된 고윳값을 각각 별개로 생각하고 복소수인 고윳값도 고려한다면 $N$차원 정방행렬의 고윳값은 항상 $N$개다

### 고윳값과 대각합/행렬식
어떤 행렬의 고윳값이 $\lambda_1, \lambda_2, ..., \lambda_N$이라고 하면 모든 고윳값의 곱은 행렬식의 값 (determinant)과 같고 모든 고윳값의 합은 대각합(trace)와 같다

$$ det(A) = \prod_{i=1}^N{\lambda_i} $$

$$ trace(A) = \sum_{i=1}^N{\lambda_i} $$

### 고유벡터의 계산
고윳값을 알면 다음 연린 방정식을 풀어 고유벡터를 구할 수 있다

$$ (A - \lambda I)v = 0 $$

### 대각화
$N$차원의 정방행렬 $A$가 $N$가의 복소수 고윳값과 이에 대응하는 고유 벡털르 가진다는 성질을 이용하면 다음처럼 행렬을 분해할 수 있다

행렬 $A$의 고윳값과 이에 대응하는 단위벡터인 고유벡터를 각각

$$ \lambda_1, \lambda_2, ..., \lambda_N, v_1, v_2, ..., v_N $$

이라고 하자

이 고윳값과 고유벡터를 묶어서 고유벡터행렬, 고윳값행렬을 정의할 수 있따

고유벡터행렬 $V$는 고유벡터를 열벡터로 옆으로 쌓아서 만든 행렬이다

고윳값행렬 $\Lambda$는 고윳값을 대각성분으로 가지는 대각행렬이다

$$ AV = V\Lambda $$

만약 고유행렬벡터 $V$의 역행렬이 존재한다면..

$$ A = V\Lambda V^{-1} $$

고유벡터행렬과 고윳갑행렬의 곱으로 표현할 수 있다 (이를 행렬의 대각화 (diagonalization)이라 한다)


### 대각화가능
행렬이 대각화 가능하려면 고유벡터가 선형독립이어야 한다

대각화가능(diagonalizable) 행렬..
* 고유벡터인 열벡터로 이루어진 고유벡터행렬의 역행렬이 존재하면 대각화가 가능한다
* 그런데 정방행렬의 역행렬이 존재할 조건은 정방행렬의 열벡터가 선형독립일 경우이다
* 따라서 행렬이 대각화 가능하려면 고유벡터가 선형 독립이어야 한다

### 고윳값과 역행렬
[정리] 대각화 가능한 행렬에 0인 고유값이 없으면 항상 역행렬이 존재한다

행렬 $A$가 대각화 가능하면 다음처럼 표현할 수 있다

$$ A = V\Lambda V^-1 $$

이 행렬의 역행렬은 다음과 같이 계산한다

$$ A^{-1} = (V\Lambda V^{-1})^{-1} = V  \Lambda^{-1} V^{-1}$$

대각행렬의 역행렬은 각 대각성분의 역수로 이루어진 대각행렬이므로 0인 고윳값만 없으면 항상 역행렬이 존재한다

### 대칭행렬의 고유분해
[정리] 행렬 $A$가 실수인 대칭행렬이면 고유값이 실수이고 고유벡터는 서로 직교(orthogonal)한다

cf. 대칭행렬이란, $A = A^T$를 만족하는 행렬

cf. [정리] 행렬이 대각화 가능하려면 고유벡터가 선형독립이어야 한다 (= 선형조합으로 0벡터를 만들기위해서는 계수가 반드시 0이어야 한다)

고유벡터들이 크기가 1이 되도록 정규화된 상태라면 고유벡터 행렬 $V$는 정규직교(orthonormal) 행렬이므로 전치행렬이 역행렬이다

$$ V^TV = VV^T = I $$

$$ V^{-1} = V^T $$

$$ A = V\Lambda V^T $$

[정리] 실수인 대칭행렬은 항상 대각화 가능하다


## 3.4 특이값 분해 (Singular value decomposition; SVD)

정방행렬은 고유분해로 eigen value, eigen vector를 찾을 수 있었다

정방행렬이 아닌 행렬은 고유분해가 불가능하지만, 대신 고유분해와 비슷한 특이분해를 할 수 있다

### 특이값과 특이벡터

$N \times M$크기의 행렬 $A$를 다음과 같은 3개의 행렬의 곱으로 나타내는 것을 특이분해 (singular decomposition)이라 한다

$$ A = U\Sigma V^T $$

여기에서 $U$, $\Sigma$, $V$는 다음 조건을 만족해야 한다
* $U$는 $N$차원 정방행렬로 모든 열벡터가 단위벡터이고 서로 직교한다
* $\Sigma$는 대각성분이 양수인 대각행렬이고, *큰 수부터 작은 수 순서로 배열한다* ***
* $V$는 $M$차원 정방행렬로 모든 열벡터가 단위벡터이고 서로 직교한다

[정리] 특이 분해는 모든 행렬에 대해 가능하다. 즉 어떤 행렬이 주어지더라도 위와 같이 특이분해 할 수 있다

### 특이값 분해의 축소형

특이값 대각행렬에서 0인 부분은 사실상 아무런 의미가 없기 때문에 대각행렬의 0원소부분과 대응하는 특이 벡터를 없애도 원래 행렬이 나온다

### 특이값과 특이벡터의 관계
행렬 $V$는 정규직교 행렬이므로 전치행렬이 역행렬이다
$$ V^T = V^{-1} $$

특이분해된 등식의 양변에 $V$를 곱하면,

$$ AV = U\Sigma V^TV = U\Sigma $$

### 1차원 근사

2차원 평면위에 3개의 2차원 벡터 $a_1, a_2, a_3$가 있다

원점을 지나면서도 모든 점들과 가능한 가까이 있는 직선을 만들고 싶다면 직선의 방향을 어떻게 해야할께

직선의 방향을 나타내는 단위벡터를 $w$라고 하자