선형대수학에 대해 기본적인 사항들을 알고있으면 여러 데이터 분석 알고리즘을 공부할 때 매우 편하다(사실은 필수적으로 알아야한다).


In [1]:
import numpy as np

1. 먼저 벡터 내적과 행렬 곱셈을 복습하자. 행렬곱셈은 행벡터와 열벡터의 내적으로 이루어진다.

* 벡터의 내적 (inner product, dot product, scalar product)

vector란 1차원 배열을 말한다.

길이가 같은 두 벡터 $ \mathbf x= (x_1 , x_2 , \ldots, x_n ),~~  \mathbf y=(y_1 , y_2 , \ldots, y_n )$의 내적은 다음과 같이 정의된다.

$$  \mathbf x \cdot  \mathbf y = \sum_{i=1}^n x_i ~y_i .$$

**연습문제**

파이썬 NumPy의 연산을 이용하여 다음 두 벡터의 내적을 계산하시오.

$$ x= (0, -1, 3, -6), ~~~~~ y=(1, 2, -3, 5) $$

In [2]:
x = np.array((0, -1, 3, -6))
y = np.array((1, 2, -3, 5))

In [3]:
x * y

array([  0,  -2,  -9, -30])

In [4]:
sum(x * y)

-41

일반적으로 배열끼리의 내적은 아래에서 공부할 `dot()` 함수를 이용한다.

In [5]:
x.dot(y)  

-41

In [8]:
y.dot(x) 

-41

In [6]:
np.dot(x, y)  

-41

`@` 연산자를 써도 된다.

In [7]:
x @ y  

-41

* 벡터의 길이 (norm)

$ ||{\mathbf x}|| = \sqrt {\mathbf x \cdot \mathbf x} $

2차원 공간에서 직각삼각형에 대한 피타고라스의 정리를 생각해보면 쉽다. 원점에서 점 $ \mathbf x = (a, b)$까지의 거리는 

$$ ||\mathbf x|| = \sqrt {a^2 + b^2 }= \sqrt {\mathbf x \cdot \mathbf x}~~.$$

* 벡터의 길이와 내적

두 벡터 $ \mathbf x, \mathbf y$사이의 각을 $\theta$라고 할 때 두 백테의 내적은 다음과 같다.

$$ \mathbf x \cdot \mathbf y = \sum_{i=1}^n x_i ~y_i = ||\mathbf x|| ||\mathbf y|| \cos \theta.$$

**연습문제**

파이썬 NumPy의 연산을 이용하여 아래 두 벡터 사이의 거리를 계산하시오.

파이썬 NumPy의 연산을 이용하여 다음 두 벡터 사잇각의 코사인값을 계산하시오.

$$  \mathbf x= (0, -1, 3, -6), ~~~~~  \mathbf y=(1, 2, -3, 5) $$

In [8]:
x = np.array((0, -1, 3, -6))
y = np.array((1, 2, -3, 5))

In [9]:
x * y

array([  0,  -2,  -9, -30])

In [10]:
xyd = x - y
x - y

array([ -1,  -3,   6, -11])

In [11]:
np.sqrt(sum(xyd * xyd))  

12.922847983320086

또는

In [12]:
np.sqrt((x - y).dot(x - y))

12.922847983320086

In [13]:
np.sqrt(sum((x - y) ** 2))

12.922847983320086

In [14]:
sum(x * y) / (sum((x) ** 2)) ** 0.5 / (sum((y) ** 2)) ** 0.5 

-0.9679939375322655

또는

In [15]:
a = sum(x * x)
b = sum(y * y) 
c = sum(x * y) / np.sqrt(a * b)
c  #두 벡터 사잇각의 코사인값

-0.9679939375322656

또는

In [16]:
x.dot(y) / np.sqrt(x.dot(x) * y.dot(y))

-0.9679939375322656

* 직교(수직)하는 벡터

`두 벡터가 직교하면 사잇각의 코사인 값이 0이므로 내적도 0이다.`

예) $ \mathbf x= (1, 0, 0), ~~ \mathbf y=(0, 1, 0)$

In [17]:
x = np.array((-1, 2))
y = np.array((2, 1))
np.sum(x * y)

0

* **행렬 곱셈**

두 행렬 $\mathbf A (m \times n)$, $\mathbf B(n \times p)$의 곱셈은 $\mathbf A$의 행벡터와 $\mathbf B$의 열벡터들을 $mp$번 내적해서 $m \times p$ 행렬을 만드는 것이다.

아래 곱셈이 가능할까?

In [None]:
A.dot(B)

$\mathbf A (3 \times 2), \mathbf B (4 \times 3)$이므로 곱셈 $\mathbf A \mathbf  B$는 안 된다. 하지만 곱셈 $\mathbf B \mathbf A$는 된다.

In [None]:
B.dot(A)

In [None]:
np.dot(B, A)

In [None]:
B.dot(A)

* 전치행렬

$m \times n$ 행렬 $\mathbf A$를 전치시키면 행이 열이 되고 열이 행으로 바뀌어 $ n \times m$ 행렬이 된다.

아래 세 가지 방법 중 하나를 이용한다. 

In [19]:
A = np.array([0, 1, 2, 3]).reshape(2, 2)
B = np.array([3, 2, 0, 1]).reshape(2, 2)

In [20]:
A

array([[0, 1],
       [2, 3]])

In [21]:
np.transpose(A)

array([[0, 2],
       [1, 3]])

In [22]:
A.transpose()

array([[0, 2],
       [1, 3]])

In [23]:
A.T

array([[0, 2],
       [1, 3]])

**연습문제: 이유를 설명하시오**



1) 행렬 $\mathbf A$가 대칭행렬이면 $\mathbf A^T ~=~ \mathbf A$.

2) 아래 행렬들은 대칭행렬이다. 

    M.T.dot(M), 
    
    M.dot(M.T)

In [None]:
M = np.arange(6).reshape(3,2)
M

In [None]:
M.T

In [None]:
M.T.dot(M) 

In [None]:
M.dot(M.T)

$ m \times n $ 행렬 $M$이 있다고 하자.

행렬곱셈 `M.T.dot(M)` ($M^T M$)은 행렬 $M$의 열벡터들끼리 내적해서 만들어진다. 따라서 $M^T M$의 $(i, j)$번째 원소는 $M$의 $i, j$번째 열을 내적한 것이며 $(j, i)$번째 원소 역시 같은 두 벡터를 내적한 것이므로 `M.T.dot(M)`은 $n \times n$ 대칭행렬이 된다. 

또 `M.dot(M.T)` ($M M^T $)의 원소들은 `M`의 행벡터들끼리 내적한 것이므로 역시 $ m \times m$ 대칭행렬이다.

$A$가 대칭행렬이면 $A^T = A$ 이며, 두 행렬의 곱을 전치시키면 $(AB)^T =  B^T A^T $이므로 $(M M^T )^T = MM^T $가 되어 역시 $MM^T $가 대칭임을 알 수 있다.

* 퀴즈 : 계산이 가능한 곱셈은?  (곱셈 연산자 `*`를 이용한 곱셈과 `np.dot, A.dot(B)` 등을 혼동하지 말자.)

In [None]:
A * B

In [None]:
B * A

In [None]:
A * A

In [None]:
A.T * A

In [None]:
np.dot(A, 3) 

In [None]:
np.dot(3, A)

In [None]:
3 * A

In [None]:
(3).dot(A)

In [None]:
A.dot(3)

**연습문제**

두 행렬 $\mathbf A$, $\mathbf B$에 대해 아래 두 계산이 가능할 조건을 각각 설명하시오.

* $\mathbf A$.dot($\mathbf B$) 

* $\mathbf A$ * $\mathbf B$

$\mathbf A$ : m x n, $\mathbf B$ : n x p 이면 $\mathbf A$.dot($\mathbf B$) 곱셈 가능.

$\mathbf A$ : m x n, $\mathbf B$ : m x n 이면 $\mathbf A$ * $\mathbf B$ 곱셈 가능.

* 역행렬

$ n \times n$ 행렬 $A$에 대해 $A A^{-1} = A^{-1} A = I_n $을 만족하는 행렬 $A^{-1}$를 $A$의 역행렬이라 부른다.

역행렬을 구하려면 numpy 안에 있는 모듈 `linalg`를 불러서 `inv()` 함수를 이용한다.

In [24]:
A

array([[0, 1],
       [2, 3]])

In [25]:
Ainv = np.linalg.inv(A)
Ainv

array([[-1.5,  0.5],
       [ 1. ,  0. ]])

In [26]:
Ainv.dot(A)

array([[1., 0.],
       [0., 1.]])

In [27]:
dd =  ([1, 0, 0], [0, 2, 0], [0, 0, 3])
d1 = np.array(dd)
d1

array([[1, 0, 0],
       [0, 2, 0],
       [0, 0, 3]])

In [28]:
d1inv = np.linalg.inv(d1)
d1inv

array([[1.        , 0.        , 0.        ],
       [0.        , 0.5       , 0.        ],
       [0.        , 0.        , 0.33333333]])

In [29]:
d1.dot(d1inv)

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

대각행렬 d1은 `diag()` 함수를 이용하여 더 간단히 만들 수 있다.

In [30]:
dd = np.arange(1, 4)
diagm = np.diag(dd)
diagm

array([[1, 0, 0],
       [0, 2, 0],
       [0, 0, 3]])

* 행렬식

In [None]:
np.linalg.det(A)

In [None]:
np.linalg.det(d1)

In [None]:
np.linalg.det(d1inv)

대각행렬의 행렬식은 대각선 원소들의 곱과 같다.

<u> 모든 $n \times n $ 행렬이 역행렬을 가질까?</u> 아니다. 

`어떤 행렬의 역행렬이 존재하는지 여부는 행렬식의 값에 따라 달라진다.`

행렬식의 값은 역행렬을 계산할 때 분모로 쓰인다. 만일 행렬식이 0이라면 역행렬은 계산할 수 없다.

따라서 행렬식 값이 0인가 아닌가가 중요하다. 


지금 행렬식 계산법을 연습할 필요는 없고 단순한 $2 \times 2$ 행렬의 **행렬식 계산법**만 알고 넘어가자.

$$ \det{(A)}  =  \det{ \left( \begin{array}{cc} a & b \\ c & d \end{array} \right)} \\  = ad-bc. $$

In [3]:
aa = np.array([1, 2, 2, 4]).reshape((2, 2))
aa

array([[1, 2],
       [2, 4]])

In [4]:
np.linalg.det(aa)  #행렬식 계산 함수

0.0

In [None]:
np.linalg.inv(aa)

**2. 벡터들의 선형독립, 선형종속, 벡터공간**

행렬 aa의 행렬식이 0이 되는 이유는? 

그 행렬의 행들, 열들 사이의 관계 때문이다. 2행은 1행의 2배, 2열은 1열의 두 배다. 즉 1행(1열)만 있으면 2행(2열)은 상수를 곱해서 만들 수 있다. 두 백터 사이에 이러한 관계가 있으면 두 벡터는 선형종속(linearly dependent)이라고 말한다. 

**연습문제**

다음 세 벡터에 대해 선형종속, 선형독립 관계를 설명하시오.

$$ a=(-1, 0, 4),~~ b=(3, 0, -12), ~~ c= (1, 0, 4)$$

In [6]:
va = np.array([-1, 0, 4]); vb = np.array([3, 0, -12]); vc = np.array([1, 0, 4])

In [7]:
MA = np.array([va, vb, vc])
MA

array([[ -1,   0,   4],
       [  3,   0, -12],
       [  1,   0,   4]])

In [8]:
np.linalg.det(MA)

0.0

행렬식이 0인 이유는?

-3va = vb (3va + vb = 0)이므로 va와 vb는 선형종속이다. 따라서 va, vb, vc 세 벡터도 선형종속(3va + vb + 0vc = 0)이기 때문이다. 

즉 `벡터들을 0이 아닌 값들로 선형결합해서 0벡터를 만들 수 있다면 그 벡터들은 선형종속`이다.

- 퀴즈 : 행렬 MA의 세 열벡터들은 선형독립인가?
: 선형 종속 (차원을 생각할 것) 0으로만 이루어진 벡터가 있으면 무조건 선형 종속이다.

`행렬 MA의 행렬식이 0이므로 역행렬도 존재할 수 없다.` 이런 행렬을 singular matrix(특이행렬, 비정칙행렬, 비가역행렬)이라고 부른다. 

반면에 <u>역행렬이 존재하는 행렬은 nonsingular matrix, invertible matrix라고 한다.</u>

In [9]:
np.linalg.inv(MA)

LinAlgError: Singular matrix

위의 결과는 종속 행렬이기 때문에 역행렬을 계산 할 수 없다.

In [None]:
3 * va + vb

**연습문제**

선형종속인 두 벡터 `va, vb` 사잇각의 코사인 값은?

$$ \cos \theta  =  \frac {x \cdot y} {||x|| ||y|| } $$

In [None]:
va.dot(vb) / np.sqrt(va.dot(va) * vb.dot(vb))

In [None]:
np.cos((0, np.pi))

또는 벡터 내적을 계산하는 inner(), 길이를 계산하는 norm() 함수를 이용해서 cos 값을 구할 수도 있다.

In [None]:
np.inner(va, vb) / (np.linalg.norm(va) * np.linalg.norm(vb))

* 선형결합(linear combination)

길이가 같은 벡터들($ \mathbf {v_1 , v_2 , \ldots, v_n} $)에 각각 상수($c_1 , c_2 , \ldots, c_n$)를 곱해서 더하면 새로운 벡터가 생긴다. 이를 벡터들의 선형결합(일차 결합)이라고 한다.

$$ \sum_{i=1}^n c_i \mathbf v_i $$

2차원 평면 상에 두 벡터 $$  \mathbf v_1 = (1, 0), \;\;  \mathbf v_2 = (0,1) \\ $$ 가 있다고 하자. 두 벡터에 각각 상수를 곱해서 더하면 그 공간 상의 모든 점을 다 만들 수 있다. 

\begin{eqnarray}
  x \mathbf v_1 + y  \mathbf v_2 &=& x (1, 0) + y (0, 1) \\ &=& (x, y) 
\end{eqnarray} 

즉 두 벡터를 선형결합해서 2차원 공간을 만들 수 있다.

하지만 두 벡터 $$  \mathbf v_1 = (1, 0),  \;\;   \mathbf v_3 = (2,0) \\ $$을 아무리 선형결합시키더라도 2차원 공간을 만들 수 없다. 

\begin{eqnarray} x  \mathbf  v_1 + y  \mathbf v_3 &= & x (1, 0) + y (2, 0) \\ &= & k (1, 0) \\ &= & k  \mathbf v_1
\end{eqnarray} 

즉 두 벡터로 1차원 직선만 만들 수 있다. 이유는 <u>$  \mathbf v_1 , \;\;   \mathbf v_2 $는 선형독립이지만 $ \mathbf v_1 ,  \;\;   \mathbf v_3 $는 선형종속이기 때문이다.</u>

In [2]:
va = np.array([-1, 0, 4]); vb = np.array([3, 0, -12]); vc = np.array([1, 0, 4])

In [3]:
print(va, vb, vc)

[-1  0  4] [  3   0 -12] [1 0 4]


위에서 $  \mathbf  {va, vc}$를 선형결합하면 2차원 공간이 생긴다. 그렇다면 세 벡터 $ \mathbf {va, vb, vc}$를 선형결합하면 3차원 공간이 생길까? 아니다. $ \mathbf {va, vc}$로 만드는 공간과 같은 공간만 생긴다. 이유는? $ \mathbf {va}$와 $ \mathbf {vb}$가 겹치기 때문에(종속이기 때문에) $ \mathbf {vb}$가 새로 추가되어도 할 일이 남아있지 않기 때문이다. 벡터들의 수를 보면  $ \mathbf {va, vb, vc}$은 세 개지만 그것들을 가지고 만들 수 있는 공간의 차원은 3이 아니고 2다. 이유는 세 벡터가 선형종속이기 때문이다.

즉,  $  \mathbf  {va, vb}$는 선형종속이고 세 벡터 $ \mathbf {va, vb, vc}$도 선형종속이다. $  \mathbf  {va, vb}$ 두 벡터를 포함하는 어떤 집합이든 모두 선형종속이다.

이런 것을 이해하는 것이 중요할까? 

물론이다. 회귀분석 등의 과목을 공부하고 데이터분석을 하기 위해 필요한 기본 중의 기본이다. 

이런 것을 이해하지 못하면 cm단위로 잰 키 데이터와 그 데이터를 m 단위로 바꾼 것을 (어쨌든 값이 다르므로) 서로 다른 변수로 간주하고 엉터리 분석을 할 수도 있다.

**생각해보자**

아래 물음에 대해 자유롭게 답해보시오.

두 벡터가 서로 상수배 관계인 것은 아니지만 사잇각의 코사인 값이 거의 1 (또는 -1)에 가까울 때에는 아무 문제 없을까? 혹시 벡터들 사이의 코사인 값은 상관계수와 무슨 관계가 있지 않을까?

* 행렬 곱셈을 이용한 행별 합계 계산

In [4]:
A = np.array([[1, 2, 3], [4, 5, 6]])
A

array([[1, 2, 3],
       [4, 5, 6]])

In [5]:
np.ones(3)

array([1., 1., 1.])

In [6]:
np.dot(A, np.ones(3))

array([ 6., 15.])

* 행렬곱셈을 벡터 선형결합으로 이해하자

위의 계산은 아래와 같이 행렬 $\mathbf A$의 세 열벡터에 각각 1을 곱해서 선형결합한 것과 같다.

$$  \left( \begin{array}{ccc} 1 & 2 & 3 \\ 4 & 5 & 6 \end{array} \right) 
\left( \begin{array}{c} 1 \\ 1 \\ 1 \end{array} \right) 
=  1 \left( \begin{array}{c}1 \\ 4 \end{array} \right)+
1 \left( \begin{array}{c}2 \\ 5 \end{array} \right) + 
 1 \left( \begin{array}{c}3 \\ 6 \end{array} \right)
 = \left( \begin{array}{c}6 \\ 15 \end{array} \right) $$
 

세 개의 열벡터를 선형결합해서 만들 수 있는 벡터들의 집합은 어떤 것일까?

$$ \mathbf {Ax} = \left( \begin{array}{ccc} 1 & 2 & 3 \\ 4 & 5 & 6 \end{array} \right) 
\left( \begin{array}{c} x \\ y \\ z \end{array} \right) 
=  x \left( \begin{array}{c}1 \\ 4 \end{array} \right)+
y \left( \begin{array}{c}2 \\ 5 \end{array} \right) + 
 z \left( \begin{array}{c}3 \\ 6 \end{array} \right)
 = \left( \begin{array}{c} x+2y+3z \\ 4x+5y+6z \end{array} \right) $$

행렬 $\mathbf A$의 열벡터들을 선형결합시켜서 만든 모든 벡터들의 집합을 **$\mathbf A$의 열공간(column space)** 이라고 한다. 이 공간은 2차원 평면공간($R^2 $)과 같다.

A의 두 행벡터들을 선형결합하여 **행공간** 도 만들어보자. 3차원공간($R^3 $)의 부분집합으로서 공간의 차원은 2다.

$$ \left( \begin{array}{c} x & y \end{array} \right) \left( \begin{array}{ccc} 1 & 2 & 3 \\ 4 & 5 & 6 \end{array} \right) 
=  x \left( \begin{array}{ccc}1 & 2 & 3 \end{array} \right)+
y \left( \begin{array}{ccc} 4 & 5 & 6 \end{array} \right) 
 = \left( \begin{array}{ccc} x+4y & 2x+5y & 3x+6y \end{array} \right) $$

* 일차 연립방정식과 열공간

아래와 같은 연립방정식을 생각해보자. 

$$  \begin{array}{r} &-x +3y+z &=&0 \\ &x -3y +z &=&0 \\ &4x-12y+4z &=&0 \end{array} $$

행렬을 이용해서 표현하면,

$$  \mathbf {Av} = \left( \begin{array}{rrr} -1 & 3 & 1 \\ 1 & -3 & 1 \\ 4 & -12 & 4 \end{array} \right) 
\left( \begin{array}{r} x \\ y \\ z \end{array} \right) 
=  x \left( \begin{array}{r}-1 \\ 1 \\ 4 \end{array} \right)+
y \left( \begin{array}{r} 3 \\ -3 \\ -12 \end{array} \right) + 
 z \left( \begin{array}{c} 1 \\ 1 \\  4 \end{array} \right)
 = \left( \begin{array}{c}0 \\ 0 \\0 \end{array} \right) $$
 

`이 방정식의 답을 찾는 것은 세 열벡터들 사이의 선형독립 관계를 알아보는 것과 같다.` 또는 열벡터들을 선형결합시켜 0벡터를 만들 수 있는지 묻는 것과 같다. 연립방정식을 풀면 $(x,y,z) = (3, 1, 0)$라는 답을 얻을 수 있는데 여기서는 결과 자체보다는 자명한 답 $(0, 0, 0)$ 이외에 다른 답이 존재하는지 여부가 중요하다. 

이의 경우와 같이 $\mathbf 0$이 아닌 방정식의 답이 존재한다는 것은 세 열벡터가 선형종속 관계임을 나타낸다. 즉 행렬 $\mathbf A$의 열벡터들이 선형종속관계인지 알아보려면 $\mathbf {Av=0}$ 이 되는 영벡터가 아닌 벡터 $\mathbf v$가 존재하는지 확인해보면 된다. 만약 그런 벡터 $\mathbf v$가 존재한다면 열벡터들은 선형종속이며, 행렬 $\mathbf A$의 행렬식은 0이고, $\mathbf A^{-1}$은 존재하지 않는다.

만일 행렬의 열벡터들이 **선형독립인 경우라면** 위와 같은 방정식은 `np.linalg.solve()`를 이용해서 풀 수 있다. (연립방정식)

세 벡터가 다음과 같다고 하자.

$$\mathbf a=(-1, 1, 4),~~ \mathbf b=(3, -3, -12), ~~ \mathbf c= (1, 1, 4)$$

In [7]:
alist = [[-1, 1, 4], [3, -3, -12], [1, 1, 4]]
A = np.array(alist).T
b = np.array([0, 0, 0])
A

array([[ -1,   3,   1],
       [  1,  -3,   1],
       [  4, -12,   4]])

$\mathbf A$의 행렬식을 구해보면 0이므로 역행렬이 없다.

In [8]:
np.linalg.det(A)  #행렬식

0.0

위의 행렬에서 값을 하나만 바꾸어보자. (-1, 1, 4 에서 -1, 2, 4로 바꿈)

In [9]:
blist = [[-1, 2, 4], [3, -3, -12], [1, 1, 4]]
B = np.array(blist).T
b = np.array([0, 0, 0]) #위의 b = (3, -3, -12) 과 다른것임 밑에서의 b = 0
B

array([[ -1,   3,   1],
       [  2,  -3,   1],
       [  4, -12,   4]])

$\mathbf B$의 세 열벡터가 선형독립이고 따라서 행렬식이 0이 아니므로 역행렬을 구할 수 있다.

In [10]:
np.linalg.det(B)

-24.000000000000004

In [11]:
np.linalg.inv(B)

array([[-2.77555756e-17,  1.00000000e+00, -2.50000000e-01],
       [ 1.66666667e-01,  3.33333333e-01, -1.25000000e-01],
       [ 5.00000000e-01,  0.00000000e+00,  1.25000000e-01]])

$\mathbf B$의 역행렬이 존재한다면 연립방정식 $\mathbf {Bx = b}$는 

$$\mathbf {B^{-1} B x} = \mathbf  x  = \mathbf { B^{-1}b}$$


라는 유일한 답을 갖는다. 이럴 때 만약 $\mathbf {b = 0}$ 벡터라면 $\mathbf {x = 0}$이 연립방정식 $\mathbf {Bx = 0}$의 유일한 답이다.

이제 넘파이로 방정식을 풀어보자.

In [12]:
np.linalg.solve(B,b)  #연립방정식

array([0., 0., 0.])

$\mathbf A$의 열벡터들이 선형독립이므로 위의 결과는 당연하다. 다른 $\mathbf b$ 벡터에 대해서도 연습해보자.

In [13]:
b = np.array([1, -1, 3])
np.linalg.solve(B,b)

array([-1.75      , -0.54166667,  0.875     ])

어떤 벡터 $\mathbf b$에 대해서도 방정식 $\mathbf {Bx=b}$는 답을 갖는다. 이유는 행렬 $\mathbf B$의 세 열벡터가 선형독립이므로  $\mathbf B$의 열공간은 $R^3 $이기 때문이다.

* **선형변환(linear transformation)**

In [14]:
M = np.array([4, 2, 3, 5]).reshape(2, 2)
a = np.array([1, 2])

print(M, "\n\n", a)

[[4 2]
 [3 5]] 

 [1 2]


In [15]:
M.dot(a)

array([ 8, 13])

벡터 $ \mathbf a = (1, 2)$ 앞에 행렬 $\mathbf M$을 곱하니 새로운 벡터 $(8, 13)$이 되었다. 이 변환은 임의의 벡터 ${\mathbf v, \mathbf w}$와 행렬 $\mathbf A$, 그리고 임의의 상수 $k_1 , k_2$에 대해 $$\mathbf A (k_1 \mathbf v + k_2 \mathbf w ) = k_1 \mathbf {Av} + k_2 \mathbf {Aw}$$

가 된다. 이러한 변환을 `선형변환`이라고 부른다. 

* 행렬의 분해(factorization)

행렬 $\mathbf A$가 다음과 같다고 하자.

$$  \mathbf {A} = \left( \begin{array}{rrr} 1 & 3 & 8 \\ 1 & 2 & 6 \\ 0 & 1 & 2 \end{array} \right) $$

이 행렬의 열벡터들은 선형독립인가? 아니다. 3열 = 2 x (1열) + 2 x (2열)이다. 따라서 다음과 같이 행렬  $\mathbf A$를 두 행렬의 곱으로 분해할 수 있다. 

$$  \mathbf {A} = \left( \begin{array}{rrr} 1 & 3 & 8 \\ 1 & 2 & 6 \\ 0 & 1 & 2 \end{array} \right) =  
 \left( \begin{array}{rrr} 1 & 3 \\ 1 & 2  \\ 0 & 1  \end{array} \right)  \left( \begin{array}{rrr} 1 & 0 & 2 \\ 0 & 1 & 2 \end{array} \right) $$
 
위와 같은 행렬 분해는 $ \mathbf {A} $의 열벡터들 사이에 있는 선형독립, 종속 관계를 잘 보여준다.

3. **고유값, 고유벡터, 스펙트럴 분해**

$n \times n$ 행렬 $\mathbf A$에 대해 

$$ \mathbf {A v} = \lambda \mathbf v $$

를 만족하는 벡터 $\mathbf {v \;\; (v \neq 0)}$를 $\mathbf A$의 고유벡터(eigenvector)라 하고 스칼라값 $\lambda$를 고유값(eigenvalue)라고 한다.

위의 정의는 

$$ \mathbf {(A- \lambda I)v = 0 }$$

과 같으므로 $$ \det (\mathbf A- \lambda \mathbf I) = 0 $$

을 풀어 고유값과 고유벡터를 구할 수 있다.

In [16]:
M

array([[4, 2],
       [3, 5]])

In [19]:
from numpy.linalg import inv, det, eig
det(M)

14.000000000000004

행렬 $\mathbf M$의 교유치와 고유벡터는 `eig(M)`으로 구한다. 결과는 <u>고유값들과 고유벡터들로 이루어진 두 개의 배열이 들어있는 튜플</u>이다. 데이터가 들어있는 어떤 행렬의 고유벡터는 데이터 축의 방향을 나타내는데 각 축의 중요도는 고유치 절대값의 크기로 결정된다.

In [20]:
eig(M)

(array([2., 7.]),
 array([[-0.7071, -0.5547],
        [ 0.7071, -0.8321]]))

행렬 $\mathbf M$의 행렬식은 14이고 고유치는 2와 7이다. 고유치들이 들어있는 1차원 배열에서 첫 고유벡터에 대응하는 맨 첫번째 고유치를 부르기 위해서는 아래와 같이 해야한다.

In [21]:
Eig = eig(M)
type(Eig)

tuple

In [22]:
Eig[0][0]

2.0

또 고유벡터들로 이루어진 배열은 2차원 배열이므로 맨 첫번째 고유벡터를 부르기 위해서는 다음과 같이 해야한다.

In [23]:
Eig[1][:,0]

array([-0.7071,  0.7071])

고유치 2에 대응하는 고유벡터는(편의상 값들을 정수로 표현하면) $(-1, 1)$이며 고유치 7에 대응하는 고유벡터는 $(2, 3)$이다. 고유치 $\lambda = 2$에 대해 $\mathbf {Mv} = \lambda \mathbf v$임을 곱셈으로 확인해보자.

In [24]:
M.dot(Eig[1][:,0])

array([-1.4142,  1.4142])

In [25]:
np.dot((Eig[0][0]), Eig[1][:,0])

array([-1.4142,  1.4142])

* $\mathbf {MV} = \mathbf {VD}$

In [26]:
Eig

(array([2., 7.]),
 array([[-0.7071, -0.5547],
        [ 0.7071, -0.8321]]))

In [27]:
D = np.diag(Eig[0])  #대각행렬
D

array([[2., 0.],
       [0., 7.]])

In [28]:
V = Eig[1]
V

array([[-0.7071, -0.5547],
       [ 0.7071, -0.8321]])

In [29]:
M.dot(V)

array([[-1.4142, -3.8829],
       [ 1.4142, -5.8244]])

In [30]:
V.dot(D)

array([[-1.4142, -3.8829],
       [ 1.4142, -5.8244]])

고유치, 고유벡터의 정의로부터 쉽게 위의 등식이 성립함을 알 수 있다.

In [31]:
IV = inv(V)
IV

array([[-0.8485,  0.5657],
       [-0.7211, -0.7211]])

In [32]:
IV.dot(M).dot(V)

array([[ 2.0000e+00, -5.5511e-16],
       [ 0.0000e+00,  7.0000e+00]])

$\mathbf {V^{-1} M V} = \mathbf D$이며, $\mathbf {M} = \mathbf {VDV^{-1}}$도 성립한다.

In [33]:
V.dot(D).dot(IV)

array([[4., 2.],
       [3., 5.]])

*  spectral decomposition (eigendecomposition)

1) 대칭행렬 : $\mathbf {S^T = S}$ 

대칭행렬 $ \mathbf S$에 대해 $ \mathbf {Sx=0}$을 만족하는 벡터 $\mathbf x$는 $ \mathbf S$의 행공간에 속하는 모든 벡터와 직교한다. 대칭행렬에서는 <u>행공간 = 열공간</u> 이므로 당연히  벡터 $\mathbf x$는 $ \mathbf S$의 열공간에 속하는 모든 벡터와도 직교한다.

2) 직교행렬 : 길이가 1이고 서로 직교하는 열들로 이루어진 $ n \times n$ 행렬

$\mathbf {Q^T = Q^{-1} }$,        

$\mathbf {Q^T Q = I}$

3) 고유치, 고유벡터 : $ \mathbf {Sq} = \lambda \mathbf q $ 

<u>대칭행렬의 고유치는 모두 실수이다. 그리고 길이가 1이고 서로 직교하는 정규직교 고유벡터(orthonormal eigenvector)들을 갖는다.</u>

**spectral decomposion** : 

$ \mathbf {SQ = QD}$

$\mathbf {S [q_1 , q_2, \ldots, q_n ]} = \mathbf {[q_1 , q_2, \ldots, q_n ]}  \left( \begin{array}
& \lambda_1  & 0     & 0      & \cdots        & 0     & 0  \\
0 & \lambda_2 & 0 & \cdots &  0      & 0 \\
0 & 0 & \lambda_3 & \cdots & 0 &  0  \\
\vdots & \vdots & \ddots &  & \vdots  & \vdots  \\
0 &  0 & 0 & \cdots & \lambda_{n-1} & 0 \\
0 & 0      & 0     &  \cdots      & 0      & \lambda_n \end{array}  \right)$

$ \mathbf {S = QDQ^T }$

$\mathbf S = \mathbf {[q_1 , q_2, \ldots, q_n ]}  \left( \begin{array}
& \lambda_1  & 0     & 0      & \cdots        & 0     & 0  \\
0 & \lambda_2 & 0 & \cdots &  0      & 0 \\
0 & 0 & \lambda_3 & \cdots & 0 &  0  \\
\vdots & \vdots & \ddots &  & \vdots  & \vdots  \\
0 &  0 & 0 & \cdots & \lambda_{n-1} & 0 \\
0 & 0      & 0     &  \cdots      & 0      & \lambda_n \end{array} \right)   \left[ \begin{array} &  \mathbf {q_1^T \\ q_2^T \\ \vdots, \\ q_n^T}  \end{array} \right]  $

$\mathbf S = \lambda_1 \mathbf {q_1 \cdot q_1^T} + \lambda_2 \mathbf {q_2 \cdot q_2^T} + \ldots +  \lambda_n \mathbf {q_n \cdot q_n^T} $ 

In [3]:
data = np.random.randint(5, size=(10,5))
dxd = data.T.dot(data)
dxd

array([[43, 37, 26, 46, 46],
       [37, 52, 36, 53, 41],
       [26, 36, 48, 38, 39],
       [46, 53, 38, 81, 56],
       [46, 41, 39, 56, 81]])

In [4]:
dxd.T

array([[43, 37, 26, 46, 46],
       [37, 52, 36, 53, 41],
       [26, 36, 48, 38, 39],
       [46, 53, 38, 81, 56],
       [46, 41, 39, 56, 81]])

In [5]:
from numpy.linalg import inv, det, eig
eig_d = eig(dxd)

In [6]:
type(eig_d)

tuple

In [7]:
eig_d

(array([233.88227507,   6.1204594 ,  11.75217844,  24.07420696,
         29.17088013]),
 array([[ 0.38276524,  0.62701293,  0.62350541,  0.25412854,  0.08369736],
        [ 0.42002855, -0.633203  ,  0.47860674, -0.10378792, -0.42754373],
        [ 0.35255271,  0.32048781, -0.17509365, -0.85359657, -0.11708655],
        [ 0.53682628,  0.12246018, -0.57814552,  0.44233049, -0.40854931],
        [ 0.51438402, -0.29698455, -0.1314023 ,  0.01906255,  0.79346034]]))

In [8]:
eig_vals = eig_d[0] #고유값
eig_vecs = eig_d[1] #고유벡터

In [9]:
V = eig_d[1]
D = np.diag(eig_vals)

In [10]:
eig_vals

array([233.88227507,   6.1204594 ,  11.75217844,  24.07420696,
        29.17088013])

In [11]:
V.dot(D).dot(V.T)

array([[43., 37., 26., 46., 46.],
       [37., 52., 36., 53., 41.],
       [26., 36., 48., 38., 39.],
       [46., 53., 38., 81., 56.],
       [46., 41., 39., 56., 81.]])

In [12]:
eig_pairs = [(np.abs(eig_vals[i]), eig_vecs[:,i]) for i in range(len(eig_vals))]
eig_pairs.sort(key=lambda k : k[0], reverse=True)
eig_pairs

[(233.88227506668193,
  array([0.38276524, 0.42002855, 0.35255271, 0.53682628, 0.51438402])),
 (29.170880126871122,
  array([ 0.08369736, -0.42754373, -0.11708655, -0.40854931,  0.79346034])),
 (24.074206961798687,
  array([ 0.25412854, -0.10378792, -0.85359657,  0.44233049,  0.01906255])),
 (11.75217844067462,
  array([ 0.62350541,  0.47860674, -0.17509365, -0.57814552, -0.1314023 ])),
 (6.1204594039736895,
  array([ 0.62701293, -0.633203  ,  0.32048781,  0.12246018, -0.29698455]))]

In [13]:
eig_v0 = eig_pairs[0][1].reshape(5,1)
eig_v0

array([[0.38276524],
       [0.42002855],
       [0.35255271],
       [0.53682628],
       [0.51438402]])

In [14]:
m_0 = eig_pairs[0][0] * eig_v0.dot(eig_v0.T)
m_0

array([[34.26591242, 37.6017987 , 31.56122567, 48.05776516, 46.04868919],
       [37.6017987 , 41.26244322, 34.63380282, 52.73632844, 50.53166308],
       [31.56122567, 34.63380282, 29.07002602, 44.26445596, 42.41396095],
       [48.05776516, 52.73632844, 44.26445596, 67.40076739, 64.58304872],
       [46.04868919, 50.53166308, 42.41396095, 64.58304872, 61.88312602]])

In [15]:
eig_v1 = eig_pairs[1][1].reshape(5,1)
m_1 = eig_pairs[1][0]* eig_v1.dot(eig_v1.T)
m_0 + m_1

array([[34.47026167, 36.55793971, 31.27535584, 47.06028153, 47.98594299],
       [36.55793971, 46.59469453, 36.09408604, 57.83168467, 40.63576312],
       [31.27535584, 36.09408604, 29.46993723, 45.65986341, 39.70388302],
       [47.06028153, 57.83168467, 45.65986341, 72.26975305, 55.12679233],
       [47.98594299, 40.63576312, 39.70388302, 55.12679233, 80.24850871]])

In [16]:
eig_v2 = eig_pairs[2][1].reshape(5,1)
m_2 = eig_pairs[2][0]* eig_v1.dot(eig_v2.T)
m_0 + m_1 + m_2

array([[34.98231736, 36.34881248, 29.55540349, 47.95155429, 48.02435302],
       [33.94225151, 47.6629604 , 44.87996447, 53.2788759 , 40.43955661],
       [30.55902697, 36.3866399 , 31.87602615, 44.41303729, 39.65015017],
       [44.56080009, 58.85249087, 54.05541302, 67.91921119, 54.93930266],
       [52.84028822, 38.65321362, 23.39854239, 63.5761578 , 80.61264009]])

In [17]:
eig_v3 = eig_pairs[3][1].reshape(5,1)
m_3 = eig_pairs[3][0]* eig_v1.dot(eig_v3.T)
m_0 + m_1 + m_2 + m_3

array([[35.59561369, 36.81958267, 29.38317677, 47.38287514, 47.89510226],
       [30.80940484, 45.25816727, 45.75973479, 56.18380866, 41.09979671],
       [29.70106976, 35.72806647, 32.11695888, 45.20857829, 39.83096264],
       [41.5671359 , 56.5545351 , 54.89609793, 70.69508696, 55.57021037],
       [58.65440602, 43.1161676 , 21.76581381, 58.18501581, 79.38732839]])

In [18]:
eig_v4 = eig_pairs[4][1].reshape(5,1)
m_4 = eig_pairs[4][0]* eig_v1.dot(eig_v4.T)
m_0 + m_1 + m_2 + m_3 + m_3

array([[36.20891002, 37.29035285, 29.21095005, 46.81419598, 47.76585149],
       [27.67655817, 42.85337415, 46.63950511, 59.08874142, 41.7600368 ],
       [28.84311256, 35.06949304, 32.3578916 , 46.00411929, 40.0117751 ],
       [38.5734717 , 54.25657933, 55.73678284, 73.47096273, 56.20111808],
       [64.46852381, 47.57912158, 20.13308524, 52.79387382, 78.16201669]])

4. 특이값 분해 (singular value decomposition) (p. 396)

일반적으로 데이터행렬은 대칭 행렬이 아니다. 따라서 그 행렬을 위와 같이 분해할 수 없다. 이런 경우 특이값분해를 이용하면 된다. $ \mathbf A$ 가 $ m \times n$ 행렬일 때 $ \mathbf A$ 의 특이값분해는 다음과 같다.

$ \mathbf {A = U \Sigma V^T }$

$ \mathbf {AV = U \Sigma }$

여기서 $ \mathbf U$는 $ m \times m $ 직교행렬,  $ \mathbf V$는 $ n \times n $ 직교행렬이고 $ \Sigma$는 '특이값'들을 대각선원소로 갖는 $ m \times n$ 행렬이다.

`대칭행렬의 특이값 분해는 고유치-고유벡터 분해와 같다. 하지만 특이값분는 행의 수와 열의 수가 다른 일반적인 행렬에 대해서도 구할 수 있기 때문에 고유치-고유벡터 분해보다 더 일반적이다.`