# 1. 머신러닝을 위한 선형 대수학

---

## 학습 목표
- 행렬과 벡터를 다루는 선형 대수학의 개념을 학습합니다.
- 학습한 수학 공식들을 코드로 계산하는 방법을 학습합니다.

---

## 목차

### 1. 벡터
1. 스칼라와 벡터 
2. 벡터 연산법

### 2. 행렬
1. 행렬의 정의
2. 행렬 연산자
3. 특수 행렬

---

## 2. 행렬

**행렬(matrix)**은 수 또는 문자를 괄호 안에 직사각형 형태로 배열한 것을 의미합니다.

##### mxn 행렬

> $$A = \begin{bmatrix}
a_{1,1} & a_{1,2} & \cdots & a_{1,n} \\ 
a_{2,1} & a_{2,2} & \cdots & a_{2,n} \\
\vdots & \vdots & \cdots & \vdots \\
a_{m,1} & a_{2,2} & \cdots & a_{m,n}
\end{bmatrix}$$

위 수식과 같이 mxn 행렬은 $m$개의 row와 $n$개의 column을 갖고 $a_{i,j}$의 성분으로 구성되어 있습니다.

아래 예제들을 살펴보기 이전 먼저 numpy 모듈을 import 해야합니다.

In [13]:
import numpy as np

##### <예제 1> 다양한 shape의 numpy 행렬

In [14]:
matrix_A = np.array([[1, 2],[3, 4]])
matrix_B = np.array([[5, 6],[7, 8]])
print('matrix_A: \n{}\n'.format(matrix_A))
print('matrix_B: \n{}'.format(matrix_B))

matrix_A: 
[[1 2]
 [3 4]]

matrix_B: 
[[5 6]
 [7 8]]


In [15]:
matrix_C = np.array([[1, 2, 3],[4, 5, 6]])
matrix_D = np.array([[1, 2],[3, 4], [5, 6]])
print('matrix_C: \n{}\n'.format(matrix_C))
print('matrix_D: \n{}'.format(matrix_D))

matrix_C: 
[[1 2 3]
 [4 5 6]]

matrix_D: 
[[1 2]
 [3 4]
 [5 6]]


### 2-1. 행렬 덧셈과 뺄셈, 스칼라 곱

머신러닝에서 입력된 데이터들은 행렬로 변환되어 사용됩니다.

이러한 행렬들은 각종 연산들을 거쳐 사용되기에 기본적인 행렬 연산에 대한 학습이 필요합니다.

**행렬 덧셈**: 크기가 같은 두 행렬의 동일한 인덱스에 있는 행렬의 성분끼리 더합니다.

##### 행렬 덧셈

> $$\begin{bmatrix}
a_{1,1} & a_{1,2} \\ 
a_{2,1} & a_{2,2} 
\end{bmatrix} + 
\begin{bmatrix}
b_{1,1} & b_{1,2} \\ 
b_{2,1} & b_{2,2} 
\end{bmatrix} = 
\begin{bmatrix}
a_{1,1} + b_{1,1} & a_{1,2} + b_{1,2} \\ 
a_{2,1} + b_{2,1} & a_{2,2} + b_{2,2}
\end{bmatrix}$$

**행렬 뺄셈**: 크기가 같은 두 행렬의 동일한 인덱스에 있는 행렬의 성분끼리 뺄셈을 합니다.

##### 행렬 뺄셈

> $$\begin{bmatrix}
a_{1,1} & a_{1,2} \\ 
a_{2,1} & a_{2,2} 
\end{bmatrix} - 
\begin{bmatrix}
b_{1,1} & b_{1,2} \\ 
b_{2,1} & b_{2,2} 
\end{bmatrix} = 
\begin{bmatrix}
a_{1,1} - b_{1,1} & a_{1,2} - b_{1,2} \\ 
a_{2,1} - b_{2,1} & a_{2,2} - b_{2,2}
\end{bmatrix}$$

**행렬 스칼라 곱**: 스칼라 값만큼 모든 성분에 곱합니다.

##### 행렬 스칼라 곱

> $$c\begin{bmatrix}
a_{1,1} & a_{1,2} \\ 
a_{2,1} & a_{2,2} 
\end{bmatrix} = 
\begin{bmatrix}
ca_{1,1} & ca_{1,2} \\ 
ca_{2,1} & ca_{2,2} 
\end{bmatrix}
$$

##### <예제 2> 행렬 덧셈과 뺄셈, 스칼라 곱

In [16]:
matrix_A = np.array([[1, 2],[3, 4]])
matrix_B = np.array([[5, 6],[7, 8]])
print('matrix_A: \n{}\n'.format(matrix_A))
print('matrix_B: \n{}'.format(matrix_B))

print('matrix_A + matrix_B: \n{}\n'.format(matrix_A + matrix_B))
print('matrix_A - matrix_B: \n{}\n'.format(matrix_A - matrix_B))
print('2 X matrix_A: \n{}'.format(2*matrix_A))

matrix_A: 
[[1 2]
 [3 4]]

matrix_B: 
[[5 6]
 [7 8]]
matrix_A + matrix_B: 
[[ 6  8]
 [10 12]]

matrix_A - matrix_B: 
[[-4 -4]
 [-4 -4]]

2 X matrix_A: 
[[2 4]
 [6 8]]


### 2-2. 행렬 곱셈

스칼라와 행렬과의 곱셈과는 달리 행렬 곱은 특수한 형태로 정의됩니다.

제일 기본적인 형태인 **행렬 곱하기 벡터**의 형태의 정의를 보면 다음과 같습니다.

##### 행렬 곱하기 벡터

> $$\begin{bmatrix}
a_{1,1} & a_{1,2} \\ 
a_{2,1} & a_{2,2} 
\end{bmatrix}\begin{bmatrix}
x_{1}  \\ 
x_{2}  
\end{bmatrix} = \begin{bmatrix}
a_{1,1}  \\ 
a_{2,1}  
\end{bmatrix}*x_{1} + \begin{bmatrix}
a_{1,2}  \\ 
a_{2,2}  
\end{bmatrix}*x_{2} = \begin{bmatrix}
a_{1,1}x_{1}+a_{1,2}x_{2}  \\ 
a_{2,1}x_{1}+a_{2,2}x_{2}  
\end{bmatrix}$$

같은 방식으로 기존 벡터에 column 방향으로 벡터를 추가한다 생각하면 아래와 같은 공식을 얻을 수 있습니다.

##### column 벡터 추가 형태의 행렬 곱하기 벡터

> $$\begin{bmatrix}
a_{1,1} & a_{1,2} \\ 
a_{2,1} & a_{2,2} 
\end{bmatrix}\begin{bmatrix}
x_{1,1}  \\ 
x_{2,1}  
\end{bmatrix} =  \begin{bmatrix}
a_{1,1}x_{1,1}+a_{1,2}x_{2,1}  \\ 
a_{2,1}x_{1,1}+a_{2,2}x_{2,1}  
\end{bmatrix}$$

> $$\begin{bmatrix}
a_{1,1} & a_{1,2} \\ 
a_{2,1} & a_{2,2} 
\end{bmatrix}\begin{bmatrix}
x_{1,2}  \\ 
x_{2,2}  
\end{bmatrix} = \begin{bmatrix}
a_{1,1}x_{1,2}+a_{1,2}x_{2,2}  \\ 
a_{2,1}x_{1,2}+a_{2,2}x_{2,2}  
\end{bmatrix}$$

> $$\begin{bmatrix}
a_{1,1} & a_{1,2} \\ 
a_{2,1} & a_{2,2} 
\end{bmatrix}\begin{bmatrix}
x_{1,1} & x_{1,2} \\ 
x_{2,1} & x_{2,2}
\end{bmatrix} = \begin{bmatrix}
a_{1,1}x_{1,1}+a_{1,2}x_{2,1} & a_{1,1}x_{1,2}+a_{1,2}x_{2,2} \\ 
a_{2,1}x_{1,1}+a_{2,2}x_{2,1} & a_{1,1}x_{1,2}+a_{1,2}x_{2,2}
\end{bmatrix}$$

행렬 곱셈에서 중요한 것은 곱하는 행렬끼리의 크기를 맞춰야 한다는 점입니다.

예를 들어, 아래와 같은 계산은 불가능합니다.

##### 행렬 곱셈이 불가능한 행렬 shape

> $$\begin{bmatrix}
a_{1,1} & a_{1,2} \\ 
a_{2,1} & a_{2,2} 
\end{bmatrix}\begin{bmatrix}
x_{1}  \\ 
x_{2}  \\
x_{3}
\end{bmatrix} = \begin{bmatrix}
a_{1,1}  \\ 
a_{2,1}  
\end{bmatrix}*x_{1} + \begin{bmatrix}
a_{1,2}  \\ 
a_{2,2}  
\end{bmatrix}*x_{2} + ? * x_{3} $$

따라서 앞서 곱하는 행렬의 column 개수와 뒤에 곱해지는 행렬의 row의 개수가 같아야 합니다.

$AB$ 계산하기 위한 조건으로 $A$ 행렬의 shape이 (m,n) $B$ 행렬의 shape은 (n,l)이어야 합니다. (m,n,l는 자연수)

그렇게 계산된 $AB$의 shape은 (m,l)입니다.

행렬 곱셈은 결합 법칙은 성립하지만 일반적인 곱셈에서 가능한 교환 법칙이 성립하지 않습니다.

- **결합 법칙**: $(AB)C=A(BC)$
- **교환 법칙**: $AB \neq BA$

행렬을 사용한 공식들은 교환법칙이 성립하지 않기에 기존에 존재하던 방정식 풀이나 미분법에서의 공식 등에서 행렬을 그대로 대입할 수 없습니다.

따라서 행렬을 사용한 계산법들은 새로운 형태의 공식들로 정리됩니다.

##### <예제 3>행렬 곱셈

행렬의 곱을 수행하기 위해서는 numpy의 `dot` 또는 `matmul` 함수를 사용합니다.

`dot` 또는 `matmul` 함수는 3차원 이상의 배열에서 계산은 다르지만 1차원 배열인 벡터와 2차원 배열인 행렬을 다루는 행렬 곱에서는 같은 결과물을 출력합니다.

두 함수는 다음과 같이 사용할 수 있습니다.

`matmul(A,B) = dot(A,B) = AB` A와 B는 행렬 곱의 크기 조건을 만족하는 두 행렬 또는 행렬과 벡터 

In [17]:
matrix_A = np.array([[1, 2],[-1, -2]])
matrix_B = np.array([[1, 1],[2, 2]])

# 둘 다 같은 결과이다.
# 행렬에서는 같은 결과이지만 3차원(tensor)부터는 결과가 다르게 나온다.
print('행렬 곱 셈 AB =')
print(np.dot(matrix_A,matrix_B))
print(np.matmul(matrix_A,matrix_B))

print('\n행렬 곱셈 BA =')
print(np.dot(matrix_B,matrix_A))
print(np.matmul(matrix_B,matrix_A))

행렬 곱 셈 AB =
[[ 5  5]
 [-5 -5]]
[[ 5  5]
 [-5 -5]]

행렬 곱셈 BA =
[[0 0]
 [0 0]]
[[0 0]
 [0 0]]


### 2-3. 특수 행렬

**영행렬(Zero matrix** or **Null matrix)**: 행렬의 모든 원소의 값이 0인 행렬을 의미합니다. 와 같이 중요 단어 bold 처리 해주시면 더 눈에 띄기 좋을 것 같습니다.

영행렬은 행렬 덧셈의  **항등원**입니다. (**항등원**: 임의의 수 a에 대하여 어떤 수를 연산했을 때 처음의 수 a가 되도록 만들어 주는 수)

예를 들어, 행렬 $A$와 같은 크기의 영행렬 $O$가 있다면 $A+O=O+A=A$를 만족합니다.

##### 영행렬 덧셈

> $$\begin{bmatrix} 1 & 2 \\\\ 3 & 4 \end{bmatrix} + \begin{bmatrix} 0 & 0 \\\\ 0 & 0 \end{bmatrix} = \begin{bmatrix} 1 & 2 \\\\ 3 & 4 \end{bmatrix} $$

##### <예제 4> 영행렬 덧셈

In [18]:
null_matrix = np.zeros((2,2))
print("O : \n{}\n".format(null_matrix))

print("A + O = \n{}\n".format(matrix_A + null_matrix))
print("O + A = \n{}\n".format(null_matrix + matrix_A))

O : 
[[0. 0.]
 [0. 0.]]

A + O = 
[[ 1.  2.]
 [-1. -2.]]

O + A = 
[[ 1.  2.]
 [-1. -2.]]



**단위행렬(Identity matrix)**: 정사각행렬 중에서 행 번호와 열 번호가 같은 위치의 값은 1이고, 나머지는 0을 가지는 행렬을 의미합니다.

단위 행렬은 행렬 곱셈에 대한 **항등원**입니다. 

예를 들어, 행렬  $A$와 같은 크기의 단위행렬 $I$가 있다면 $A \cdot I=I \cdot A=A$를 만족합니다.

##### <예제 5> 단위행렬 곱셈

In [19]:
identity_matrix = np.eye(2)
print("I : \n{}\n".format(identity_matrix))

print("A * I = \n{}\n".format(matrix_A + identity_matrix))
print("I * A = \n{}\n".format(identity_matrix + matrix_A))

I : 
[[1. 0.]
 [0. 1.]]

A * I = 
[[ 2.  2.]
 [-1. -1.]]

I * A = 
[[ 2.  2.]
 [-1. -1.]]



### 2-4. 전치행렬과 역행렬

**전치행렬(transposed matrix)**: 행렬 성분의 행과 열 좌표를 바꾼 행렬을 의미합니다. 

아래의 예처럼 왼쪽 위에서 오른쪽 아래로 가는 대각선 상에 있는 성분 $a_{i,i}$은 변하지 않습니다.

대신 대각선을 기준으로 나머지 성분들이 자리를 교환하게 됩니다. $a_{i,j} -> a_{j,i}$ 

##### 전치행렬 예

> $$A_{1}^{T} = \begin{bmatrix}
a_{1,1} & a_{1,2} & a_{1,3} \\ 
a_{2,1} & a_{2,2} & a_{2,3} \\
a_{3,1} & a_{3,2} & a_{3,3}
\end{bmatrix}^T = \begin{bmatrix}
a_{1,1} & a_{2,1} & a_{3,1} \\ 
a_{1,2} & a_{2,2} & a_{2,3} \\
a_{1,3} & a_{2,3} & a_{3,3}
\end{bmatrix},$$    

> $$A_{2}^{T} = \begin{bmatrix}
a_{1,1} & a_{1,2}  \\ 
a_{2,1} & a_{2,2}  \\
a_{3,1} & a_{3,2} 
\end{bmatrix}^T = \begin{bmatrix}
a_{1,1} & a_{2,1} & a_{3,1} \\ 
a_{1,2} & a_{2,2} & a_{2,3} \\
\end{bmatrix}$$

행렬 $A$에 대한 전치 행렬은 $A^T$로 표현됩니다.

$mxn$ 행렬 $A$와 $B$, 스칼라 값 $c$에 대해서 전치행렬은 다음과 같은 성질을 만족합니다.

##### 전치행렬의 성질

> $$(A^T)^T = A$$

> $$(A+B)^T = A^T + B^T$$

> $$(cA)^T = c(A^T)$$

> $$(AB)^T = B^T A^T$$

위 성질들을 아래 코드로 수행해 봅시다.

##### <예제 6> 전치행렬

전치행렬은 numpy의 `transpose()`로 구할 수 있습니다.

In [20]:
matrix_A = np.array([[-1, 2],[4, 0]])
matrix_B = np.array([[-1, 2],[1, -2]])
c = 2

print("(A^T)^T : \n{}\n".format((matrix_A.transpose()).transpose()))
print("A : \n{}\n".format(matrix_A))

print("(A + B)^T : \n{}\n".format((matrix_A+matrix_B).transpose()))
print("A^T + B^T : \n{}\n".format((matrix_A+matrix_B).transpose()))

print("(cA)^T : \n{}\n".format((c*matrix_A).transpose()))
print("c(A)^T : \n{}\n".format(c*(matrix_A).transpose()))

print("(AB)^T : \n{}\n".format((np.dot(matrix_A,matrix_B)).transpose()))
print("B^TA^T : \n{}\n".format(np.dot(matrix_B.transpose(),matrix_A.transpose())))

(A^T)^T : 
[[-1  2]
 [ 4  0]]

A : 
[[-1  2]
 [ 4  0]]

(A + B)^T : 
[[-2  5]
 [ 4 -2]]

A^T + B^T : 
[[-2  5]
 [ 4 -2]]

(cA)^T : 
[[-2  8]
 [ 4  0]]

c(A)^T : 
[[-2  8]
 [ 4  0]]

(AB)^T : 
[[ 3 -4]
 [-6  8]]

B^TA^T : 
[[ 3 -4]
 [-6  8]]



**역행렬(inverse matrix)**: 어떤 행렬의 곱셈에 대한 **역원** 행렬을 의미합니다. (**역원**: 두 원소를 연산한 결과가 항등원일 때, 한 편에 대하여 다른 편을 의미함)

$AB = C$ 식을 행렬 $B$에 대해서 정리를 하고 싶을 때, 행렬의 나눗셈은 존재하지 않기에 역행렬을 곱하여 정리 할 수 있습니다.

$A$에 대한 역행렬은 $A^{-1}$으로 표현하기에 행렬 B에 대한 정리를 하자면, $B = A^{-1} C$와 같이 정리 할 수 있습니다.

역행렬을 구하는 일반적인 방법은 아래와 같습니다.

##### 역행렬 정의

> $$A^{-1}=(\frac{ 1}{\det(A)}) adj(A)$$

$det(A)$은 행렬 $A$에 대한 determinant 값을 의미하며 $adj(A)$는 adjugate 행렬을 의미합니다.

이들에 대한 자세한 설명은 너무 길어지기에 링크로 대신하겠습니다.

- determinant 값 참고 링크(한글) : https://ko.wikipedia.org/wiki/%ED%96%89%EB%A0%AC%EC%8B%9D
- adjugate 행렬 참고 링크(한글) : https://ko.wikipedia.org/wiki/%EA%B3%A0%EC%A0%84%EC%A0%81_%EC%88%98%EB%B0%98_%ED%96%89%EB%A0%AC

역행렬은 항상 존재 하는 것은 아니며 이를 확인하기 위해서는 $\det(A)\neq 0$을 확인해야합니다.

아래 코드를 수행하며 행렬 $A$의 역행렬과 $det(A)$을 구해봅시다.

##### <예제 7> 역행렬 구하기

numpy 함수를 사용하여 역행렬은 `.linalg.inv()`, determinant는 `.linalg.det()`으로 구할 수 있습니다.

In [21]:
matrix_A = np.array([[-1, 2],[4, 0]])
matrix_B = np.array([[-1, 2],[1, -2]])

print("역행렬 A: \n{}\n".format(np.linalg.inv(matrix_A)))
print("determinant of A: \n{}\n".format(np.linalg.det(matrix_A)))
print("determinant of B: \n{}\n".format(np.linalg.det(matrix_B)))

역행렬 A: 
[[0.    0.25 ]
 [0.5   0.125]]

determinant of A: 
-7.999999999999998

determinant of B: 
0.0



$mxm$  행렬 $𝐴$와 $𝐵$, 스칼라 값 $𝑐$에 대해서 역행렬은 다음과 같은 성질을 만족합니다.

##### 역행렬의 성질

> $$(A^{-1})^{-1}=A$$

> $$(cA)^{-1}=\frac{ 1}{c}A^{-1}$$

> $$(AB)^{-1}=B^{-1}A^{-1}$$

아래 코드를 수행하며 역행렬의 성질이 만족하는 것을 확인해 봅시다.

##### <예제 8> 역행렬의 성질

In [22]:
matrix_A = np.array([[-1, 2],[4, 0]])
matrix_B = np.array([[-1, 2],[1, -3]])
c=2

print("(A^-1)^-1: \n{}\n".format(np.linalg.inv(np.linalg.inv(matrix_A))))
print("A: \n{}\n".format(matrix_A))
print("(c*A)^-1: \n{}\n".format(np.linalg.inv(c*matrix_A)))
print("1/c*(A)^-1: \n{}\n".format(1/c*np.linalg.inv(matrix_A)))
print("(AB)^-1: \n{}\n".format(np.linalg.inv(np.dot(matrix_A,matrix_B))))
print("B^-1A^-1: \n{}\n".format(np.dot(np.linalg.inv(matrix_B),np.linalg.inv(matrix_B))))

(A^-1)^-1: 
[[-1.  2.]
 [ 4.  0.]]

A: 
[[-1  2]
 [ 4  0]]

(c*A)^-1: 
[[0.     0.125 ]
 [0.25   0.0625]]

1/c*(A)^-1: 
[[0.     0.125 ]
 [0.25   0.0625]]

(AB)^-1: 
[[-1.    -1.   ]
 [-0.5   -0.375]]

B^-1A^-1: 
[[11.  8.]
 [ 4.  3.]]



---