그동안 배웠던 데이터 분석기초를 정리하고 나의 생각을 정리하기 위해 작성.<br>
출처: [데이터 사이언스 스쿨](https://datascienceschool.net/)


# **NumPy를 활용한 선형대수 입문**


선형대수(linear algebra)?
데이터 분석에 필요한 각종 계산을 돕기 위한 학문.<br><br>

대표적이유:<br>
    데이터는 수만 개가 하나의 집합을 이루고 있을 수도 있다.<br>
    선형대수를 이용하면 대량의 데이터의 계산과정을 몇 글자 되지 않는 수식으로 서술 할 수 있다.<br>
<br>
## **데이터의 유형**
<br>
선형대수에서 다루는 데이터는 개수나 형태에 따라 크게 3가지로 나눠진다.<br>
<br>

### **1. 스칼라(scalar)**
<br>
스칼라는 하나의 숫자만으로 이루어진 데이터를 말한다.<br>
스칼라는 보통 x와 같이 알파벳 소문자로 표기하며 실수(real number)인 숫자중의 하나이므로 실수 집합 R의 원소라는 의미에서 다음처럼 표기.
<br>
    $$
    x \in R
    $$
<br>

my opinion : 분석을 위한 목표에서 추출된 하나의 데이터 값

### **2. 벡터(vector)**
<br>
벡터는 여러개의 숫자가 특정한 순서대로 모여 있는 상태를 말한다.<br>
즉 데이터 레코드의 묶음으로 생각하면 된다.<br>
$$
x = 
\begin{bmatrix}
{x}_{1} \\ 
{x}_{2} \\ 
{x}_{3} \\ 
{x}_{4}
\end{bmatrix}
$$
<br>
하나의 벡터를 이루는 데이터의 개수를 **차원(dimension)** 이라고한다.<br>
위의 벡터는 4차원 실수 벡터라고 하고 다음과 같이 표기<br>
<br>
$$
x = \begin{bmatrix}
x_{1} \\
x_{2} \\
x_{3} \\
x_{4} \\
\end{bmatrix}
,\;\;
x \in \mathbf{R}^N
$$

my opinion : 추출된 데이터들이 행 또는 열로 묶여 있는 것

In [9]:
import numpy as np

# 벡터의 예
x1 = np.array([[1],[2],[3],[4]])
x1

array([[1],
       [2],
       [3],
       [4]])

하지만 Numpy에서는 1차원 배열 객체도 벡터로 인정. 아래는 행처럼 표시되나 실제로는 열이라는 점을 인지해야한다.

In [10]:
x1 = np.array([1, 2, 3, 4])
x1

array([1, 2, 3, 4])

주의 해야될것은 두가지 표현법중 열 표기를 정확하게 요구하는 경우도 있다.<br>
예를 들어 Scikit-learn 패키지에서는 벡터를 요구하는 경우 반드시 열의 개수가 1개인 2차원 배열을 넣어야한다.

### **3. 행렬**<br>
행렬은 복수의 차원을 가지는 데이터 레코드가 다시 여러 개 있는 경우 데이터를 합쳐서 표기.<br>
행렬은 보통 X와 같이 알파벳 대문자로 표기<br>
<br>
$$
X = 
\begin{bmatrix} 
{ x }_{ 1,1 } & x_{1,2} & x_{1,3} & x_{1,4} \\ 
{ x }_{ 2,1 } & x_{2,2} & x_{2,3} & x_{2,4} \\ 
{ x }_{ 3,1 } & x_{3,2} & x_{3,3} & x_{3,4} \\
{ x }_{ 4,1 } & x_{4,2} & x_{4,3} & x_{4,4} \\
\end{bmatrix} 
$$

행렬의 원소는 $x_{1,2}$와 같이 숫자 쌍을 아래첨자(sub-script)로 붙여서 표기.<br>
첫 번째 숫자 1 은 **행**, 두번째 숫자 2는 **열**을 뜻한다.<br>
예를 들어 <span style="color:red">$x_{4,4}$</span>은 네번째 행, 네번째 열의 숫자를 뜻한다.<br>
벡터는 열의 개수가 1인 행렬이며, 다른말로 **열 벡터(column vector)** 라고도 한다.<br>
형렬은 크기를 수식으로 표기할때 다음 처음 "행 x 열"로 나타낸다.<br>
<br>
$$
X \in \mathbf{R}^{4\times4}
$$
<br>
벡터는 열의 개수가 1인 특수 행렬이기 때문에 다음과 같이 표기 가능<br>
<br>
$$
X \in \mathbf{R}^{4\times1}
$$
<br>
NumPy를 이용하여 행렬을 표기할 때는 2차원 ndarray 객체를 사용한다.<br>
<br>
$$
A =
\begin{bmatrix}
11 & 12 & 13 \\
21 & 22 & 23 \\
\end{bmatrix}
$$


my opinion : 벡터의 묶음

In [11]:
A = np.array([[11, 12, 13], [21, 22, 23]])
A

array([[11, 12, 13],
       [21, 22, 23]])

### **4. 전치 연산**<br>
전치(transpose)연산: 행과 열을 바꾸는 연산이고 벡터나 행렬에 T라는 위첨자(super-script)를 표기<br>
<br>
$$
X = 
\begin{bmatrix}
\color{red}x_\color{red}{1, 1} & \color{red}x_\color{red}{1, 2} & \color{red}x_\color{red}{1, 3} \\
x_{2, 1} & x_{2, 2} & x_{2, 3} \\
x_{3, 1} & x_{3, 2} & x_{3, 3} \\
\end{bmatrix}
\;
\rightarrow
\;
X^T=
\begin{bmatrix}
\color{red}x_\color{red}{1, 1} & x_{2, 1} & x_{3, 1} \\
\color{red}x_\color{red}{1, 2} & x_{2, 2} & x_{3, 2} \\
\color{red}x_\color{red}{1, 3} & x_{2, 3} & x_{3, 3} \\
\end{bmatrix}
$$
<br>
전치 연산으로 만든 행렬을 **전치행렬**이라고 한다.<br>
(열)벡터 $x$에 대해 전치 연한을 적용 하면 $ x^T $는 행의 수가 1인 행렬이므로 행 벡터(row vector)라고 한다.
<br>
$$
\begin{bmatrix}
x_{1} \\
x_{2} \\
\vdots \\
x_{N} \\
\end{bmatrix}
\;
\rightarrow
\;
x^T = 
\begin{bmatrix}
x_{1} & x_{2} & \cdots & x_{N}
\end{bmatrix}
$$

Numpy에서는 `ndarray` 객체의 `T`라는 속성을 이용 전치행렬을 구함. `T`는 메서드(method)가 아니고 속성(attribute)이므로 소괄호 `()`를 사용하면 안된다.

my opinion : 전치연산이 필요한 이유는 내적(메트릭스 또는 벡터 곱)을 위해서

In [12]:
A.T

array([[11, 21],
       [12, 22],
       [13, 23]])

주의점: 1차원 `ndarray`는 전치 연산이 적용되지 않는다.

In [13]:
x1

array([1, 2, 3, 4])

In [14]:
x1.T

array([1, 2, 3, 4])

### **5. 행렬의 행 표기법과 열 표기법**

전치 연산과 행 벡터, 열 벡터를 이용하면 다음처럼 행렬을 복수의 열 벡터 $c_i$, 또는 복수의 행 벡터 $r_j^T$을 합친(concatenated) 형태로 표기할 수도 있다.<br>
$$
X =
\begin{bmatrix}
c_1 & c_2 & \cdots & c_i \\
\end{bmatrix}
=
\begin{bmatrix}
r_1^T \\
r_2^T \\
\vdots \\
r_j^T \\
\end{bmatrix}
$$
여기에서 각 행렬의 크기는 다음과 같다.<br>

* 행렬

$$ X \in \mathbf{R}^{N\times M}$$


* 열 벡터

$$ C_i \in \mathbf{R}^{N \times 1} \; (i=1, \cdots, M) $$ 

* 행 벡터

$$ r_j^T \in \mathbf{R}^{1 \times M} \; (j=1, \cdots, N) $$
<br>

즉, 위의 식은 다음과 같은 말을 수식으로 표현한 것이다.

> "행렬 $X$의 각 <span style="color:red">열</span>은 $c_1$, $c_2$, $\ldots$, $c_M$라고 이름 붙인다."

또는

> "행렬 $X$의 각 <span style="color:red">행</span>은 $r_1^T$, $r_2^T$, $\ldots$, $r_N^T$라고 이름 붙인다."

모든 벡터는 기본적으로 열벡터이며, $r_1$를 전치 연산하여 행을 표한점에 주의.

my opinion: 긴 수식을 단순한 형태로 표기 할수 있으므로 매우 중요하며 잘알고 있어야 한다고 생각, 또 열과 행을 구분하는 표시에 주의

### **6. 특수 벡터와 행렬**
<br>
#### **영 벡터**
모든 원소가 0인 N차원 벡터 아래의 모든 표기가 같은 의미 표기법.
$$
\mathbf{0}_N = \mathbf{0} = 0 =
\begin{bmatrix}
0 \\
0 \\
\vdots \\
0 \\
\end{bmatrix}
$$

$$ 0 \in \mathbf{R}^{N \times 1} $$

#### **일 벡터**
영 벡터와 마찬가지로 모든 원소가 1인 N차원 벡터
$$
\mathbf{1}_N = \mathbf{1} = 1 = 
\begin{bmatrix}
1 \\
1 \\
\vdots \\
1 \\
\end{bmatrix}
$$

$$1 \in \mathbf{R}^{N \times 1}$$

#### **정방 행렬**
행의 개수와 열의 개수가 같은 행렬을 정방 행렬(square matrix)이라 한다.
$$
\color{red}N = \color{blue}M
$$

$$
\mathbf{R}^{\color{red}N \times \color{blue}M}
$$

#### **대각 행렬**
행렬에서 행과 열이 같은 위치를 대각(diagonal)이라고 하고,<br>
대각 위치에 있지 않은 것들은 비대각(off-diagonal)이라고 한다.<br>
모든 비대각 요소가 0인 정방 행렬을 대각 행렬(diagonal matrix)이라고 한다.<br>
<br>
$$
D =
\begin{bmatrix}
\color{red}D_\color{red}{1,1} & 0 & \cdots & 0 \\
0 & \color{red}D_\color{red}{2,2} & \cdots & 0 \\
\vdots & \vdots & \ddots & \vdots \\
0 & 0 & \cdots & \color{red}D_\color{red}{N,N} \\
\end{bmatrix}
$$

$$ D \in \mathbf{R}^{N \times N}$$

Numpy에서 대각행렬을 만드려면 `diag`명령어 사용

In [15]:
np.diag([1, 2, 3])

array([[1, 0, 0],
       [0, 2, 0],
       [0, 0, 3]])