<div class="alert alert-block alert-success">
    <b><center>numpy library</center></b>
</div>

# Configure Environment

In [1]:
import numpy as np

# 벡터
벡터는 여러 개의 숫자가 특정한 순서대로 모여 있는 것을 말한다.
* 예를 들어 한 송이의 붓꽃의 종을 알아내기 위해 크기를 측정할 때,
  + 꽃잎의 길이 $x1$
  + 꽃잎의 폭 $x2$
  + 꽃받침의 길이 $x3$
  + 꽃받침의 폭 $x4$ 라는 4개의 데이터를 쌍(tuple)로 묶어 표현할 수 있다.

이때 숫자의 순서가 바뀌면 어떤 숫자가 꽃잎의 길이이고 어떤 숫자가 꽃받침의 폭인지 알 수 없으므로 숫자의 순서를 유지하는 것이 중요하다. 이런 데이터 묶음을 선형대수에서는 <b>벡터</b>라고 부르고 아래와 같이 표현 한다.
$$ x\quad =\quad \begin{bmatrix} { x }_{ 1 } \\ { x }_{ 2 } \\ { x }_{ 3 } \\ { x }_{ 4 } \end{bmatrix} $$

# 특징 벡터 (feature vector)
$$ { x }_{ 1 }=\begin{bmatrix} 5.1 \\ 3.5 \\ 1.4 \\ 0.2 \end{bmatrix},\quad { x }_{ 2 }=\begin{bmatrix} 4.9 \\ 3.0 \\ 1.4 \\ 0.2 \end{bmatrix} $$
* ${x}_{1}$ : 꽃잎의 길이 5.1cm, 폭이 3.5cm, 꽃받침의 길이 1.4cm, 폭이 0.2cm
* ${x}_{2}$ : 꽃잎의 길이 4.9cm, 폭이 3.0cm, 꽃받침의 길이 1.4cm, 폭이 0.2cm

In [8]:
x1 = np.array([
    [5.1],
    [3.5],
    [1.4],
    [0.2]
])
x2 = np.array([[4.9], [3.0], [1.4], [0.2]])
x1, x2

(array([[5.1],
        [3.5],
        [1.4],
        [0.2]]),
 array([[4.9],
        [3. ],
        [1.4],
        [0.2]]))

### 행렬
붓꽃 예에서 6개의 붓꽃에 대해 데이터를 측정하였다면 하나의 벡터를 행(row)으로 표시된 6*4개의 행렬로 표현될 수 있다.
$$ X\quad =\quad \begin{bmatrix} { x }_{ 1,1 } & { x }_{ 1,2 } & { x }_{ 1,3 } & { x }_{ 1,4 } \\ { x }_{ 2,1 } & { x }_{ 2,2 } & { x }_{ 2,3 } & { x }_{ 2,4 } \\ { x }_{ 3,1 } & { x }_{ 3,2 } & { x }_{ 3,3 } & { x }_{ 3,4 } \\ { x }_{ 4,1 } & { x }_{ 4,2 } & { x }_{ 4,3 } & { x }_{ 4,4 } \\ { x }_{ 5,1 } & { x }_{ 5,2 } & { x }_{ 5,3 } & { x }_{ 5,4 } \\ { x }_{ 6,1 } & { x }_{ 6,2 } & { x }_{ 6,3 } & { x }_{ 6,4 } \end{bmatrix},\quad X \in \mathbf{R}^{6 \times 4} $$

In [9]:
# 두 송이의 붓꽃 데이터를 하나의 행렬로 합치면 다음과 같다.
A = np.array([
    [5.1, 3.5, 1.4, 0.2],
    [4.9, 3.0, 1.4, 0.2]
])
A

array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2]])

# 전치 연산
$$ x=\begin{bmatrix} { x }_{ 1 } \\ { x }_{ 1 } \\ \vdots  \\ { x }_{ n } \end{bmatrix}\quad \rightarrow \quad { x }^{ T }=\begin{bmatrix} { x }_{ 1 } & { x }_{ 2 } & \cdots  & { x }_{ n } \end{bmatrix} $$
전치(transpose) 연산은 행렬에서 가장 기본이 되는 연산으로 행렬의 행과 열을 바꾸는 연산을 말한다. 전치 연산은 벡터나 행렬에 T 라는 위첨자(super-script)를 붙어서 표기한다. 책에 따라서는 프라임(prime)기호 ′를 붙이는 경우도 있다.
$$x \;\; \rightarrow \;\; x^T \text{ 또는 } x'$$

In [11]:
A.T

array([[5.1, 4.9],
       [3.5, 3. ],
       [1.4, 1.4],
       [0.2, 0.2]])

# 항등행렬
대각행렬 중에서도 모든 대각성분의 값이 1인 대각행렬을 항등행렬(identity matrix)이라고 한다. 항등행렬은 보통 알파벳 대문자  I 로 표기한다.
$$ \begin{bmatrix} 1 & 0 & \cdots  & 0 \\ 0 & 1 & \cdots  & 0 \\ \vdots  & \vdots  & \ddots  & \vdots  \\ 0 & 0 & \cdots  & 1 \end{bmatrix},\quad I\in { { R } }^{ N\times N } $$

In [15]:
x = np.eye(5)
x

array([[1., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1.]])

In [93]:
np.eye(5)[2]

array([0., 0., 1., 0., 0.])

In [36]:
np.eye(5)[[3,2,3,1]]

array([[0., 0., 0., 1., 0.],
       [0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0.],
       [0., 1., 0., 0., 0.]])

# 0/1 행렬
* 모든 원소가 0인  N 차원 벡터는 영벡터(zeros-vector) 라고 하고,
* 모든 원소가 1인  N 차원 벡터는 일벡터(ones-vector)라고 함
$$ { 0 }_{ N }=\begin{bmatrix} 0 \\ 0 \\ \vdots  \\ 0 \end{bmatrix}=0,\quad { 1 }_{ N }=\begin{bmatrix} 1 \\ 1 \\ \vdots  \\ 1 \end{bmatrix}=1 $$

In [94]:
x = np.zeros((2, 5))
x

array([[0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.]])

In [95]:
y = np.ones((5,2))
y

array([[1., 1.],
       [1., 1.],
       [1., 1.],
       [1., 1.],
       [1., 1.]])

# random/full 행렬

In [98]:
rnd = np.random.rand(3, 4)
rnd

array([[0.85985739, 0.67130251, 0.6463947 , 0.06817963],
       [0.53978597, 0.26752182, 0.58919787, 0.74453922],
       [0.65003583, 0.75616523, 0.02192143, 0.14775253]])

In [100]:
np.full((2, 5), 99)

array([[99, 99, 99, 99, 99],
       [99, 99, 99, 99, 99]])

# 행렬 크기

In [101]:
rnd.shape

(3, 4)

In [102]:
rnd.reshape(4, 3)

array([[0.85985739, 0.67130251, 0.6463947 ],
       [0.06817963, 0.53978597, 0.26752182],
       [0.58919787, 0.74453922, 0.65003583],
       [0.75616523, 0.02192143, 0.14775253]])

# 산술연산
일반적인 산술 연산자(`+`, `-`, `*`, `/`, `//`, `**` 등)는 모두 `ndarray`와 사용할 수 있습니다. 이 연산자는 원소별로 적용됩니다:

In [105]:
a = np.array([14, 23, 32, 41])
b = np.array([5,  4,  3,  2])
print("a + b  =", a + b)
print("a - b  =", a - b)
print("a * b  =", a * b)
print("a / b  =", a / b)
print("a // b  =", a // b)
print("a % b  =", a % b)
print("a ** b =", a ** b)

a + b  = [19 27 35 43]
a - b  = [ 9 19 29 39]
a * b  = [70 92 96 82]
a / b  = [ 2.8         5.75       10.66666667 20.5       ]
a // b  = [ 2  5 10 20]
a % b  = [4 3 2 1]
a ** b = [537824 279841  32768   1681]


# 브로드캐스팅
원래 덧셈과 뺄셈은 크기(차원)가 같은 두 벡터에 대해서만 할 수 있다. 하지만 벡터와 스칼라의 경우에는 관례적으로 다음처럼 스칼라를 벡터로 변환한 연산을 허용한다. 이를 브로드캐스팅(broadcasting)이라고 한다
$$\begin{bmatrix} 10 \\ 11 \\ 12 \end{bmatrix}-10\quad =\quad \begin{bmatrix} 10 \\ 11 \\ 12 \end{bmatrix}-\begin{bmatrix} 10 \\ 10 \\ 10 \end{bmatrix}$$

In [106]:
x = np.array([10, 11, 12])
y = np.array([10, 10, 10])

In [107]:
x - y

array([0, 1, 2])

In [108]:
x - 10

array([0, 1, 2])

# 인덱싱

In [109]:
idx = np.random.rand(5, 5)
idx

array([[0.38912453, 0.17052553, 0.29544434, 0.98097856, 0.22050859],
       [0.52280255, 0.06619095, 0.32148666, 0.52707807, 0.05211239],
       [0.9026073 , 0.84052439, 0.19507821, 0.49144922, 0.0935681 ],
       [0.23673982, 0.63972995, 0.3445042 , 0.84591738, 0.61380394],
       [0.76411532, 0.39420073, 0.6748308 , 0.7212276 , 0.02554509]])

In [110]:
idx[2]

array([0.9026073 , 0.84052439, 0.19507821, 0.49144922, 0.0935681 ])

In [111]:
idx[2][2:4]

array([0.19507821, 0.49144922])

In [112]:
idx[2, 2:4]

array([0.19507821, 0.49144922])

In [113]:
idx[:,0]

array([0.38912453, 0.52280255, 0.9026073 , 0.23673982, 0.76411532])

In [114]:
idx = np.random.rand(5, 5, 3)
idx

array([[[0.17643004, 0.76746165, 0.07487522],
        [0.17644045, 0.66205248, 0.97021466],
        [0.2237497 , 0.95401196, 0.6124403 ],
        [0.7672658 , 0.65385704, 0.97163574],
        [0.76693815, 0.09888919, 0.23963234]],

       [[0.73525844, 0.67436509, 0.02103495],
        [0.84679921, 0.04625259, 0.82250978],
        [0.5261674 , 0.12206595, 0.21700769],
        [0.21647637, 0.88620122, 0.7219525 ],
        [0.39584839, 0.95003152, 0.01047167]],

       [[0.28272629, 0.33247567, 0.30319128],
        [0.54032897, 0.5146457 , 0.92690312],
        [0.0323234 , 0.32835504, 0.07384386],
        [0.37089911, 0.78653135, 0.87205817],
        [0.58504857, 0.5918317 , 0.65905384]],

       [[0.99594972, 0.52411951, 0.38161722],
        [0.18161204, 0.64570761, 0.85313083],
        [0.21685774, 0.00370528, 0.39814943],
        [0.66261887, 0.92240252, 0.74675486],
        [0.27165119, 0.74265047, 0.59296599]],

       [[0.52658711, 0.14560963, 0.09928439],
        [0.73196887, 0.368

In [115]:
idx[2,:,:]

array([[0.28272629, 0.33247567, 0.30319128],
       [0.54032897, 0.5146457 , 0.92690312],
       [0.0323234 , 0.32835504, 0.07384386],
       [0.37089911, 0.78653135, 0.87205817],
       [0.58504857, 0.5918317 , 0.65905384]])

In [116]:
idx[1,3,0:2]

array([0.21647637, 0.88620122])

# 불리언 인덱스

In [117]:
idx = np.random.rand(10)
idx

array([0.79645162, 0.3105467 , 0.16265267, 0.92049795, 0.24056601,
       0.5027579 , 0.02266239, 0.13049465, 0.82954162, 0.90669373])

In [118]:
# 브로드캐스팅 되어 가능
idx < .5

array([False,  True,  True, False,  True, False,  True,  True, False,
       False])

In [119]:
idx[idx < .5]

array([0.3105467 , 0.16265267, 0.24056601, 0.02266239, 0.13049465])

In [134]:
sum(idx < .5)

5

# 행렬 쌓기

In [124]:
s1 = np.full((3, 5), 1)
s2 = np.full((3, 5), 2)
s1, s2

(array([[1, 1, 1, 1, 1],
        [1, 1, 1, 1, 1],
        [1, 1, 1, 1, 1]]),
 array([[2, 2, 2, 2, 2],
        [2, 2, 2, 2, 2],
        [2, 2, 2, 2, 2]]))

In [125]:
np.vstack((s1, s2))

array([[1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1],
       [2, 2, 2, 2, 2],
       [2, 2, 2, 2, 2],
       [2, 2, 2, 2, 2]])

In [126]:
np.hstack((s1, s2))

array([[1, 1, 1, 1, 1, 2, 2, 2, 2, 2],
       [1, 1, 1, 1, 1, 2, 2, 2, 2, 2],
       [1, 1, 1, 1, 1, 2, 2, 2, 2, 2]])