# Numpy
Numpy는 파이썬의 과학 계산에 사용되는 핵심 라이브러리이다. Numpy는 고성능의 다차원 array object와 이를 이용한 다양한 기능을 제공한다.

## Arrays
Numpy의 array는 동일한 type을 가지는 값들의 grid이며, 음이 아닌 정수의 tuple로 index가 매겨진다. rank는 array의 차원 수를 의미하며, shape는 array의 각 차원의 size를 정수 tuple로 나타낸다.

Numpy array는 파이썬의 list를 중첩해 초기화할 수 있으며, `[]`를 통해 각 element에 접근할 수 있다.

In [1]:
import numpy as np

a = np.array([1, 2, 3])
print(a)
print(a.shape)
print(type(a))

print(a[0], a[1], a[2])
a[0] = 5

b = np.array([[1, 2, 3], [4, 5, 6]])
print(b)
print(b.shape)
print(b[0, 0], b[0, 1], b[1, 0])

[1 2 3]
(3,)
<class 'numpy.ndarray'>
1 2 3
[[1 2 3]
 [4 5 6]]
(2, 3)
1 2 4


Numpy는 다양한 array 생성 함수를 제공한다.

In [2]:
import numpy as np

a = np.zeros((2, 2))
print(a)

b = np.ones((1, 2))
print(b)

c = np.full((2, 2), 7.)
print(c)

d = np.eye(2)
print(d)

e = np.random.random((2, 2))
print(e)

[[0. 0.]
 [0. 0.]]
[[1. 1.]]
[[7. 7.]
 [7. 7.]]
[[1. 0.]
 [0. 1.]]
[[0.19831498 0.50756308]
 [0.00628049 0.73860702]]


Array를 다루는 여러 함수들은 [문서](http://docs.scipy.org/doc/numpy/reference/routines.array-manipulation.html)를 참고하자.

## Array indexing

Numpy는 array를 index하는 다양한 방법을 제공한다.

**Slicing:** 파이썬의 list처럼 numpy array도 slicing을 할 수 있다. array는 다차원을 가질 수 있으므로, 각 차원에 대해 slicing을 해주어야 한다.

In [3]:
import numpy as np

a = np.array([[1, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 12]])
print(a)
print('')

# rows : 0, 1
# cols : 1, 2
b = a[:2, 1:3]
print(b)
print('')

print(a[0, 1])
b[0, 0] = 77
print(b)

[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]

[[2 3]
 [6 7]]

2
[[77  3]
 [ 6  7]]


Integer indexing과 slice indexing을 섞어서 사용할 수도 있다.
하지만 이렇게 하면, original array보다 낮은 rank의 array가 얻어진다.

In [4]:
import numpy as np

a = np.array([[1, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 12]])
print(a)
print(a.shape)
print('')

# rank가 낮아짐
row_r1 = a[1, :]
print(row_r1)
print(row_r1.shape)
print('')

# rank가 유지됨
row_r2 = a[1:2, :]
print(row_r2)
print(row_r2.shape)
print('')

# rank 낮아짐
col_r1 = a[:, 1]
print(col_r1)
print(col_r1.shape)
print('')

# rank가 유지됨
col_r2 = a[:, 1:2]
print(col_r2)
print(col_r2.shape)

[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]
(3, 4)

[5 6 7 8]
(4,)

[[5 6 7 8]]
(1, 4)

[ 2  6 10]
(3,)

[[ 2]
 [ 6]
 [10]]
(3, 1)


**Integer array indexing:** slicing을 사용한 numpy indexing은 항상 original array의 subarray가 되지만 integer array indexing을 사용하면 마음대로 새로운 array를 구성할 수 있다.

In [5]:
import numpy as np

a = np.array([[1, 2], [3, 4], [5, 6]])

# rows : 0, 1, 2
# cols : 0, 1, 0
# 따라서, a[0, 0], a[1, 1], a[2, 0]으로 구성된다.
print(a[[0, 1, 2], [0, 1, 0]])
# 위와 같은 결과
print(np.array([a[0, 0], a[1, 1], a[2, 0]]))

# rows : 0, 0
# cols : 1, 1
# 따라서, a[0,1], a[0, 1]으로 구성된다.
print(a[[0, 0], [1, 1]])
# 위와 같은 결과
print(np.array(a[[0, 0], [1, 1]]))

[1 4 5]
[1 4 5]
[2 2]
[2 2]


integer array indexing을 이용한 한가지 유용한 trick은 다음과 같이 행렬의 각 행에서 element를 하나씩 선택하거나 변형하는 것이다.

In [6]:
import numpy as np

a = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9], [10, 11, 12]])
print(a)
print('')

# 각 행에서 0, 2, 0, 1번째 index 값만 선택
b = np.array([0, 2, 0, 1])
print(a[np.arange(4), b])
print('')

# 각 행에서 0, 2, 0, 1번째 index 값에 10 더하기
a[np.arange(4), b] += 10
print(a)

[[ 1  2  3]
 [ 4  5  6]
 [ 7  8  9]
 [10 11 12]]

[ 1  6  7 11]

[[11  2  3]
 [ 4  5 16]
 [17  8  9]
 [10 21 12]]


**Boolean array indexing:** Boolean array indexing은 array의 element를 마음대로 꺼낼 수 있게 해준다. 이는 어떠한 조건을 만족하는 element를 선택할 때 주로 사용된다.

In [7]:
import numpy as np

a = np.array([[1, 2], [3, 4], [5, 6], [7, 8]])

# Boolean array 생성
bool_idx = (a>2)
print(bool_idx)
print('')

# Boolean array를 생성하지 않고 다음과 같이 바로 사용할 수도 있음
print(a[bool_idx])
print(a[a>2])

[[False False]
 [ True  True]
 [ True  True]
 [ True  True]]

[3 4 5 6 7 8]
[3 4 5 6 7 8]


Numpy array indexing에 대한 자세한 내용은 [문서](http://docs.scipy.org/doc/numpy/reference/arrays.indexing.html)를 참고하자.

## Datatypes

모든 numpy array는 같은 type의 값을 가진다. Numpy는 다양한 numeric datatypes를 제공하며, 이를 통해 array를 생성할 수 있다. Numpy는 array가 생성될 때 전달된 값을 통해 datatype을 유추하지만, 인자를 통해 명시적으로 datatype을 지정하는 방법도 있다.

In [8]:
import numpy as np

# 전달된 값을 통해 datatype이 지정됨
x = np.array([1, 2])
print(x, x.dtype)
x = np.array([1.0, 2.0])
print(x, x.dtype)

# 다음과 같이 인자로 지정할 수도 있음
x = np.array([1, 2], dtype=np.float64)
print(x, x.dtype)

[1 2] int64
[1. 2.] float64
[1. 2.] float64


Datatype에 대한 자세한 내용은 [문서](https://docs.scipy.org/doc/numpy/reference/arrays.dtypes.html)를 참고하자.

## Array math

기본적인 수학 함수들은 array에서 elementwise로 동작하며 overloading된 operator의 형태 또는 numpy module 함수 형태로 사용가능하다.

In [9]:
import numpy as np

x = np.array([[1, 2], [3, 4]], dtype=np.float64)
y = np.array([[5, 6], [7, 8]], dtype=np.float64)

# Elementwise 덧셈
print(x+y)
print(np.add(x, y))
print('')

# Elementwise 뺄셈
print(x-y)
print(np.subtract(x, y))
print('')

# Elementwise 곱셈
print(x*y)
print(np.multiply(x, y))
print('')

# Elementwise 나눗셈
print(x/y)
print(np.divide(x, y))
print('')

# Elementwise 제곱근
print(np.sqrt(x))

[[ 6.  8.]
 [10. 12.]]
[[ 6.  8.]
 [10. 12.]]

[[-4. -4.]
 [-4. -4.]]
[[-4. -4.]
 [-4. -4.]]

[[ 5. 12.]
 [21. 32.]]
[[ 5. 12.]
 [21. 32.]]

[[0.2        0.33333333]
 [0.42857143 0.5       ]]
[[0.2        0.33333333]
 [0.42857143 0.5       ]]

[[1.         1.41421356]
 [1.73205081 2.        ]]


Numpy에서 행렬과 벡터간의 곱셈(내적)은 `dot()`을 통해 수행할 수 있다. `dot()`은 numpy module 형태와 array object의 method 형태로 사용할 수 있다.

In [10]:
import numpy as np

x = np.array([[1, 2], [3, 4]])
y = np.array([[5, 6], [7, 8]])

u = np.array([9, 10])
v = np.array([11, 12])


# Vector 내적
print(np.dot(u, v))
print(u.dot(v))
print('')

# Matrix 내적
print(np.dot(x, y))
print(x.dot(y))
print('')

# Matrix와 Vector의 내적
print(np.dot(x, u))
print(x.dot(u))

219
219

[[19 22]
 [43 50]]
[[19 22]
 [43 50]]

[29 67]
[29 67]


Numpy에서 계산에 매우 유용한 함수중 하나는 `sum()`이다.

In [11]:
import numpy as np

x = np.array([[1, 2], [3, 4], [5, 6]])

# 모든 원소 덧셈
print(np.sum(x))
# 각 열끼리의 덧셈 (0번째 축 기준 덧셈)
print(np.sum(x, axis=0))
# 각 행끼리의 덧셈 (1번째 축 기준 덧셈)
print(np.sum(x, axis=1))

21
[ 9 12]
[ 3  7 11]


Numpy의 수학함수들에 대한 자세한 내용은 [문서](https://docs.scipy.org/doc/numpy/reference/routines.math.html)를 참고하자.

Numpy에는 수학관련 함수 외에, array를 reshape하거나 array내의 데이터를 조작하는 함수들도 있다. 여기서는 간단한 예로, matrix의 transpose에 사용되는 `T`에 대해서 알아본다.

In [12]:
import numpy as np

x = np.array([[1, 2, 3], [4, 5, 6]])
print(x)
print(x.T)
print('')

# rank가 1인 경우는 변화가 없다.
v = np.array([1, 2, 3])
print(v)
print(v.T)

[[1 2 3]
 [4 5 6]]
[[1 4]
 [2 5]
 [3 6]]

[1 2 3]
[1 2 3]


Numpy의 array 조작 함수에 대한 자세한 내용은 [문서](http://docs.scipy.org/doc/numpy/reference/routines.array-manipulation.html)를 참고하자.

## Broadcasting
Broadcasting은 다른 shape를 가진 array간의 산술 연산에 사용되는 유용한 방법이다.

예를 들어, 상수 벡터를 행렬의 각 행으로 추가하고 싶을 때 다음과 같이 할 수 있다.

In [13]:
import numpy as np

v = np.array([1, 0, 1])

x = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9], [10, 11, 12]])

# x와 같은 shape의 empty matrix 생성
y = np.empty_like(x)

print('y:')
print(y)
print('')

for i in range(4):
    y[i, :] = x[i, :] + v
    
print('y:')
print(y)

y:
[[ 1 77  3]
 [ 4  5  6]
 [ 7  8  9]
 [10 11 12]]

y:
[[ 2  2  4]
 [ 5  5  7]
 [ 8  8 10]
 [11 11 13]]


하지만, 행렬 x가 매우 클 경우 위와 같은 Python loop를 사용하면 매우 느릴 수 있다.

여기서 수행한 연산을 자세히 살펴보면, 다음과 같이 v를 여러 겹 쌓은 후 x와 더해주는 방식으로 구현할 수 있다는 것을 알 수 있다.

In [14]:
import numpy as np

x = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9], [10, 11, 12]])

v = np.array([1, 0, 1])
vv = np.tile(v, (4, 1))
print('vv:')
print(vv)
print('')

y = x + vv
print('y:')
print(y)

vv:
[[1 0 1]
 [1 0 1]
 [1 0 1]
 [1 0 1]]

y:
[[ 2  2  4]
 [ 5  5  7]
 [ 8  8 10]
 [11 11 13]]


Numpy broadcasting을 사용하면 이러한 작업을 다음과 같이 간단히 수행할 수 있다.

In [15]:
import numpy as np

x = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9], [10, 11, 12]])
v = np.array([1, 0, 1])

y = x + v
print(y)

[[ 2  2  4]
 [ 5  5  7]
 [ 8  8 10]
 [11 11 13]]


위의 `y = x + v`에서 일어난 broadcasting은 `v`가 `x`와 같은 크기를 가지고 각 행이 `v`로 구성된 것처럼 동작하였다.

두 행렬의 broadcasting은 다음의 규칙을 따른다.
1. 두 행렬이 같은 rank를 가지지 않으면, 두 행렬의 shape가 같은 길이를 가질 때까지 낮은 rank인 행렬에 1씩 추가한다.
2. 만약 두 행렬이 같은 크기의 차원을 가지거나 한 행렬이 1의 크기의 차원을 가지면, 두 행렬은 해당 차원에서 compatible하다고 한다.
3. 만약 두 행렬이 모든 차원에서 compatible하다면, 두 행렬은 같이 broadcasting될 수 있다.
4. Broadcasting이 일어나면, 두 행렬의 shape 중 최대 값으로 이루어진 shape를 가지게 된다.
5. 모든 차원에 대해서 한 행렬이 1의 크기를 가지고, 다른 행렬이 1보다 큰 크기를 가질 경우, 1보다 큰 크기를 가지도록 해당 차원을 기준으로 복사된다. (앞의 예제에서 `y = x + v`)

위의 규칙에 대한 자세한 내용은 [문서](http://docs.scipy.org/doc/numpy/user/basics.broadcasting.html)를 참고하자.

Broadcasting을 지원하는 function들은 universal functions라고 한다. universal function에 대한 자세한 내용은 [문서](https://docs.scipy.org/doc/numpy/reference/ufuncs.html#available-ufuncs)를 참고하자.

다음은 broadcasting의 몇가지 응용 예이다.

In [16]:
import numpy as np

# 두 벡터의 외적
v = np.array([1, 2, 3])
w = np.array([4, 5])

# 1. Reshape v : (3,) -> (3,1) 
# 2. Broadcast w : (2,) -> (3,2) (행 복사됨)
# 3. Broadcast v : (3,1) -> (3,2) (열 복사됨)
# 4. Elementwise v*w
print(np.reshape(v, (3,1)) * w)
print('')


# 행렬의 각 행에 벡터 더하기
# 1. Broadcast v : (3,) -> (2, 3) : (행 복사됨)
# 2. Elementwise x+v
x = np.array([[1, 2, 3], [4, 5, 6]])

print(x + v)
print('')


# 행렬의 각 열에 벡터 더하기 1
# 1. Transpose x : (2,3) -> (3,2)
# 2. Broadcast w : (2,) -> (3,2) (행 복사됨)
# 3. Elementwise x+w
# 4. Transpose x+w : (3,2) -> (2,3)
print((x.T + w).T)

# 행렬의 각 열에 벡터 더하기 2
# 1. Reshape w : (2,) -> (2,1)
# 2. Broadcast w : (2,1) -> (2,3) (열 복사됨)
# 3. Elementwise x+w
print(x + np.reshape(w, (2,1)))
print('')


# 행렬에 스칼라 값 곱하기
# 1. Broadcast constant : () -> (2,3) (값이 모두 복사됨)
# 2. Elementwise x*constant
print(x * 2)

[[ 4  5]
 [ 8 10]
 [12 15]]

[[2 4 6]
 [5 7 9]]

[[ 5  6  7]
 [ 9 10 11]]
[[ 5  6  7]
 [ 9 10 11]]

[[ 2  4  6]
 [ 8 10 12]]


## Numpy Documentation

여기서는 numpy에서 중요한 것들만 간단히 다루었다. 더 자세한 내용은 [numpy reference](https://docs.scipy.org/doc/numpy/reference/)를 참고하자.