## Numpy Tutorial 

Numpy는 Numerical Python의 줄임말로 고성능의 과학계산 컴퓨팅과 데이터 분석에 필요한 기본 패키지이다. 제공되는 기능은 다음과 같다.
- 빠르고 메모리를 효율적으로 사용하며 벡터 산술연산과 관련된 브로드캐스팅 기능을 제공하는 다차원 배열인 ndarray
- 반복문을 작성할 필요 없이 전체 데이터 배열에 대해 빠른 연산을 제공하는 표준 수학 함수
- 배열 데이터를 디스크에 쓰거나 읽을 수 있는 도구와 메모리에 올려진 파일을 사용하는 도구
- 선형대수, 난수 발생기, 푸리에 변환 기능

Numpy를 사용하기 위해서는 먼저 `numpy` 패키지를 import한다.

In [1]:
import numpy as np

### 다차원 배열(Arrays)

Numpy가 제공하는 ndarray(n-dimensional array)은 같은 종류의 데이터를 담을 수 있는 다차원 배열이며, 모든 원소는 같은 자료형이어야 한다. 모든 배열은 각 차원의 크기를 알려주는 shape라는 튜플과 배열에 저장된 자료형을 알려주는 type이라는 객체를 가진다. ndarray의 차원(dimension)은 rank라고 부른다.

ndarray는 array 함수와 중첩된 리스트(list)를 이용하여 생성할 수 있으며, []를 이용하여 인덱싱(indexing)을 한다.

In [2]:
a = np.array([1, 2, 3])  # 1차원 배열 생성
print(type(a), a.shape, a[0], a[1], a[2])
a[0] = 5                 # 배열의 한 원소를 변경
print(a)

<class 'numpy.ndarray'> (3,) 1 2 3
[5 2 3]


In [3]:
b = np.array([[1,2,3],[4,5,6]])   # 2차원 배열 생성
print(b) #2차원 배열의 모양을 확인

[[1 2 3]
 [4 5 6]]


In [4]:
print(b.shape) #배열의 각 차원의 크기
print(b[0, 0], b[0, 1], b[1, 0]) #인덱싱 예제

(2, 3)
1 2 4


Numpy는 array 함수 외에도 배열을 생성하기 위한 다양한 방법을 제공한다.

In [5]:
a = np.zeros((2,2))  # 값이 모두 0인 배열 생성, 매개변수는 원하는 shape
print(a)

[[0. 0.]
 [0. 0.]]


In [6]:
b = np.ones((1,2))   # 값이 모두 1인 배열 생성
print(b)

[[1. 1.]]


In [7]:
c = np.full((2,2), 7) # 모든 원소가 원하는 값으로 초기화된 배열 생성
print(c)

[[7 7]
 [7 7]]


In [8]:
d = np.eye(2)        # 2x2의 단위행렬(dentity matrix)을 생성
print(d)

[[1. 0.]
 [0. 1.]]


In [9]:
e = np.random.random((2,2)) # 무작위값으로 이루어진 배열 생성
print(e)

[[0.28844003 0.9427954 ]
 [0.61034155 0.84251737]]


### 배열 인덱싱(Array indexing)

슬라이싱(Slicing): 파이썬 리스트와 유사하게 배열도 슬라이싱이 가능하다. ndarray는 다차원 배열이므로 각 차원에 대해 슬라이싱을 할 수 있다.

In [10]:
import numpy as np

# shape가 (3, 4)이고 아래와 같은 값을 갖는 2차원 배열을 생성
# [[ 1  2  3  4]
#  [ 5  6  7  8]
#  [ 9 10 11 12]]
a = np.array([[1,2,3,4], [5,6,7,8], [9,10,11,12]])

# 아래와 같은 일부를 뽑아내고 싶다면?
# [[2 3]
#  [6 7]]
#        0열 1열 2열 3열
# 0행 [[ 1   2   3   4]
# 1행  [ 5   6   7   8]
# 2행  [ 9  10  11  12]]

b = a[:2, 1:3]
print(b)

[[2 3]
 [6 7]]


<b>주의할 점 :</b> 배열의 슬라이스를 잘라서 만든 배열은 원래의 배열과 값을 공유하므로 수정할 경우 원래의 배열도 값이 변경된다.

In [11]:
print(a[0, 1])
b[0, 0] = 77    # b[0, 0] is the same piece of data as a[0, 1]
print(a[0, 1])

2
77


만일 값을 복사해서 새로운 배열을 만들고 싶으면 copy() 함수를 사용

In [12]:
c = b.copy()
c[0, 0] = 55
print(c)
print(b)

[[55  3]
 [ 6  7]]
[[77  3]
 [ 6  7]]


인덱싱과 슬라이싱을 섞어서 쓸 수 있다 (정확히는 정수 인덱싱과 슬라이스 인덱싱).:

In [13]:
# Create the following rank 2 array with shape (3, 4)
a = np.array([[1,2,3,4], [5,6,7,8], [9,10,11,12]])
print(a, a.shape)

[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]] (3, 4)


정수 인덱싱과 슬라이싱을 섞어서 쓰는 경우 차원이 감소할 수 있다. 슬라이싱만 쓰는 경우는 차원 유지:

In [14]:
row_r1 = a[1, :]    # 차원이 감소되는 것에 주의  
row_r2 = a[1:2, :]  # 차원 유지됨
row_r3 = a[[1], :]  # 차원 유지됨
print(row_r1, row_r1.shape)
print(row_r2, row_r2.shape)
print(row_r3, row_r3.shape)

[5 6 7 8] (4,)
[[5 6 7 8]] (1, 4)
[[5 6 7 8]] (1, 4)


In [15]:
# 컬럼만 잘라낼 때에도 마찬가지:
col_r1 = a[:, 1]
col_r2 = a[:, 1:2]
print(col_r1, col_r1.shape)
print(col_r2, col_r2.shape)

[ 2  6 10] (3,)
[[ 2]
 [ 6]
 [10]] (3, 1)


정수 배열을 이용한 인덱싱: 슬라이싱을 사용하는 경우 결과는 항상 원래 배열의 서브 배열이 된다. 반면, 정수 배열을 이용하면 임의로 변경하는 것이 가능하다.

In [16]:
a = np.array([[1,2], [3, 4], [5, 6]])
print(a, a.shape)

# 정수 배열 인덱싱의 예.
# 반환된 배열의 shape는 (3,) 
print(a[[0, 1, 2], [0, 1, 0]])

# 위 방식은 아래 방식과 동일한 결과를 만들어 냄:
print(np.array([a[0, 0], a[1, 1], a[2, 0]]))

[[1 2]
 [3 4]
 [5 6]] (3, 2)
[1 4 5]
[1 4 5]


In [17]:
# 정수 배열 인덱싱을 할 때, 같은 요소를 가져오게 될 수도 있음
print(a[[0, 0], [1, 1]])

# 아래 예제와 동일
print(np.array([a[0, 1], a[0, 1]]))

[2 2]
[2 2]


정수 배열 인덱싱은 각각의 행/열에서 원하는 요소만 가져오고 싶을 때 유용하게 사용이 가능:

In [18]:
a = np.array([[1,2,3], [4,5,6], [7,8,9], [10, 11, 12]])
print(a)

[[ 1  2  3]
 [ 4  5  6]
 [ 7  8  9]
 [10 11 12]]


In [19]:
# 정수 배열 선언
b = np.array([0, 2, 0, 1])

# b의 각 행에서 위 배열에 해당하는 열의 값을 가져오고 싶다면?
print(a[np.arange(4), b])

[ 1  6  7 11]


In [20]:
# b의 각 행에서 위 배열에 해당하는 열의 값에만 10을 더하고 싶다면?
a[np.arange(4), b] += 10
print(a)

[[11  2  3]
 [ 4  5 16]
 [17  8  9]
 [10 21 12]]


불리안 배열 인덱싱: 불리안 배열을 이용하면 배열에서 원하는 요소들만 추출이 가능하다. 일반적으로 특정 조건을 만족하는 요소들만 골라내고자 하는 경우에 자주 사용된다.:

In [21]:
import numpy as np

a = np.array([[1,2], [3, 4], [5, 6]])

bool_idx = (a > 2)  # 배열의 개별적인 요소에 대해서 2보다 큰지를 True/False 배열로 반환

print(bool_idx)

[[False False]
 [ True  True]
 [ True  True]]


In [22]:
# 불리안 배열의 값이 true인 요소들만 반환
print(a[bool_idx])

# 아래와 같이 줄여서 사용 가능:
print(a[a > 2])

[3 4 5 6]
[3 4 5 6]


### 데이터 타입

Numpy의 ndarray는 모두 같은 타입의 요소들로 이루어진다. 다양한 데이터 타입이 제공되며, 지정하지 않는 경우 Numpy는 타입을 자동으로 선택한다. 아래와 같이 데이터 타입을 명시적으로 선언하는 것도 가능하다:

In [23]:
x = np.array([1, 2])  # 자동으로 타입 선택
y = np.array([1.0, 2.0])  # 자동으로 타입 선택
z = np.array([1, 2], dtype=np.int64)  # 명시적으로 타입을 지정

print(x.dtype, y.dtype, z.dtype)

int32 float64 int64


데이터 타입에 대한 상세한 내용은 다음을 참조 [documentation](http://docs.scipy.org/doc/numpy/reference/arrays.dtypes.html).

### 배열 연산

배열에 대한 수학 연산은 기본적으로 요소단위(elementwise)로 이루어지며, 연산자와 함수 둘 다 사용이 가능하다:

In [24]:
x = np.array([[1,2],[3,4]], dtype=np.float64)
y = np.array([[5,6],[7,8]], dtype=np.float64)

# 요소합(elementwise sum), 결과로 ndarray를 생성한다
print(x + y)
print(np.add(x, y))

[[ 6.  8.]
 [10. 12.]]
[[ 6.  8.]
 [10. 12.]]


In [25]:
# 요소차(Elementwise difference)
print(x - y)
print(np.subtract(x, y))

[[-4. -4.]
 [-4. -4.]]
[[-4. -4.]
 [-4. -4.]]


In [26]:
# 요소곱(Elementwise product)
print(x * y)
print(np.multiply(x, y))

[[ 5. 12.]
 [21. 32.]]
[[ 5. 12.]
 [21. 32.]]


In [27]:
# 요소 나눗셈(Elementwise division)
# [[ 0.2         0.33333333]
#  [ 0.42857143  0.5       ]]
print(x / y)
print(np.divide(x, y))

[[0.2        0.33333333]
 [0.42857143 0.5       ]]
[[0.2        0.33333333]
 [0.42857143 0.5       ]]


In [28]:
# Elementwise square root
# [[ 1.          1.41421356]
#  [ 1.73205081  2.        ]]
print(np.sqrt(x))

[[1.         1.41421356]
 [1.73205081 2.        ]]


벡터의 내적(inner product)은 dot 함수를 사용한다. dot 는 numpy 함수와 ndarray의 메소드 두 방식으로 사용이 가능하다:

In [29]:
x = np.array([[1,2],[3,4]])
y = np.array([[5,6],[7,8]])

v = np.array([9,10])
w = np.array([11, 12])

# 벡터 내적(Inner product)
print(v.dot(w))
print(np.dot(v, w))

219
219


In [30]:
# 행렬과 벡터 간 곱셈(matrix / vector product)
print(x.dot(v))
print(np.dot(x, v))

[29 67]
[29 67]


In [31]:
# 행렬 곱셈(Matrix multiplication / product)
# [[19 22]
#  [43 50]]
print(x.dot(y))
print(np.dot(x, y))

[[19 22]
 [43 50]]
[[19 22]
 [43 50]]


Numpy는 유용한 함수들을 제공한다. 그 중 하나가 `sum`으로 사용법은 아래와 같다:

In [32]:
x = np.array([[1,2],[3,4]])
print(x)

print(np.sum(x))  # 모든 요소의 합 "10"
print(np.sum(x, axis=0))  # 열(column)의 합을 계산 "[4 6]"
print(np.sum(x, axis=1))  # 행(row)의 합을 계산; prints "[3 7]"

[[1 2]
 [3 4]]
10
[4 6]
[3 7]


Numpy의 다른 함수들은 다음을 참조 [documentation](http://docs.scipy.org/doc/numpy/reference/routines.math.html).

행렬연산에서 중요한 연산 중 하나는 전치행렬(transposed matrix)를 구하는 것이다. 아래와 같이 Numpy의 T 메소드를 이용해서 구한다:

In [33]:
print(x)
print(x.T)

[[1 2]
 [3 4]]
[[1 3]
 [2 4]]


In [34]:
v = np.array([[1,2,3]])
print(v)
print(v.T)

[[1 2 3]]
[[1]
 [2]
 [3]]


### 브로드캐스팅(Broadcasting)

브로드캐스팅은 크기가 서로 다른 배열에 대해 연산을 하고자 하는 경우에 사용되는 강력한 메커니즘이다. 아래 예는 브로드캐스팅의 개념과 예제를 잘 보여준다:

In [35]:
# 벡터 v 를 행렬 x의 모든 행에 더하고자 함,
# 그 결과는 행렬 y에 저장
x = np.array([[1,2,3], [4,5,6], [7,8,9], [10, 11, 12]])
print('x =\n', x)
v = np.array([1, 0, 1])
y = np.empty_like(x)   # x와 동일한 shape를 가진 빈 행렬을 생성

# 반복문을 이용해 x의 각 행에 v를 더함
for i in range(4):
    y[i, :] = x[i, :] + v

print('y =\n', y)

x =
 [[ 1  2  3]
 [ 4  5  6]
 [ 7  8  9]
 [10 11 12]]
y =
 [[ 2  2  4]
 [ 5  5  7]
 [ 8  8 10]
 [11 11 13]]


작동은 하지만 행렬 `x`가 커지면 느려지고, 코딩도 귀찮다. 다음으로 생각할 수 있는 방법은 벡터 `v`를 반복해서 `x`와 같은 크기로 만들고 `vv`에 저장한 다음에 `x`아 `vv`의 요소합 (elementwise sum)을 하는 것이다:

In [36]:
vv = np.tile(v, (4, 1))  # x 행의 수만큼 v를 반복해서 vv를 생성
print(vv)                 # Prints "[[1 0 1]
                         #          [1 0 1]
                         #          [1 0 1]
                         #          [1 0 1]]"

[[1 0 1]
 [1 0 1]
 [1 0 1]
 [1 0 1]]


In [37]:
y = x + vv  # x와 vv를 요소합
print(y)

[[ 2  2  4]
 [ 5  5  7]
 [ 8  8 10]
 [11 11 13]]


Numpy가 제공하는 브로드캐스팅(broadcasting)을 이용하면 쉽게 구현이 가능:

In [38]:
import numpy as np

x = np.array([[1,2,3], [4,5,6], [7,8,9], [10, 11, 12]])
v = np.array([1, 0, 1])
y = x + v  # x와 v의 shape이 다르기 때문에 자동으로 브로드캐스팅이 작동
print(y)

[[ 2  2  4]
 [ 5  5  7]
 [ 8  8 10]
 [11 11 13]]


`y = x + v`에서 `x`의 shape은 `(4, 3)` 이고 `v`의 shape은 `(3,)` 이므로 브로드캐스팅이 작동, `v`의 shape가 `(4, 3)`이 되도록 `v`를 복사한 후에, 요소합을 구하게 된다.

브로드캐스팅의 동작원칙은 다음과 같다:

1. 만일 두 배열의 차수가 다르면 차수가 적은 배열을 늘려서 shape를 맞춰서 연산을 한다.
2. 이 때 두 배열이 한 차원에서 크기가 동일하거나 다른 쪽의 크기가 1이면 호환가능(compatible)하다.
3. 두 배열이 모든 차원에서 호환가능하면 브로드캐스팅이 된다.
4. 한 배열의 어떤 차원의 크기가 1이고 다른 배열의 같은 차원의 크기가 1보다 크면 큰 쪽에 맞춰서 복사된다.

상세한 내용은 다음을 참조 [documentation](http://docs.scipy.org/doc/numpy/user/basics.broadcasting.html) or this [explanation](http://wiki.scipy.org/EricsBroadcastingDoc).

브로드캐스팅을 지원하는 함수를 universal function이라고 한다. universal function의 모든 리스트는 다음을 참조 [documentation](http://docs.scipy.org/doc/numpy/reference/ufuncs.html#available-ufuncs).

브로드캐스팅의 다른 예제:

In [39]:
v = np.array([1,2,3])  # v has shape (3,)
w = np.array([4,5])    # w has shape (2,)
# 위의 경우, v와 w의 shape이 다르므로 요소곱을 하는 경우 에러가 발생함
# 먼저 v를 열로 바꿔서 shape을 (3, 1)로 만든 후에 브로드캐스팅을 적용하면 v와 w가 (3, 2)로 확장되고
# 그 다음 요소곱을 실행
print(np.reshape(v, (3, 1)) * w)

[[ 4  5]
 [ 8 10]
 [12 15]]


In [40]:
# 벡터를 행렬의 각 행에 더하고자 하는 경우
x = np.array([[1,2,3], [4,5,6]])
print('x =\n', x)
# x는 (2, 3)이고 v는 (3,)이므로 v를 (2, 3)으로 브로드캐스트

print('result =\n', x + v)

x =
 [[1 2 3]
 [4 5 6]]
result =
 [[2 4 6]
 [5 7 9]]


In [41]:
# x의 각 행에 w를 더하고 싶다면?
# x는 (2, 3), w는 크기가 2인 벡터이므로 차원이 맞지 않음
# w를 reshape해서 (2, 1)로 바꾸면 브로드캐스팅이 가능
print(x + np.reshape(w, (2, 1)))

[[ 5  6  7]
 [ 9 10 11]]


In [42]:
# x 행렬에 상수 곱을 하고 싶을 때
# Numpy는 스칼라를 shape ()로 취급;
# 따라서 x에 맞춰 스칼라를 shape (2, 3)으로 브로드캐스팅이 가능
print(x * 2)

[[ 2  4  6]
 [ 8 10 12]]


브로드캐스팅은 코드를 간략하게 할 뿐 아니라 속도도 향상되므로 가능하면 항상 사용하는 것이 바람직하다.

Numpy에 대한 상세한 내용은 다음을 참조 [numpy reference](http://docs.scipy.org/doc/numpy/reference/)