# Numpy 배열

배열(array)을 사용하면 적은 메모리로 데이터를 빠르게 처리할 수 있다. 배열은 리스트와 비슷하지만 다음과 같은 점에서 다르다.

1. 모든 원소가 같은 자료형이어야 한다.
2. 원소의 갯수를 바꿀 수 없다.

NumPy는 수치해석용 파이썬 패키지이다. 다차원의 배열 자료구조 클래스인 ndarray 클래스를 지원하며 벡터와 행렬을 사용하는 선형대수 계산에 주로 사용된다. 내부적으로는 BLAS 라이브러리와 LAPACK 라이브러리를 사용하고 있으며 C로 구현된 CPython에서만 사용할 수 있다.

NumPy의 배열 연산은 C로 구현된 내부 반복문을 사용하기 때문에 파이썬 반복문에 비해 속도가 빠르며 벡터화 연산(vectorized operation)을 이용하여 간단한 코드로도 복잡한 선형 대수 연산을 수행할 수 있다. 또한 배열 인덱싱(array indexing)을 사용한 질의(Query) 기능을 이용하여 간단한 코드로도 복잡한 수식을 계산할 수 있다.

In [2]:
import numpy as np

## 1차원 배열 만들기 

In [3]:
arr = np.array([1,2,3,4,5])
arr

array([1, 2, 3, 4, 5])

In [4]:
type(arr)

numpy.ndarray

## 벡터화 연산

In [15]:
arr1 = np.array([1, 2, 3, 4, 5])
arr2 = np.array([2, 3, 4, 5, 6])

# 곱셈
dot = arr1 * 2
print('arr1 * 2 = ', dot)

# 덧셈
add = 2*arr1 + arr2
print('2*arr1 + arr2 = ', add)

# 동등비교
equl = (2 == arr1)
print('2 == arr1 : ', equl)

# 비교
gt = (2 > arr1)
print('2 > arr1 : ', gt)

# 논리연산
and_ = (arr1 == 2) & (arr2 < 5)
print('and연산 : ', and_)

arr1 * 2 =  [ 2  4  6  8 10]
2*arr1 + arr2 =  [ 4  7 10 13 16]
2 == arr1 :  [False  True False False False]
2 > arr1 :  [ True False False False False]
and연산 :  [False  True False False False]


## 2차원 배열 만들기

2차원 배열은 행렬(matrix)이라고 하는데 행렬에서는 가로줄을 행(row)이라고 하고 세로줄을 열(column)이라고 부른다.

In [17]:
arr_2d = np.array([[0, 1, 2], [3, 4, 5]])  # 2 x 3 array
arr_2d

array([[0, 1, 2],
       [3, 4, 5]])

In [31]:
print('배열 모양 : ', arr_2d.shape)
print('행의 개수 : ', arr_2d.shape[0])
print('열의 개수 : ', arr_2d.shape[1])
print('배열의 차원 : ', arr_2d.ndim)

배열 모양 :  (2, 3)
행의 개수 :  2
열의 개수 :  3
배열의 차원 :  2


## 3차원 배열 만들기 

In [32]:
arr_3d = np.array([[[1, 2, 3, 4],
               [5, 6, 7, 8],
               [9, 10, 11, 12]],
              [[11, 12, 13, 14],
               [15, 16, 17, 18],
               [19, 20, 21, 22]]])   # 2 x 3 x 4 array
print(arr_3d)
print('배열 모양 : ', arr_3d.shape)
print('배열의 차원 : ', arr_3d.ndim)

[[[ 1  2  3  4]
  [ 5  6  7  8]
  [ 9 10 11 12]]

 [[11 12 13 14]
  [15 16 17 18]
  [19 20 21 22]]]
배열 모양 :  (2, 3, 4)
배열의 차원 :  3


## 배열의 인덱싱 

In [33]:
a = np.array([0, 1, 2, 3, 4])

# index 2
print(a[2])

# index -2, 음수는 뒤에서부터 인덱스를 센다
print(a[-2])

2
3


In [35]:
a = np.array([[0, 1, 2], [3, 4, 5]])

print('1행1열 : ', a[0, 0])
print('마지막행 마지막열 : ', a[-1, -1])

1행1열 :  0
마지막행 마지막열 :  5


## 팬시 인덱싱 

### bool 형 

In [7]:
a = np.array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
idx = np.array([True, False, True, False, True,
                False, True, False, True, False])
a[idx]

array([0, 2, 4, 6, 8])

### 정수형 

In [8]:
a = np.array([11, 22, 33, 44, 55, 66, 77, 88, 99])
idx = np.array([0, 2, 4, 6, 8])
a[idx]

array([11, 33, 55, 77, 99])

## 배열의 슬라이싱 

In [5]:
a = np.array([[0, 1, 2, 3], [4, 5, 6, 7]])
print(a)

first_col = a[0, :]
print('첫번째 행 전체 : ', first_col)

second_row = a[:, 1]
print('두번째 열 전체 : ', second_row)

[[0 1 2 3]
 [4 5 6 7]]
첫번째 행 전체 :  [0 1 2 3]
두번째 열 전체 :  [1 5]


# 배열의 생성과 변형 

## Numpy의 자료형 

NumPy의 배열 즉, ndarray클래스는 데이터가 같은 자료형이어야 한다. array 명령으로 배열을 만들 때 자료형을 명시적으로 적용하려면 dtype 인수를 사용한다. 만약 dtype 인수가 없으면 주어진 데이터를 저장할 수 있는 자료형을 스스로 유추한다. 만들어진 배열의 자료형을 알아내려면 dtype 속성을 본다.

In [9]:
x = np.array([1, 2, 3])
x.dtype

dtype('int32')

| dtype 접두사 | 설명 | 사용 예 |
|:--------|:--------:|--------:|
| b | 불리언 | b(참 혹은 거짓) |
| i | 정수 | i8(64비트) |
| u | 부호 없는 정수 | u8(64비트) |
| f | 부동소수점 | f8(64비트) |
| c | 복소 부동소수점 | c16(128비트) |
| o | 객체 | 0(객체에 대한 포인터) |
| s | 바이트 문자열 | s24(24글자) |
| u | 유니코드 문자열 | u24(24 유니코드 글자) |

In [11]:
x = np.array([1, 2, 3], dtype='f')
print(x.dtype)

float32


In [12]:
x[0] + x[1]

3.0

In [13]:
x = np.array([1, 2, 3], dtype='U')
x.dtype

dtype('<U1')

In [14]:
x[0] + x[1]

'12'

## Inf와 NaN 

In [17]:
# 무한대
np.inf

inf

In [19]:
np.nan

nan

In [21]:
np.array([0, 1, -1, 0]) / np.array([1, 0, 0, 0])

  """Entry point for launching an IPython kernel.
  """Entry point for launching an IPython kernel.


array([  0.,  inf, -inf,  nan])

## 배열 생성

In [22]:
a = np.zeros(5)
a

array([0., 0., 0., 0., 0.])

In [23]:
b = np.zeros((2, 3))
b

array([[0., 0., 0.],
       [0., 0., 0.]])

array 명령과 마찬가지로 dtype 인수를 명시하면 해당 자료형 원소를 가진 배열을 만든다.

In [24]:
c = np.zeros((5, 2), dtype="i")
c

array([[0, 0],
       [0, 0],
       [0, 0],
       [0, 0],
       [0, 0]], dtype=int32)

문자열 배열도 가능하지면 모든 원소의 문자열 크기가 같아야 한다. 만약 더 큰 크기의 문자열을 할당하면 잘릴 수 있다.

In [25]:
d = np.zeros(5, dtype="U4")
d

array(['', '', '', '', ''], dtype='<U4')

In [26]:
e = np.ones((2, 3, 4), dtype="i8")
e

array([[[1, 1, 1, 1],
        [1, 1, 1, 1],
        [1, 1, 1, 1]],

       [[1, 1, 1, 1],
        [1, 1, 1, 1],
        [1, 1, 1, 1]]], dtype=int64)

만약 크기를 튜플로 명시하지 않고 다른 배열과 같은 크기의 배열을 생성하고 싶다면 ones_like, zeros_like 명령을 사용한다.

In [27]:
f = np.ones_like(b, dtype="f")
f

array([[1., 1., 1.],
       [1., 1., 1.]], dtype=float32)

배열의 크기가 커지면 배열을 초기화하는데도 시간이 걸린다. 이 시간을 단축하려면 배열을 생성만 하고 특정한 값으로 초기화를 하지 않는 empty 명령을 사용할 수 있다. empty 명령으로 생성된 배열에는 기존에 메모리에 저장되어 있던 값이 있으므로 배열의 원소의 값을 미리 알 수 없다.

In [28]:
g = np.empty((4, 3))
g

array([[7.73897677e-312, 2.81617418e-322, 0.00000000e+000],
       [0.00000000e+000, 0.00000000e+000, 5.74084271e+169],
       [7.12321829e-091, 6.49265510e+169, 5.41775302e-067],
       [6.87774013e+169, 6.48224660e+170, 4.93432906e+257]])

arange 명령은 NumPy 버전의 range 명령이라고 볼 수 있다. 특정한 규칙에 따라 증가하는 수열을 만든다.

In [29]:
np.arange(10) 

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [30]:
np.arange(3, 21, 2)  # 시작, 끝(포함하지 않음), 단계

array([ 3,  5,  7,  9, 11, 13, 15, 17, 19])

linspace 명령이나 logspace 명령은 선형 구간 혹은 로그 구간을 지정한 구간의 수만큼 분할한다.

In [31]:
np.linspace(0, 100, 5)  # 시작, 끝(포함), 갯수

array([  0.,  25.,  50.,  75., 100.])

In [32]:
np.logspace(0.1, 1, 10)

array([ 1.25892541,  1.58489319,  1.99526231,  2.51188643,  3.16227766,
        3.98107171,  5.01187234,  6.30957344,  7.94328235, 10.        ])

## 전치연산 

In [34]:
A = np.array([[1, 2, 3], [4, 5, 6]])
A

array([[1, 2, 3],
       [4, 5, 6]])

In [35]:
A.T

array([[1, 4],
       [2, 5],
       [3, 6]])

## 배열의 크기 변형 

In [36]:
a = np.arange(12)
a

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [37]:
b = a.reshape(3, 4)
b

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

사용하는 원소의 갯수가 정해저 있기 때문에 reshape 명령의 형태 튜플의 원소 중 하나는 -1이라는 숫자로 대체할 수 있다. -1을 넣으면 해당 숫자는 다를 값에서 계산되어 사용된다.

In [38]:
a.reshape(3, -1)

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [39]:
a.reshape(2, 2, -1)

array([[[ 0,  1,  2],
        [ 3,  4,  5]],

       [[ 6,  7,  8],
        [ 9, 10, 11]]])

In [40]:
a.reshape(2, -1, 2)

array([[[ 0,  1],
        [ 2,  3],
        [ 4,  5]],

       [[ 6,  7],
        [ 8,  9],
        [10, 11]]])

다차원 배열을 무조건 1차원으로 펼치기 위해서는 flatten 나 ravel 메서드를 사용한다.

In [41]:
a.flatten()

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [42]:
a.ravel()

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

같은 배열에 대해 차원만 1차원 증가시키는 경우에는 newaxis 명령을 사용하기도 한다.

In [43]:
x = np.arange(5)
x[:, np.newaxis]

array([[0],
       [1],
       [2],
       [3],
       [4]])

##  배열 연결

### hstack

In [None]:
a1 = np.ones((2, 3))
a1

In [45]:
a2 = np.zeros((2, 2))
a2

array([[0., 0.],
       [0., 0.]])

In [46]:
np.hstack([a1, a2])

array([[1., 1., 1., 0., 0.],
       [1., 1., 1., 0., 0.]])

### vstack 

In [47]:
b1 = np.ones((2, 3))
b1

array([[1., 1., 1.],
       [1., 1., 1.]])

In [48]:
b2 = np.zeros((3, 3))
b2

array([[0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.]])

In [49]:
np.vstack([b1, b2])

array([[1., 1., 1.],
       [1., 1., 1.],
       [0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.]])

### dstack

행, 열 이외의 깊이(depth) 방향으로 배열을 합친다. 이 예제의 경우에는 shape 변화가 2개의 (3 x 4) -> 1개의 (3 x 4 x 2)가 된다.

In [50]:
c1 = np.ones((3, 4))
c1

array([[1., 1., 1., 1.],
       [1., 1., 1., 1.],
       [1., 1., 1., 1.]])

In [51]:
c2 = np.zeros((3, 4))
c2

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

In [52]:
np.dstack([c1, c2])

array([[[1., 0.],
        [1., 0.],
        [1., 0.],
        [1., 0.]],

       [[1., 0.],
        [1., 0.],
        [1., 0.],
        [1., 0.]],

       [[1., 0.],
        [1., 0.],
        [1., 0.],
        [1., 0.]]])

In [53]:
(np.dstack([c1, c2])).shape

(3, 4, 2)

### stack

stack 명령은 dstack의 기능을 확장한 것으로 dstack처럼 마지막 차원으로 연결하는 것이 아니라 사용자가 지정한 차원(축으로) 배열을 연결한다. axis 인수(디폴트 0)를 사용하여 연결후의 회전 방향을 정한다. 디폴트 인수값은 0이고 가장 앞쪽에 차원이 생성된다. 즉, 배열 두 개가 겹치게 되므로 연결하고자 하는 배열들의 크기가 모두 같아야 한다.

다음 예에서는 axis=0 이므로 가장 값에 값이 2인 차원이 추가된다. 즉, shape 변화는 2개의 (3 x 4) -> 1개의 (2 x 3 x 4) 이다..

In [54]:
c = np.stack([c1, c2])
c

array([[[1., 1., 1., 1.],
        [1., 1., 1., 1.],
        [1., 1., 1., 1.]],

       [[0., 0., 0., 0.],
        [0., 0., 0., 0.],
        [0., 0., 0., 0.]]])

In [55]:
c.shape

(2, 3, 4)

In [56]:
c = np.stack([c1, c2], axis=1)
c

array([[[1., 1., 1., 1.],
        [0., 0., 0., 0.]],

       [[1., 1., 1., 1.],
        [0., 0., 0., 0.]],

       [[1., 1., 1., 1.],
        [0., 0., 0., 0.]]])

In [57]:
c.shape

(3, 2, 4)

# r_

r_ 메서드는 hstack 명령과 비슷하게 배열을 좌우로 연결한다. 다만 메서드임에도 불구하고 소괄호(parenthesis, ())를 사용하지 않고 인덱싱과 같이 대괄호(bracket, [])를 사용한다. 이런 특수 메서드를 인덱서(indexer)라고 한다.

In [59]:
np.r_[np.array([1, 2, 3]), np.array([4, 5, 6])]

array([1, 2, 3, 4, 5, 6])

# c_

c_ 메서드는 배열의 차원을 증가시킨 후 좌우로 연결한다. 만약 1차원 배열을 연결하면 2차원 배열이 된다.

In [60]:
np.c_[np.array([1, 2, 3]), np.array([4, 5, 6])]

array([[1, 4],
       [2, 5],
       [3, 6]])

# tile

tile 명령은 동일한 배열을 반복하여 연결한다.

In [61]:
a = np.array([[0, 1, 2], [3, 4, 5]])
np.tile(a, 2)

array([[0, 1, 2, 0, 1, 2],
       [3, 4, 5, 3, 4, 5]])

In [62]:
np.tile(a, (3, 2))

array([[0, 1, 2, 0, 1, 2],
       [3, 4, 5, 3, 4, 5],
       [0, 1, 2, 0, 1, 2],
       [3, 4, 5, 3, 4, 5],
       [0, 1, 2, 0, 1, 2],
       [3, 4, 5, 3, 4, 5]])