# Numpy 배열

배열(array)을 사용하면 적은 메모리로 데이터를 빠르게 처리할 수 있다. 배열은 리스트와 비슷하지만 다음과 같은 점에서 다르다.

1. 모든 원소가 같은 자료형이어야 한다.
2. 원소의 갯수를 바꿀 수 없다.

NumPy는 수치해석용 파이썬 패키지이다. 다차원의 배열 자료구조 클래스인 ndarray 클래스를 지원하며 벡터와 행렬을 사용하는 선형대수 계산에 주로 사용된다. 내부적으로는 BLAS 라이브러리와 LAPACK 라이브러리를 사용하고 있으며 C로 구현된 CPython에서만 사용할 수 있다.

NumPy의 배열 연산은 C로 구현된 내부 반복문을 사용하기 때문에 파이썬 반복문에 비해 속도가 빠르며 벡터화 연산(vectorized operation)을 이용하여 간단한 코드로도 복잡한 선형 대수 연산을 수행할 수 있다. 또한 배열 인덱싱(array indexing)을 사용한 질의(Query) 기능을 이용하여 간단한 코드로도 복잡한 수식을 계산할 수 있다.

In [2]:
import numpy as np

## 1차원 배열 만들기 

In [3]:
arr = np.array([1,2,3,4,5])
arr

array([1, 2, 3, 4, 5])

In [4]:
type(arr)

numpy.ndarray

## 벡터화 연산

In [15]:
arr1 = np.array([1, 2, 3, 4, 5])
arr2 = np.array([2, 3, 4, 5, 6])
arr3 = np.array([1, 2, 3, 4, 5])

# 곱셈
dot = arr1 * 2
print('arr1 * 2 = ', dot)

# 덧셈
add = 2*arr1 + arr2
print('2*arr1 + arr2 = ', add)

# 동등비교
equl = (2 == arr1)
print('2 == arr1 : ', equl)

# 모든 원소들 비교
all_euql = np.all(arr1 == arr3)
print('np.all : ', all_euql)

# 비교
gt = (2 > arr1)
print('2 > arr1 : ', gt)

# 논리연산
and_ = (arr1 == 2) & (arr2 < 5)
print('and연산 : ', and_)

arr1 * 2 =  [ 2  4  6  8 10]
2*arr1 + arr2 =  [ 4  7 10 13 16]
2 == arr1 :  [False  True False False False]
np.all :  True
2 > arr1 :  [ True False False False False]
and연산 :  [False  True False False False]


In [17]:
# 지수함수, 로그함수
np.exp(arr1)

array([  2.71828183,   7.3890561 ,  20.08553692,  54.59815003,
       148.4131591 ])

In [19]:
10 ** arr1

array([    10,    100,   1000,  10000, 100000], dtype=int32)

In [21]:
np.log(arr1 + 1)

array([0.69314718, 1.09861229, 1.38629436, 1.60943791, 1.79175947])

## 브로드캐스팅

벡터(또는 행렬)끼리 덧셈 혹은 뺄셈을 하려면 두 벡터(또는 행렬)의 크기가 같아야 한다. NumPy에서는 서로 다른 크기를 가진 두 배열의 사칙 연산도 지원한다. 이 기능을 브로드캐스팅(broadcasting)이라고 하는데 크기가 작은 배열을 자동으로 반복 확장하여 크기가 큰 배열에 맞추는 방벙이다.

In [22]:
x = np.vstack([range(7)[i:i + 3] for i in range(5)])
x

array([[0, 1, 2],
       [1, 2, 3],
       [2, 3, 4],
       [3, 4, 5],
       [4, 5, 6]])

In [23]:
y = np.arange(5)[:, np.newaxis]
y

array([[0],
       [1],
       [2],
       [3],
       [4]])

In [24]:
x + y

array([[ 0,  1,  2],
       [ 2,  3,  4],
       [ 4,  5,  6],
       [ 6,  7,  8],
       [ 8,  9, 10]])

## 차원 축소 연산

행렬의 하나의 행에 있는 원소들을 하나의 데이터 집합으로 보고 그 집합의 평균을 구하면 각 행에 대해 하나의 숫자가 나오게 된다. 예를 들어 10x5 크기의 2차원 배열에 대해 행-평균을 구하면 10개의 숫자를 가진 1차원 벡터가 나오게 된다. 이러한 연산을 차원 축소(dimension reduction) 연산이라고 한다.

NumPy는 다음과 같은 차원 축소 연산 명령 혹은 메서드를 지원한다.

- 최대/최소: min, max, argmin, argmax
- 통계: sum, mean, median, std, var
- 불리언: all, any

In [25]:
x = np.array([1, 2, 3, 4])
x

array([1, 2, 3, 4])

In [26]:
np.sum(x)

10

연산의 대상이 2차원 이상인 경우에는 어느 차원으로 계산을 할 지를 axis 인수를 사용하여 지시한다. axis=0인 경우는 열 연산, axis=1인 경우는 행 연산이다. 디폴트 값은 axis=0이다. axis 인수는 대부분의 차원 축소 명령에 적용할 수 있다.

In [27]:
x = np.array([[1, 1], [2, 2]])
x

array([[1, 1],
       [2, 2]])

In [28]:
x.sum()

6

In [29]:
x.sum(axis=0)   # 열 합계

array([3, 3])

In [30]:
x.sum(axis=1)   # 행 합계

array([2, 4])

## 2차원 배열 만들기

2차원 배열은 행렬(matrix)이라고 하는데 행렬에서는 가로줄을 행(row)이라고 하고 세로줄을 열(column)이라고 부른다.

In [17]:
arr_2d = np.array([[0, 1, 2], [3, 4, 5]])  # 2 x 3 array
arr_2d

array([[0, 1, 2],
       [3, 4, 5]])

In [31]:
print('배열 모양 : ', arr_2d.shape)
print('행의 개수 : ', arr_2d.shape[0])
print('열의 개수 : ', arr_2d.shape[1])
print('배열의 차원 : ', arr_2d.ndim)

배열 모양 :  (2, 3)
행의 개수 :  2
열의 개수 :  3
배열의 차원 :  2


## 3차원 배열 만들기 

In [32]:
arr_3d = np.array([[[1, 2, 3, 4],
               [5, 6, 7, 8],
               [9, 10, 11, 12]],
              [[11, 12, 13, 14],
               [15, 16, 17, 18],
               [19, 20, 21, 22]]])   # 2 x 3 x 4 array
print(arr_3d)
print('배열 모양 : ', arr_3d.shape)
print('배열의 차원 : ', arr_3d.ndim)

[[[ 1  2  3  4]
  [ 5  6  7  8]
  [ 9 10 11 12]]

 [[11 12 13 14]
  [15 16 17 18]
  [19 20 21 22]]]
배열 모양 :  (2, 3, 4)
배열의 차원 :  3


## 배열의 인덱싱 

In [33]:
a = np.array([0, 1, 2, 3, 4])

# index 2
print(a[2])

# index -2, 음수는 뒤에서부터 인덱스를 센다
print(a[-2])

2
3


In [35]:
a = np.array([[0, 1, 2], [3, 4, 5]])

print('1행1열 : ', a[0, 0])
print('마지막행 마지막열 : ', a[-1, -1])

1행1열 :  0
마지막행 마지막열 :  5


## 팬시 인덱싱 

### bool 형 

In [7]:
a = np.array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
idx = np.array([True, False, True, False, True,
                False, True, False, True, False])
a[idx]

array([0, 2, 4, 6, 8])

### 정수형 

In [8]:
a = np.array([11, 22, 33, 44, 55, 66, 77, 88, 99])
idx = np.array([0, 2, 4, 6, 8])
a[idx]

array([11, 33, 55, 77, 99])

## 배열의 슬라이싱 

In [5]:
a = np.array([[0, 1, 2, 3], [4, 5, 6, 7]])
print(a)

first_col = a[0, :]
print('첫번째 행 전체 : ', first_col)

second_row = a[:, 1]
print('두번째 열 전체 : ', second_row)

[[0 1 2 3]
 [4 5 6 7]]
첫번째 행 전체 :  [0 1 2 3]
두번째 열 전체 :  [1 5]


# 배열의 생성과 변형 

## Numpy의 자료형 

NumPy의 배열 즉, ndarray클래스는 데이터가 같은 자료형이어야 한다. array 명령으로 배열을 만들 때 자료형을 명시적으로 적용하려면 dtype 인수를 사용한다. 만약 dtype 인수가 없으면 주어진 데이터를 저장할 수 있는 자료형을 스스로 유추한다. 만들어진 배열의 자료형을 알아내려면 dtype 속성을 본다.

In [9]:
x = np.array([1, 2, 3])
x.dtype

dtype('int32')

| dtype 접두사 | 설명 | 사용 예 |
|:--------|:--------:|--------:|
| b | 불리언 | b(참 혹은 거짓) |
| i | 정수 | i8(64비트) |
| u | 부호 없는 정수 | u8(64비트) |
| f | 부동소수점 | f8(64비트) |
| c | 복소 부동소수점 | c16(128비트) |
| o | 객체 | 0(객체에 대한 포인터) |
| s | 바이트 문자열 | s24(24글자) |
| u | 유니코드 문자열 | u24(24 유니코드 글자) |

In [11]:
x = np.array([1, 2, 3], dtype='f')
print(x.dtype)

float32


In [12]:
x[0] + x[1]

3.0

In [13]:
x = np.array([1, 2, 3], dtype='U')
x.dtype

dtype('<U1')

In [14]:
x[0] + x[1]

'12'

## Inf와 NaN 

In [17]:
# 무한대
np.inf

inf

In [19]:
np.nan

nan

In [21]:
np.array([0, 1, -1, 0]) / np.array([1, 0, 0, 0])

  """Entry point for launching an IPython kernel.
  """Entry point for launching an IPython kernel.


array([  0.,  inf, -inf,  nan])

## 배열 생성

In [22]:
a = np.zeros(5)
a

array([0., 0., 0., 0., 0.])

In [23]:
b = np.zeros((2, 3))
b

array([[0., 0., 0.],
       [0., 0., 0.]])

array 명령과 마찬가지로 dtype 인수를 명시하면 해당 자료형 원소를 가진 배열을 만든다.

In [24]:
c = np.zeros((5, 2), dtype="i")
c

array([[0, 0],
       [0, 0],
       [0, 0],
       [0, 0],
       [0, 0]], dtype=int32)

문자열 배열도 가능하지면 모든 원소의 문자열 크기가 같아야 한다. 만약 더 큰 크기의 문자열을 할당하면 잘릴 수 있다.

In [25]:
d = np.zeros(5, dtype="U4")
d

array(['', '', '', '', ''], dtype='<U4')

In [26]:
e = np.ones((2, 3, 4), dtype="i8")
e

array([[[1, 1, 1, 1],
        [1, 1, 1, 1],
        [1, 1, 1, 1]],

       [[1, 1, 1, 1],
        [1, 1, 1, 1],
        [1, 1, 1, 1]]], dtype=int64)

만약 크기를 튜플로 명시하지 않고 다른 배열과 같은 크기의 배열을 생성하고 싶다면 ones_like, zeros_like 명령을 사용한다.

In [27]:
f = np.ones_like(b, dtype="f")
f

array([[1., 1., 1.],
       [1., 1., 1.]], dtype=float32)

배열의 크기가 커지면 배열을 초기화하는데도 시간이 걸린다. 이 시간을 단축하려면 배열을 생성만 하고 특정한 값으로 초기화를 하지 않는 empty 명령을 사용할 수 있다. empty 명령으로 생성된 배열에는 기존에 메모리에 저장되어 있던 값이 있으므로 배열의 원소의 값을 미리 알 수 없다.

In [28]:
g = np.empty((4, 3))
g

array([[7.73897677e-312, 2.81617418e-322, 0.00000000e+000],
       [0.00000000e+000, 0.00000000e+000, 5.74084271e+169],
       [7.12321829e-091, 6.49265510e+169, 5.41775302e-067],
       [6.87774013e+169, 6.48224660e+170, 4.93432906e+257]])

arange 명령은 NumPy 버전의 range 명령이라고 볼 수 있다. 특정한 규칙에 따라 증가하는 수열을 만든다.

In [29]:
np.arange(10) 

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [30]:
np.arange(3, 21, 2)  # 시작, 끝(포함하지 않음), 단계

array([ 3,  5,  7,  9, 11, 13, 15, 17, 19])

linspace 명령이나 logspace 명령은 선형 구간 혹은 로그 구간을 지정한 구간의 수만큼 분할한다.

In [31]:
np.linspace(0, 100, 5)  # 시작, 끝(포함), 갯수

array([  0.,  25.,  50.,  75., 100.])

In [32]:
np.logspace(0.1, 1, 10)

array([ 1.25892541,  1.58489319,  1.99526231,  2.51188643,  3.16227766,
        3.98107171,  5.01187234,  6.30957344,  7.94328235, 10.        ])

## 전치연산 

In [34]:
A = np.array([[1, 2, 3], [4, 5, 6]])
A

array([[1, 2, 3],
       [4, 5, 6]])

In [35]:
A.T

array([[1, 4],
       [2, 5],
       [3, 6]])

## 배열의 크기 변형 

In [36]:
a = np.arange(12)
a

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [37]:
b = a.reshape(3, 4)
b

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

사용하는 원소의 갯수가 정해저 있기 때문에 reshape 명령의 형태 튜플의 원소 중 하나는 -1이라는 숫자로 대체할 수 있다. -1을 넣으면 해당 숫자는 다를 값에서 계산되어 사용된다.

In [38]:
a.reshape(3, -1)

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [39]:
a.reshape(2, 2, -1)

array([[[ 0,  1,  2],
        [ 3,  4,  5]],

       [[ 6,  7,  8],
        [ 9, 10, 11]]])

In [40]:
a.reshape(2, -1, 2)

array([[[ 0,  1],
        [ 2,  3],
        [ 4,  5]],

       [[ 6,  7],
        [ 8,  9],
        [10, 11]]])

다차원 배열을 무조건 1차원으로 펼치기 위해서는 flatten 나 ravel 메서드를 사용한다.

In [41]:
a.flatten()

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [42]:
a.ravel()

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

같은 배열에 대해 차원만 1차원 증가시키는 경우에는 newaxis 명령을 사용하기도 한다.

In [43]:
x = np.arange(5)
x[:, np.newaxis]

array([[0],
       [1],
       [2],
       [3],
       [4]])

##  배열 연결

### hstack

In [None]:
a1 = np.ones((2, 3))
a1

In [45]:
a2 = np.zeros((2, 2))
a2

array([[0., 0.],
       [0., 0.]])

In [46]:
np.hstack([a1, a2])

array([[1., 1., 1., 0., 0.],
       [1., 1., 1., 0., 0.]])

### vstack 

In [47]:
b1 = np.ones((2, 3))
b1

array([[1., 1., 1.],
       [1., 1., 1.]])

In [48]:
b2 = np.zeros((3, 3))
b2

array([[0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.]])

In [49]:
np.vstack([b1, b2])

array([[1., 1., 1.],
       [1., 1., 1.],
       [0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.]])

### dstack

행, 열 이외의 깊이(depth) 방향으로 배열을 합친다. 이 예제의 경우에는 shape 변화가 2개의 (3 x 4) -> 1개의 (3 x 4 x 2)가 된다.

In [50]:
c1 = np.ones((3, 4))
c1

array([[1., 1., 1., 1.],
       [1., 1., 1., 1.],
       [1., 1., 1., 1.]])

In [51]:
c2 = np.zeros((3, 4))
c2

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

In [52]:
np.dstack([c1, c2])

array([[[1., 0.],
        [1., 0.],
        [1., 0.],
        [1., 0.]],

       [[1., 0.],
        [1., 0.],
        [1., 0.],
        [1., 0.]],

       [[1., 0.],
        [1., 0.],
        [1., 0.],
        [1., 0.]]])

In [53]:
(np.dstack([c1, c2])).shape

(3, 4, 2)

### stack

stack 명령은 dstack의 기능을 확장한 것으로 dstack처럼 마지막 차원으로 연결하는 것이 아니라 사용자가 지정한 차원(축으로) 배열을 연결한다. axis 인수(디폴트 0)를 사용하여 연결후의 회전 방향을 정한다. 디폴트 인수값은 0이고 가장 앞쪽에 차원이 생성된다. 즉, 배열 두 개가 겹치게 되므로 연결하고자 하는 배열들의 크기가 모두 같아야 한다.

다음 예에서는 axis=0 이므로 가장 값에 값이 2인 차원이 추가된다. 즉, shape 변화는 2개의 (3 x 4) -> 1개의 (2 x 3 x 4) 이다..

In [54]:
c = np.stack([c1, c2])
c

array([[[1., 1., 1., 1.],
        [1., 1., 1., 1.],
        [1., 1., 1., 1.]],

       [[0., 0., 0., 0.],
        [0., 0., 0., 0.],
        [0., 0., 0., 0.]]])

In [55]:
c.shape

(2, 3, 4)

In [56]:
c = np.stack([c1, c2], axis=1)
c

array([[[1., 1., 1., 1.],
        [0., 0., 0., 0.]],

       [[1., 1., 1., 1.],
        [0., 0., 0., 0.]],

       [[1., 1., 1., 1.],
        [0., 0., 0., 0.]]])

In [57]:
c.shape

(3, 2, 4)

# r_

r_ 메서드는 hstack 명령과 비슷하게 배열을 좌우로 연결한다. 다만 메서드임에도 불구하고 소괄호(parenthesis, ())를 사용하지 않고 인덱싱과 같이 대괄호(bracket, [])를 사용한다. 이런 특수 메서드를 인덱서(indexer)라고 한다.

In [59]:
np.r_[np.array([1, 2, 3]), np.array([4, 5, 6])]

array([1, 2, 3, 4, 5, 6])

# c_

c_ 메서드는 배열의 차원을 증가시킨 후 좌우로 연결한다. 만약 1차원 배열을 연결하면 2차원 배열이 된다.

In [60]:
np.c_[np.array([1, 2, 3]), np.array([4, 5, 6])]

array([[1, 4],
       [2, 5],
       [3, 6]])

# tile

tile 명령은 동일한 배열을 반복하여 연결한다.

In [61]:
a = np.array([[0, 1, 2], [3, 4, 5]])
np.tile(a, 2)

array([[0, 1, 2, 0, 1, 2],
       [3, 4, 5, 3, 4, 5]])

In [62]:
np.tile(a, (3, 2))

array([[0, 1, 2, 0, 1, 2],
       [3, 4, 5, 3, 4, 5],
       [0, 1, 2, 0, 1, 2],
       [3, 4, 5, 3, 4, 5],
       [0, 1, 2, 0, 1, 2],
       [3, 4, 5, 3, 4, 5]])

## 정렬

sort 명령이나 메서드를 사용하여 배열 안의 원소를 크기에 따라 정렬하여 새로운 배열을 만들 수도 있다. 2차원 이상인 경우에는 행이나 열을 각각 따로따로 정렬하는데 axis 인수를 사용하여 행을 정렬할 것인지 열을 정렬한 것인지 결정한다. axis=0이면 각각의 행을 따로따로 정렬하고 axis=1이면 각각의 열을 따로따로 정렬한다. 디폴트 값은 -1 즉 가장 안쪽(나중)의 차원이다.

In [32]:
a = np.array([[4,  3,  5,  7],
              [1, 12, 11,  9],
              [2, 15,  1, 14]])
a

array([[ 4,  3,  5,  7],
       [ 1, 12, 11,  9],
       [ 2, 15,  1, 14]])

In [33]:
np.sort(a) # axis=-1 또는 axis=1 과 동일

array([[ 3,  4,  5,  7],
       [ 1,  9, 11, 12],
       [ 1,  2, 14, 15]])

In [34]:
np.sort(a, axis=0)

array([[ 1,  3,  1,  7],
       [ 2, 12,  5,  9],
       [ 4, 15, 11, 14]])

sort 메서드는 해당 객체의 자료 자체가 변화하는 in-place 메서드이므로 사용할 때 주의를 기울여야 한다.

만약 자료를 정렬하는 것이 아니라 순서만 알고 싶다면 argsort 명령을 사용한다.

In [35]:
a = np.array([42, 38, 12, 25])
j = np.argsort(a)
j

array([2, 3, 1, 0], dtype=int64)

# 기술 통계 

## 데이터의 개수 

In [36]:
x = np.array([18,   5,  10,  23,  19,  -8,  10,   0,   0,   5,   2,  15,   8,
              2,   5,   4,  15,  -1,   4,  -7, -24,   7,   9,  -6,  23, -13])

In [37]:
len(x)

26

## 샘플 평균 

In [38]:
np.mean(x)

4.8076923076923075

## 샘플 분산 

편향분산

$s^2 = \frac 1 n \sum^N_{i=1}(x_i-x)^2$

In [39]:
np.var(x)

115.23224852071006

비편향분산

$s^2 = \frac 1 {n-1} \sum^{N}_{i=1}(x_i-x)^2$

In [40]:
np.var(x, ddof=1)  # 비편향 분산.

119.84153846153846

## 샘플 표준편차 

In [42]:
np.std(x)

10.734628476137871

## 최대, 최소값 

In [43]:
np.max(x) 

23

In [44]:
np.min(x)

-24

## 중앙값

중앙값(median)은 데이터를 크기대로 정렬하였을 때 가장 가운데에 있는 수를 말한다. 만약 데이터의 수가 짝수이면 가장 가운데에 있는 두 수의 평균을 사용한다.

In [45]:
np.median(x)

5.0

## 사분위수

사분위수(quartile)는 데이터를 가장 작은 수부터 가장 큰 수까지 크기가 커지는 순서대로 정렬하였을 때 1/4, 2/4, 3/4 위치에 있는 수를 말한다. 각각 1사분위수, 2사분위수, 3사분위수라고 한다. 1/4의 위치란 전체 데이터의 수가 만약 100개이면 25번째 순서, 즉 하위 25%를 말한다. 따라서 2사분위수는 중앙값과 같다.

때로는 위치를 1/100 단위로 나눈 백분위수(percentile)을 사용하기도 한다. 1사분위수는 25% 백분위수와 같다.

In [46]:
np.percentile(x, 0) # 최소값

-24.0

In [47]:
np.percentile(x, 25) # 1사분위수

0.0

In [50]:
np.percentile(x, 50) # 2사분위수

5.0

In [48]:
np.percentile(x, 75) # 3사분위 수

10.0

In [51]:
np.percentile(x, 100) # 4사분위 수

23.0

SciPy 패키지에는 여러가지 기술 통계 값을 한 번에 구해주는 describe 명령이 있다.

In [54]:
from scipy.stats import describe
describe(x)

DescribeResult(nobs=26, minmax=(-24, 23), mean=4.8076923076923075, variance=119.84153846153846, skewness=-0.4762339485461929, kurtosis=0.37443381660038977)

# 난수 발생과 카운팅

## 시드 설정하기¶

컴퓨터 프로그램에서 발생하는 무작위 수는 사실 엄격한 의미의 무작위 수가 아니다. 어떤 특정한 시작 숫자를 정해 주면 컴퓨터가 정해진 알고리즘에 의해 마치 난수처럼 보이는 수열을 생성한다. 이런 시작 숫자를 시드(seed)라고 한다. 일단 생성된 난수는 다음번 난수 생성을 위한 시드값이 된다. 따라서 시드값은 한 번만 정해주면 된다. 시드는 보통 현재 시각등을 이용하여 자동으로 정해지지만 사람이 수동으로 설정할 수도 있다. 특정한 시드값이 사용되면 그 다음에 만들어지는 난수들은 모두 예측할 수 있다. 이 책에서는 코드의 결과를 재현하기 위해 항상 시드를 설정한다.

파이썬에서 시드를 설정하는 명령은 seed이다. 인수로는 0과 같거나 큰 정수를 넣어준다.

In [55]:
np.random.seed(0)

이렇게 시드를 설정한 후 rand 명령으로 5개의 난수를 생성해 보자. 다른 난수 관련 명령어를 실행하지 말고 바로 다음 명령을 실행해야 한다. rand 명령은 0과 1사이의 난수를 발생시키는 명령으로 인수로 받은 숫자 횟수만큼 난수를 발생시킨다.

In [56]:
np.random.rand(5)

array([0.5488135 , 0.71518937, 0.60276338, 0.54488318, 0.4236548 ])

## 데이터의 순서 바꾸기

데이터의 순서를 바꾸려면 shuffle 명령을 사용한다.

In [57]:
x = np.arange(10)
x

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [58]:
np.random.shuffle(x)
x

array([3, 1, 8, 7, 9, 0, 6, 4, 2, 5])

## 데이터 샘플링

이미 있는 데이터 집합에서 일부를 무작위로 선택하는 것을 샘플링(sampling)이라고 한다. 샘플링에는 choice 명령을 사용한다. choice 명령은 다음과 같은 인수를 가질 수 있다.

numpy.random.choice(a, size=None, replace=True, p=None)

- a : 배열이면 원래의 데이터, 정수이면 arange(a) 명령으로 데이터 생성
- size : 정수. 샘플 숫자
- replace : 불리언. True이면 한번 선택한 데이터를 다시 선택 가능
- p : 배열. 각 데이터가 선택될 수 있는 확률

In [59]:
np.random.choice(5, 5, replace=False)  # shuffle 명령과 같다.

array([4, 2, 3, 1, 0])

In [60]:
np.random.choice(5, 3, replace=False)  # 3개만 선택

array([2, 3, 4])

In [61]:
np.random.choice(5, 10)  # 반복해서 10개 선택

array([0, 3, 0, 2, 3, 0, 1, 3, 3, 3])

In [62]:
np.random.choice(5, 10, p=[0.1, 0, 0.3, 0.6, 0])  # 선택 확률을 다르게 해서 10개 선택

array([2, 3, 2, 3, 3, 3, 2, 3, 3, 3], dtype=int64)

## 난수 생성

NumPy의 random 서브패키지에는 난수를 생성하는 다양한 명령을 제공한다. 그 중 가장 간단하고 많이 사용되는 것은 다음 3가지 명령이다.

- rand: 0부터 1사이의 균일 분포
- randn: 가우시안 표준 정규 분포
- randint: 균일 분포의 정수 난수

rand 명령은 0부터 1사이에서 균일한 확률 분포로 실수 난수를 생성한다. 숫자 인수는 생성할 난수의 크기이다. 여러개의 인수를 넣으면 해당 크기를 가진 행렬을 생성한다.

In [63]:
np.random.rand(10)

array([0.0187898 , 0.6176355 , 0.61209572, 0.616934  , 0.94374808,
       0.6818203 , 0.3595079 , 0.43703195, 0.6976312 , 0.06022547])

In [64]:
np.random.rand(3, 5)

array([[0.66676672, 0.67063787, 0.21038256, 0.1289263 , 0.31542835],
       [0.36371077, 0.57019677, 0.43860151, 0.98837384, 0.10204481],
       [0.20887676, 0.16130952, 0.65310833, 0.2532916 , 0.46631077]])

randn 명령은 기댓값이 0이고 표준편차가 1인 가우시안 표준 정규 분포를 따르는 난수를 생성한다. 인수 사용법은 rand 명령과 같다.

In [65]:
np.random.randn(10)

array([-0.63972264, -0.4794198 ,  0.3113635 , -0.77602047, -0.30736481,
       -0.36652394,  1.11971196, -0.45792242,  0.4253934 , -0.02797118])

In [66]:
np.random.randn(3, 5)

array([[ 1.47598983,  0.6467801 , -0.36433431, -0.67877739, -0.35362786],
       [-0.74074747, -0.67502183, -0.13278426,  0.61980106,  1.79116846],
       [ 0.17100044, -1.72567135,  0.16065854, -0.85898532, -0.20642094]])

randint 명령은 다음과 같은 인수를 가진다.

`numpy.random.randint(low, high=None, size=None)`

만약 high를 입력하지 않으면 0과 low사이의 숫자를, high를 입력하면 low와 high 사이의 숫자를 출력한다. size는 난수의 숫자이다.

In [67]:
np.random.randint(10, size=10)

array([2, 3, 0, 0, 6, 0, 6, 3, 3, 8])

# 정수 데이터 카운팅

이렇게 발생시킨 난수가 실수값이면 히스토그램 등을 사용하여 분석하면 된다.

만약 난수가 정수값이면 unique 명령이나 bincount 명령으로 데이터 값을 분석할 수 있다. 이 명령들은 random 서브패키지가 아니라 NumPy 바로 아래에 포함된 명령이다.

unique 명령은 데이터에서 중복된 값을 제거하고 중복되지 않는 값의 리스트를 출력한다. return_counts 인수를 True 로 설정하면 각 값을 가진 데이터 갯수도 출력한다.

In [68]:
np.unique([11, 11, 2, 2, 34, 34])

array([ 2, 11, 34])

In [69]:
a = np.array(['a', 'b', 'b', 'c', 'a'])
index, count = np.unique(a, return_counts=True)

In [70]:
index

array(['a', 'b', 'c'], dtype='<U1')

In [71]:
count

array([2, 2, 1], dtype=int64)

그러나 unique 명령은 데이터에 존재하는 값에 대해서만 갯수를 세므로 데이터 값이 나올 수 있음에도 불구하고 데이터가 하나도 없는 경우에는 정보를 주지 않는다. 예를 들어 주사위를 10번 던졌는데 6이 한 번도 나오지 않으면 이 값을 0으로 세어주지 않는다.

따라서 데이터가 주사위를 던졌을 때 나오는 수처럼 특정 범위안의 수인 경우에는 bincount에 minlength 인수를 설정하여 쓰는 것이 더 편리하다. 이 때는 0 부터 minlength - 1 까지의 숫자에 대해 각각 카운트를 한다. 데이터가 없을 경우에는 카운트 값이 0이 된다.

In [72]:
np.bincount([1, 1, 2, 2, 2, 3], minlength=6)

array([0, 2, 3, 1, 0, 0], dtype=int64)