파이썬을 이용하여 데이터를 무작위로 섞거나 임의의 수 즉, 난수(random number)를 발생시키는 방법에 대해 알아본다. 이 기능은 주로 NumPy의 random 서브패키지에서 제공한다.

# 시드 설정하기
컴퓨터 프로그램에서 발생하는 무작위 수는 사실 엄격한 의미의 무작위 수가 아니다. 어떤 특정한 시작 숫자를 정해 주면 컴퓨터가 정해진 알고리즘에 의해 마치 난수처럼 보이는 수열을 생성한다. 이런 시작 숫자를 시드(seed)라고 한다. 일단 생성된 난수는 다음번 난수 생성을 위한 시드값이 된다. 따라서 시드값은 한 번만 정해주면 된다. 시드는 보통 현재 시각등을 이용하여 자동으로 정해지지만 사람이 수동으로 설정할 수도 있다. 특정한 시드값이 사용되면 그 다음에 만들어지는 난수들은 모두 예측할 수 있다. 이 책에서는 코드의 결과를 재현하기 위해 항상 시드를 설정한다.

파이썬에서 시드를 설정하는 함수는 seed이다. 인수로는 0과 같거나 큰 정수를 넣어준다.

In [1]:
import numpy as np

# 시드 설정
np.random.seed(0)

In [3]:
# 위에서 설정한 시드를 가지고 5개 난수를 생성
# rand 함수는 0과 1 사이의 난수를 발생시키는 함수임
np.random.rand(5)

array([0.64589411, 0.43758721, 0.891773  , 0.96366276, 0.38344152])

In [4]:
np.random.rand(10)

array([0.79172504, 0.52889492, 0.56804456, 0.92559664, 0.07103606,
       0.0871293 , 0.0202184 , 0.83261985, 0.77815675, 0.87001215])

In [5]:
np.random.rand(10)

array([0.97861834, 0.79915856, 0.46147936, 0.78052918, 0.11827443,
       0.63992102, 0.14335329, 0.94466892, 0.52184832, 0.41466194])

In [6]:
# 시드 재설정
np.random.seed(0)

In [7]:
np.random.rand(5)

array([0.5488135 , 0.71518937, 0.60276338, 0.54488318, 0.4236548 ])

In [8]:
np.random.rand(10)

array([0.64589411, 0.43758721, 0.891773  , 0.96366276, 0.38344152,
       0.79172504, 0.52889492, 0.56804456, 0.92559664, 0.07103606])

In [9]:
np.random.rand(10)

array([0.0871293 , 0.0202184 , 0.83261985, 0.77815675, 0.87001215,
       0.97861834, 0.79915856, 0.46147936, 0.78052918, 0.11827443])

# 데이터의 순서 바꾸기 - np.random.shuffle(array)
데이터의 순서를 바꾸려면 shuffle 함수를 사용한다. shuffle 함수도 자체 변환(in-place) 함수로 한 번 사용하면 변수의 값이 바뀌므로 사용에 주의해야 한다.

In [11]:
x = np.arange(10)
x

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [12]:
np.random.shuffle(x)
x

array([3, 6, 4, 5, 2, 9, 7, 8, 1, 0])

# 데이터 샘플링

이미 있는 데이터 집합에서 일부를 무작위로 선택하는 것을 표본선택 혹은 샘플링(sampling)이라고 한다. 샘플링에는 choice 함수를 사용한다. choice 함수는 다음과 같은 인수를 가질 수 있다.

numpy.random.choice(a, size=None, replace=True, p=None)

* a : 배열이면 원래의 데이터, 정수이면 arange(a) 명령으로 데이터 생성
* size : 정수. 샘플 숫자
* replace : 불리언. True이면 한번 선택한 데이터를 다시 선택 가능
* p : 배열. 각 데이터가 선택될 수 있는 확률

In [17]:
np.random.choice(5, 5, replace=False) # shuffle 명령과 같다

array([3, 0, 2, 1, 4])

In [21]:
np.random.choice(5, 3, replace=False)  # 3개만 선택

array([3, 4, 1])

In [24]:
np.random.choice(5, 10, p = [0.1, 0, 0.3, 0.6, 0]) # 선택확률을 다르게 해서 10개 선택 !!

array([3, 3, 3, 3, 3, 0, 2, 2, 2, 2])

# 난수 생성
넘파이의 random 서브패키지는 이외에도 난수를 생성하는 다양한 함수를 제공한다. 그 중 가장 간단하고 많이 사용되는 것은 다음 3가지 함수다.

* rand: 0부터 1사이의 균일 분포
* randn: 표준 정규 분포
* randint: 균일 분포의 정수형 난수

rand 함수는 0부터 1사이에서 균일한 확률 분포로 실수 난수를 생성한다. 숫자 인수는 생성할 난수의 크기이다. 여러개의 인수를 넣으면 해당 크기를 가진 행렬을 생성한다.

In [25]:
np.random.rand(10)

array([0.31798318, 0.41426299, 0.0641475 , 0.69247212, 0.56660145,
       0.26538949, 0.52324805, 0.09394051, 0.5759465 , 0.9292962 ])

In [30]:
# 3행5열의 난수 생성
np.random.rand(3,5)

array([[0.59087276, 0.57432525, 0.65320082, 0.65210327, 0.43141844],
       [0.8965466 , 0.36756187, 0.43586493, 0.89192336, 0.80619399],
       [0.70388858, 0.10022689, 0.91948261, 0.7142413 , 0.99884701]])

randn 함수는 기댓값이 0이고 표준편차가 1인 표준 정규 분포(standard normal distribution)를 따르는 난수를 생성한다. 인수 사용법은 rand 명령과 같다.

In [32]:
# 기댓값이 0 이고 표준편차가 1인 표준 정규 분포를 따르는 난수 생성
np.random.randn(10)

array([-0.76991607,  0.53924919, -0.67433266,  0.03183056, -0.63584608,
        0.67643329,  0.57659082, -0.20829876,  0.39600671, -1.09306151])

In [35]:
# 3행5열 난수 생성
np.random.randn(3, 5)

array([[ 0.84436298, -1.00021535, -1.5447711 ,  1.18802979,  0.31694261],
       [ 0.92085882,  0.31872765,  0.85683061, -0.65102559, -1.03424284],
       [ 0.68159452, -0.80340966, -0.68954978, -0.4555325 ,  0.01747916]])

randint 함수는 다음과 같은 인수를 가진다.
numpy.random.randint(low, high=None, size=None)

만약 high를 입력하지 않으면 0과 low사이의 숫자를, high를 입력하면 low와 high는 사이의 숫자를 출력한다. size는 난수의 숫자이다.



In [40]:
np.random.randint(10, size = 10)

array([0, 8, 6, 8, 9, 8, 3, 6, 1, 7])

In [41]:
np.random.randint(10, 20, size=10)

array([14, 19, 12, 10, 18, 12, 17, 18, 14, 14])

In [43]:
# 10과 20 사이의 3행5열의 정수형 난수
np.random.randint(10, 20, size=(3, 5))

array([[16, 17, 19, 11, 19],
       [16, 10, 13, 18, 14],
       [11, 14, 15, 10, 13]])

# 연습 문제 3.5.1
동전을 10번 던져 앞면(숫자 1)과 뒷면(숫자 0)이 나오는 가상 실험을 파이썬으로 작성한다.
주사위를 100번 던져서 나오는 숫자의 평균을 구하라.

In [46]:
np.random.randint(0, 1+1, size = 10)

array([1, 0, 0, 1, 1, 1, 1, 0, 0, 1])

# 연습 문제 3.5.2
가격이 10,000원인 주식이 있다. <br>
이 주식의 일간 수익률(%)은 기댓값이 0%이고 표준편차가 1%인 표준 정규 분포를 따른다고 하자. <br>
250일 동안의 주가를 무작위로 생성하라.

In [64]:
(np.random.randn(250) + 1) * 10000

array([ 11355.19909889,   2166.64028515,   7861.27206432,  10122.8686465 ,
        17172.22503017,  22871.87738576,  18214.77477161,   9093.26494511,
        -8380.58399739, -12396.45451114,  14701.55079656,    383.26072017,
         4838.99667026,   1012.89114885,   -688.99298693,  20978.29541628,
        13088.80023079,  10666.22153026,   8858.00874066,   5068.11071375,
        11957.71582801,  18707.95161576,   5192.10647519,  20351.35025804,
         3532.02556284,   2564.63220947,  22446.177311  ,  20212.94222202,
        11031.64893545,  14970.74710802,   -331.28052773,   8358.79305474,
         5764.16960893,  19114.9055556 ,  15854.96242882,  28151.16700587,
        14799.03813074,  -5471.38367458,   6027.48369674,  14798.95015007,
         3445.00061782,   7446.84814759,   7426.12466447,  11788.31265438,
        10231.58813729,  18789.23840049,   7029.38009119,   8433.43563729,
         5945.50378072,  21962.35150941,  13442.09028332,  16005.92727157,
        10853.7485922 ,  

# 정수 데이터 카운팅
이렇게 발생시킨 난수가 실수값이면 히스토그램 등을 사용하여 분석하면 된다. 히스토그램을 시각화 부분에서 나중에 자세히 설명한다. <br>
만약 난수가 정수값이면 unique 명령이나 bincount 명령으로 데이터 값을 분석할 수 있다. <br>
unique 함수는 데이터에서 중복된 값을 제거하고 중복되지 않는 값의 리스트를 출력한다. return_counts 인수를 True 로 설정하면 각 값을 가진 데이터 갯수도 출력한다.

In [65]:
np.unique([11,11,2,2,34,34])

array([ 2, 11, 34])

In [71]:
a = np.array(['a', 'b', 'b', 'c', 'a', 'd'])
index, count = np.unique(a, return_counts=True)

In [73]:
# 어떤 값으로 구성되어 있는지
index

array(['a', 'b', 'c', 'd'], dtype='<U1')

In [75]:
# 몇 개의 숫자를 갖고 있는지
count

array([2, 2, 1, 1], dtype=int64)

그러나 unique 함수는 데이터에 존재하는 값에 대해서만 갯수를 세므로 데이터 값이 나올 수 있음에도 불구하고 데이터가 하나도 없는 경우에는 정보를 주지 않는다. <br>
예를 들어 주사위를 10번 던졌는데 6이 한 번도 나오지 않으면 이 값을 0으로 세어주지 않는다.

따라서 데이터가 주사위를 던졌을 때 나오는 수처럼 특정 범위안의 수인 경우에는 bincount 함수에 minlength 인수를 설정하여 쓰는 것이 더 편리하다. <br> bincount 함수는 0 부터 minlength - 1 까지의 숫자에 대해 각각 카운트를 한다. 데이터가 없을 경우에는 카운트 값이 0이 된다.

In [80]:
# 배열 내에 0 ~ 5까지의 수가 얼마나 있는지 출력
np.bincount([1,1,2,2,2,3], minlength = 5 + 1)

array([0, 2, 3, 1, 0, 0], dtype=int64)