# 난수 발생과 카운팅

In [1]:
import numpy as np

### 시드 설정하기

* 파이썬에서 시드를 설정하는 명령은 seed이다. 인수로는 0과 같거나 큰 정수를 넣어준다.

 

In [15]:
np.random.seed(0)

* 이렇게 시드를 설정한 후 rand 명령으로 5개의 난수를 생성해 보자. 다른 난수 관련 명령어를 실행하지 말고 바로 다음 명령을 실행해야 한다. rand 명령은 0과 1사이의 난수를 발생시키는 명령으로 인수로 받은 숫자 횟수만큼 난수를 발생시킨다.

In [16]:
np.random.rand(5)

array([0.5488135 , 0.71518937, 0.60276338, 0.54488318, 0.4236548 ])

In [17]:
np.random.rand(10)

array([0.64589411, 0.43758721, 0.891773  , 0.96366276, 0.38344152,
       0.79172504, 0.52889492, 0.56804456, 0.92559664, 0.07103606])

### 데이터의 순서 바꾸기

* 데이터의 순서를 바꾸려면 shuffle 명령을 사용한다.

In [19]:
x = np.arange(10)
x

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [21]:
np.random.shuffle(x)
x

array([7, 8, 3, 6, 1, 5, 0, 4, 9, 2])

### 데이터 샘플링

* 이미 있는 데이터 집합에서 일부를 무작위로 선택하는 것을 샘플링(sampling)이라고 한다. 샘플링에는 choice 명령을 사용한다. choice 명령은 다음과 같은 인수를 가질 수 있다.

In [25]:
np.random.choice(10, 10, replace=False)

array([5, 0, 4, 2, 3, 6, 7, 9, 1, 8])

In [26]:
np.random.choice(5, 3, replace=False) 

array([4, 1, 2])

In [27]:
np.random.choice(5, 10)

array([4, 1, 2, 4, 3, 4, 4, 4, 3, 4])

In [31]:
np.random.choice(5, 10, p=[0.1, 0, 0.3, 0.6, 0])

array([3, 0, 3, 3, 2, 3, 2, 3, 2, 2])

### 난수 생성

* rand 명령은 0부터 1사이에서 균일한 확률 분포로 실수 난수를 생성한다. 숫자 인수는 생성할 난수의 크기이다. 여러개의 인수를 넣으면 해당 크기를 가진 행렬을 생성한다.

In [33]:
np.random.rand(10)

array([0.58651293, 0.02010755, 0.82894003, 0.00469548, 0.67781654,
       0.27000797, 0.73519402, 0.96218855, 0.24875314, 0.57615733])

In [34]:
np.random.rand(3, 5)

array([[0.59204193, 0.57225191, 0.22308163, 0.95274901, 0.44712538],
       [0.84640867, 0.69947928, 0.29743695, 0.81379782, 0.39650574],
       [0.8811032 , 0.58127287, 0.88173536, 0.69253159, 0.72525428]])

* randn 명령은 기댓값이 0이고 표준편차가 1인 가우시안 표준 정규 분포를 따르는 난수를 생성한다. 인수 사용법은 rand 명령과 같다.

In [35]:
np.random.randn(10)

array([ 6.06389001e-01,  1.76084071e-03, -9.90160143e-01,  1.87239408e+00,
       -2.41073590e-01,  5.33449070e-02,  1.03081595e+00, -1.27698899e+00,
        8.37719765e-01, -1.49011141e+00])

In [36]:
np.random.randn(3, 5)

array([[-1.070215  , -0.20912862,  0.60457228, -1.74305823,  1.52422681],
       [ 1.86357532,  1.29137792,  1.30069627,  0.91820283, -0.15880047],
       [-0.96406336, -1.99077882,  0.08973073,  0.11485388, -0.58581518]])

> randint 명령은 다음과 같은 인수를 가진다. <br>
> numpy.random.randint(low, high=None, size=None) <br>
> 만약 high를 입력하지 않으면 0과 low사이의 숫자를, high를 입력하면 low와 high는 사이의 숫자를 출력한다. size는 난수의 숫자이다.

In [37]:
np.random.randint(10, size=10)

array([8, 4, 6, 5, 8, 2, 3, 9, 7, 5])

In [38]:
np.random.randint(10, 20, size=10)

array([13, 14, 15, 13, 13, 17, 19, 19, 19, 17])

In [39]:
np.random.randint(10, 20, size=(3,5))

array([[13, 12, 13, 19, 17],
       [17, 15, 11, 12, 12],
       [18, 11, 15, 18, 14]])

### 정수 데이터 카운팅

* unique 명령은 데이터에서 중복된 값을 제거하고 중복되지 않는 값의 리스트를 출력한다. return_counts 인수를 True 로 설정하면 각 값을 가진 데이터 갯수도 출력한다.

In [40]:
np.unique([11, 11, 2, 2, 34, 34])

array([ 2, 11, 34])

In [41]:
a = np.array(['a', 'b', 'b', 'c', 'a'])
index, count = np.unique(a, return_counts=True)

In [42]:
index

array(['a', 'b', 'c'], dtype='|S1')

In [43]:
count

array([2, 2, 1])

In [44]:
np.bincount([1, 1, 2, 2, 2, 3], minlength=6)

array([0, 2, 3, 1, 0, 0])