# 3.5 난수 발생과 카운팅

In [1]:
import numpy as np

### 시드 설정하기

컴퓨터 프로그램에서 발생하는 무작위 수는 사실 엄격한 의미의 무작위 수가 아니다. 어떤 특정한 시작 숫자를 정해 주면 컴퓨터가 정해진 알고리즘에 의해 마치 난수처럼 보이는 수열을 생성한다. 이런 시작 숫자를 시드(seed)라고 한다.

In [3]:
np.random.rand(5)

array([0.2276199 , 0.05684687, 0.14501601, 0.34058375, 0.0052177 ])

In [4]:
np.random.rand(5)

array([0.98476575, 0.72098455, 0.33999227, 0.76823801, 0.4657934 ])

In [5]:
np.random.seed(2020)
np.random.rand(5)

array([0.98627683, 0.87339195, 0.50974552, 0.27183571, 0.33691873])

In [6]:
np.random.seed(2020)
np.random.rand(5)

array([0.98627683, 0.87339195, 0.50974552, 0.27183571, 0.33691873])

### 데이터의 순서 바꾸기

In [12]:
x = np.arange(10)
x

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [11]:
# shuffle: 데이터를 무작위로 섞는다.
np.random.shuffle(x)
x

array([7, 0, 6, 9, 8, 3, 5, 1, 2, 4])

### 데이터 샘플링

이미 있는 데이터 집합에서 일부를 무작위로 선택하는 것을 표본선택 혹은 샘플링(sampling)이라고 한다. 샘플링에는 choice 함수를 사용한다.

```
numpy.random.choice(a, size=None, replace=True, p=None)
```

- a : 배열이면 원래의 데이터, 정수이면 arange(a) 명령으로 데이터 생성
- size : 정수. 샘플 숫자
- replace : 불리언. True이면 한번 선택한 데이터를 다시 선택 가능. 
            replace가 False면 비보건추출
- p : 배열. 각 데이터가 선택될 수 있는 확률

In [13]:
# shuffle 명령과 같다
np.random.choice(5, 5, replace=False)

array([2, 0, 3, 4, 1])

In [22]:
np.random.choice(5, 3, replace=True)

array([3, 0, 1])

In [23]:
# 3개만 선택
np.random.choice(5, 3, replace=False)

array([3, 4, 1])

In [19]:
# 반복해서 10개 선택
np.random.choice(5, 10)

array([2, 4, 0, 1, 1, 1, 1, 1, 0, 1])

In [21]:
# 선택 확률을 다르게 해서 10개 선택
np.random.choice(5, 10, p=[0.1, 0, 0.3, 0.6, 0])

array([3, 3, 3, 0, 3, 3, 3, 3, 2, 2])

### 난수 생성

넘파이의 random 서브패키지는 이외에도 난수를 생성하는 다양한 함수를 제공한다. 그 중 가장 간단하고 많이 사용되는 것은 다음 3가지 함수다.

- rand: 0부터 1사이의 균일 분포
- randn: 표준 정규 분포
- randint: 균일 분포의 정수 난수

In [26]:
np.random.rand(5)

array([0.81122349, 0.64855072, 0.06053139, 0.2377387 , 0.26567649])

### 정규분포 (종모양)
평균: m(뮤)
표준편차: a(시그마)
n(m, a)
표준정규분포
n(0, 1)

In [28]:
np.random.randn(10)

array([ 0.35416444, -0.235704  , -1.06207208, -0.65270214,  1.27772083,
        0.06024998,  0.76973631,  0.66210325,  0.45382781,  1.35590224])

In [29]:
# 10에서 20까지 10개를 찾아라
np.random.randint(10, 20, size=10)

array([18, 18, 14, 13, 11, 19, 18, 17, 19, 15])

### 연습문제 3.5.2

가격이 10,000원인 주식이 있다. 이 주식의 일간 수익률(%)은 기댓값이 0%이고 표준편차가 1%인 표준 정규 분포를 따른다고 하자. 250일 동안의 주가를 무작위로 생성하라

In [36]:
x = np.random.randn(250) * 100 + 10000
x[:10]

array([ 9985.00605427,  9941.26427121,  9941.74054259,  9967.24487812,
        9784.46961182,  9980.28398217, 10091.61717494,  9833.39946393,
        9985.55715562,  9981.13508787])

In [46]:
price = 10000
tomorrow = price * (1 + np.random.randn(1)/100.0)
tomorrow[0]

9920.624827323925

In [49]:
price = 10000
prices = []
for i in range(250):
    tmp = price * (1 + np.random.randn(1)/100.0)
    prices.append(tmp[0])
prices[:10]

[10133.976617829823,
 9912.345259506468,
 10009.944765643286,
 10135.762949047627,
 9993.053261748604,
 9931.217322453962,
 9948.772230387622,
 9942.611675038348,
 10125.036913122238,
 10010.59982602707]

### 정수 데이터 카운팅

unique 함수는 데이터에서 중복된 값을 제거하고 중복되지 않는 값의 리스트를 출력한다. return_counts 인수를 True 로 설정하면 각 값을 가진 데이터 갯수도 출력한다.

In [51]:
np.unique([11, 11, 2, 2, 34, 34])

array([ 2, 11, 34])

In [52]:
a = np.array(['a', 'b', 'b', 'c', 'a'])
index, count = np.unique(a, return_counts=True)

In [53]:
index

array(['a', 'b', 'c'], dtype='<U1')

In [54]:
count

array([2, 2, 1], dtype=int64)

그러나 unique 함수는 데이터에 존재하는 값에 대해서만 갯수를 세므로 데이터 값이 나올 수 있음에도 불구하고 데이터가 하나도 없는 경우에는 정보를 주지 않는다. 예를 들어 주사위를 10번 던졌는데 6이 한 번도 나오지 않으면 이 값을 0으로 세어주지 않는다.

데이터가 주사위를 던졌을 때 나오는 수처럼 특정 범위안의 수인 경우에는 bincount 함수에 minlength 인수를 설정하여 쓰는 것이 더 편리하다. bincount 함수는 0 부터 minlength - 1 까지의 숫자에 대해 각각 카운트를 한다. 데이터가 없을 경우에는 카운트 값이 0이 된다.

In [55]:
np.bincount([1, 1, 2, 2, 2, 3], minlength=6)

array([0, 2, 3, 1, 0, 0], dtype=int64)