### 5. 난수 발생과 카운팅

In [1]:
import numpy as np

- Seed 설정

In [2]:
np.random.seed(2023)
np.random.random(5)

array([0.3219883 , 0.89042245, 0.58805226, 0.12659609, 0.14134122])

- 데이터의 순서 바꾸기

In [3]:
x = np.arange(10)
x

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [4]:
np.random.shuffle(x)
x

array([7, 4, 3, 2, 8, 9, 1, 6, 0, 5])

- 데이터 샘플링

In [5]:
np.random.choice(5, 5, replace=False)

array([3, 4, 0, 2, 1])

In [6]:
x = np.random.randint(1, 100, 10)
x

array([64, 49, 33, 30, 50, 50, 50, 50, 54, 39])

In [7]:
np.random.choice(x, 5, replace=False)

array([50, 30, 33, 49, 39])

- 난수 생성

In [8]:
# random() - Uniform 분포 : 균등하게 분포 - ~ 1 사이의 값
np.random.random(10)

array([0.40615836, 0.62311131, 0.80221535, 0.09702613, 0.81625998,
       0.02808046, 0.01545164, 0.56690572, 0.59310305, 0.9147945 ])

In [9]:
# randint(low, high, N) - [low, high)  
np.random.randint(1, 7, 10)

array([3, 4, 2, 6, 5, 4, 4, 1, 6, 4])

In [10]:
# normal(평균, 표준편차, N)
# 평균이 170, 표준편차가 10 인 수 10개 뽑기
np.random.normal(170, 10, 10)

array([185.96487698, 163.61237941, 158.66952752, 176.56596945,
       175.95786742, 161.88880354, 166.99465329, 180.08391201,
       159.12237651, 152.12920531])

In [11]:
# randn(N) - 표준정규분포 N(0, 1)
np.random.randn(10)

array([ 3.40618788e-01, -1.25350135e+00,  3.70787945e-01,  4.55253760e-01,
       -2.28372012e+00, -8.22003115e-04,  2.39887598e+00, -2.58310486e+00,
        1.31100884e+00, -1.57947751e+00])

In [12]:
# binomial(시도횟수, 평균, N) - 이항분포 B(N, p)
np.random.binomial(10, 0.5, 20).reshape(4, 5)

array([[5, 3, 5, 4, 2],
       [5, 7, 4, 7, 5],
       [2, 4, 5, 2, 6],
       [4, 6, 6, 4, 6]])

In [13]:
# 가설 검정: t - 검정
# standard_t(자유도, N)
np.random.standard_t(2, 10)

array([ 1.13362133,  0.0377857 ,  5.26959687, -0.19286424,  0.04974982,
        1.39345482, -0.07648627,  0.48344213,  1.44814428,  0.93629622])

In [14]:
# 동전을 10번 던져 앞면(숫자 1)과 뒷면(숫자 0)이 나오는 가상 실험을 파이썬으로 작성한다.
np.random.binomial(1, 0.5, 10)

array([1, 0, 0, 1, 0, 0, 0, 0, 1, 0])

In [15]:
# 주사위를 100번 던져서 나오는 숫자의 평균을 구하라.
np.random.randint(1, 7, 100).mean()

3.31

In [16]:
# 가격이 10,000원인 주식. 일간 수익률(%)은 기댓값이 0%이고 표준편차가 1%인
# 표준 정규 분포를 따른다고 하자. 250일 동안의 주가를 무작위로 생성하라

rate_x = np.random.normal(0, 0.01, 250)


In [17]:
price = 10000
stock = np.zeros_like(rate_x, dtype=int)

for index, val in enumerate(rate_x):
    price = price * ( 1 + val ) 
    stock[index] = price

# print(stock)

In [18]:
# list로 해결
np.random.seed(2023)
rate = np.random.normal(0, 0.01, 250)
rate[:5]

array([ 0.00711674, -0.00324485, -0.01001871,  0.00236251, -0.0010216 ])

In [19]:
# 1. 리스트로 해결
price = 10000
price_list = []
for i in range(250):
    price = price * ( 1 + rate[i])
    price = int(np.round(price))
    price_list.append(price)

price_array = np.array(price_list)
price_array[-10:]

array([10814, 10893, 10674, 10645, 10588, 10724, 10739, 10686, 10691,
       10497])

In [20]:
# 2. numpy array로
price = 10000
price_array2 = np.zeros_like(rate, dtype=int)

for i in range(rate.size):
    price = price * (1 + rate[i])
    price_array2[i] = price

price_array2[-10:]


array([10815, 10894, 10674, 10645, 10588, 10724, 10739, 10686, 10691,
       10497])

- 데이터 카운팅

In [21]:
dices = np.random.randint(1, 7, 100)
np.unique(dices)

array([1, 2, 3, 4, 5, 6])

In [22]:
indices, count = np.unique(dices, return_counts=True)
indices, count

(array([1, 2, 3, 4, 5, 6]), array([ 9, 24, 24, 13, 15, 15], dtype=int64))

In [23]:
# 평균
np.sum(indices * count) / np.sum(count)

3.46

In [24]:
np.mean(dices)

3.46

In [25]:
a = np.array(['a', 'b', 'b', 'c', 'a'])
index, count = np.unique(a, return_counts=True)
index, count

(array(['a', 'b', 'c'], dtype='<U1'), array([2, 2, 1], dtype=int64))

In [26]:
# 앞에는 0 1, 2, 3, 4, 5, 6 에서 한 번도 나오지 않는 수는 0으로 나온다.
np.bincount(dices, minlength=6)

array([ 0,  9, 24, 24, 13, 15, 15], dtype=int64)