### 1.5 난수 발생과 카운팅

In [1]:
import numpy as np

- 시드 설정

In [2]:
np.random.seed(2023)
np.random.random(5)

array([0.3219883 , 0.89042245, 0.58805226, 0.12659609, 0.14134122])

- 데이터의 순서 바꾸기

In [5]:
x = np.arange(10)
np.random.shuffle(x)    # x 데이터의 순서를 바꿈
x

array([5, 6, 4, 0, 7, 3, 2, 9, 8, 1])

- 데이터의 샘플링

In [8]:
np.random.choice(5, 5, replace=False)   # 비복원 추출

array([3, 1, 4, 2, 0])

In [9]:
np.random.choice(5, 5, replace=True)    # 복원 추출

array([3, 2, 4, 0, 4])

In [10]:
x = np.random.randint(1, 100, 10)       # 1 <= x < 100
x

array([35, 12,  2, 32, 70, 52, 20, 41, 70, 32])

In [11]:
np.random.choice(x, 5, replace=False)

array([41, 70, 35, 20, 12])

- 난수 생성

In [12]:
# random(N) - Uniform 분포, 0 ~ 1 사이의 값 N개
np.random.random(10)

array([0.39172036, 0.11004811, 0.9127915 , 0.35700599, 0.41296218,
       0.18354969, 0.58599027, 0.85567085, 0.78968122, 0.08784242])

In [13]:
# randint(low, high, N) - [low, high) 범위의 정수 N개
np.random.randint(1, 7, 10)

array([5, 3, 5, 1, 5, 2, 4, 5, 1, 5])

In [15]:
# normal(평균, 표준편차, N) - 정규분포 N개
np.random.normal(170, 10, 10)

array([181.67226207, 163.97585636, 166.24095837, 167.08713359,
       160.01620207, 176.03242369, 166.58776424, 169.65713669,
       183.31161153, 157.14453006])

In [16]:
# randn - 표준정규분포 N(0, 1) N개
np.random.randn(10)

array([ 0.55215289,  1.09259703,  1.77210263, -0.1137414 , -1.39798223,
       -0.38444907,  0.45366873, -1.01517303,  0.16824259, -1.26226678])

In [17]:
# binomial(시도횟수, 평균, N) - 이항분포 N개
np.random.binomial(10, 0.5, 20).reshape(4, 5)

array([[5, 6, 8, 4, 6],
       [5, 5, 6, 2, 1],
       [6, 6, 4, 7, 3],
       [4, 3, 6, 6, 2]])

In [18]:
# 가설검정: t-검정 (1-sample T, 2-sample T, paired T)
# Student t(자유도, N)
np.random.standard_t(2, 10)

array([-4.69351722,  0.87950312, 13.60655061, -0.26102413, -1.32482054,
       -1.26550017, -0.82598883, -1.17519698,  0.63656836, -1.01826889])

- 연습문제 3.5.1

In [20]:
# 1. 동전을 10번 던져 앞면(숫자 1)과 뒷면(숫자 0)이 나오는 가상 실험을 파이썬으로 작성한다.
np.random.binomial(1, 0.5, 10)

array([0, 0, 0, 0, 1, 0, 1, 1, 1, 0])

In [21]:
# 2. 주사위를 100번 던져서 나오는 숫자의 평균을 구하라.
dice = np.random.randint(1, 7, 100)
np.mean(dice)

3.37

- 연습문제 3.5.2

In [25]:
# 5개만 먼저 테스트
rate = np.random.normal(0, 0.01, 5)
rate

array([ 0.020472  , -0.01645633,  0.01370705,  0.01217635,  0.0032935 ])

In [27]:
price = 10000
for i in range(5):
    price = price * (1 + rate[i])   # price * (1 + r)
    price = int(round(price, 0))    # 가격의 단위는 원(소숫점 아래 자리는 버림)
    print(price, end=' ')

10205 10037 10175 10299 10333 

In [30]:
# 250개의 수익률 생성
np.random.seed(2023)
rate = np.random.normal(0, 0.01, 250)
rate[:5]

array([ 0.00711674, -0.00324485, -0.01001871,  0.00236251, -0.0010216 ])

In [31]:
# 1. 리스트로 해결
price = 10000
price_list = []
for i in range(250):
    price = price * (1 + rate[i])
    price = int(round(price, 0))
    price_list.append(price)

price_list[-10:]        # 어레이로 만들고 싶으면    np.array(price_list)

[10814, 10893, 10674, 10645, 10588, 10724, 10739, 10686, 10691, 10497]

In [32]:
# 2. 어레이로 해결
price = 10000
price_array = np.empty(250, dtype=int)
for i in range(250):
    price = price * (1 + rate[i])
    price = int(round(price, 0))
    price_array[i] = price

price_array[-10:]

array([10814, 10893, 10674, 10645, 10588, 10724, 10739, 10686, 10691,
       10497])

- 데이터 카운팅

In [36]:
np.random.seed(2023)
dices = np.random.randint(1, 7, 100)

In [37]:
# 고유한 값
np.unique(dices)

array([1, 2, 3, 4, 5, 6])

In [38]:
# 고유한 값과 돗수
np.unique(dices, return_counts=True)

(array([1, 2, 3, 4, 5, 6]), array([16, 18, 13, 15, 19, 19], dtype=int64))

In [39]:
indices, count = np.unique(dices, return_counts=True)
indices * count

array([ 16,  36,  39,  60,  95, 114], dtype=int64)

In [40]:
# 가중 평균
np.sum(indices * count) / np.sum(count)

3.6

In [41]:
np.mean(dices)

3.6

In [42]:
a = np.array(['x', 'y', 'x', 'y', 'z', 'y'])
np.unique(a, return_counts=True)

(array(['x', 'y', 'z'], dtype='<U1'), array([2, 3, 1], dtype=int64))