### 1.5 난수 발생과 카운팅

In [1]:
import numpy as np

- 시드 설정

In [2]:
np.random.seed(2023)
np.random.random(5)

array([0.3219883 , 0.89042245, 0.58805226, 0.12659609, 0.14134122])

- 데이터의 순서 바꾸기

In [3]:
x = np.arange(10)
np.random.shuffle(x)    # x 데이터의 순서를 바꿈
x

array([7, 4, 3, 2, 8, 9, 1, 6, 0, 5])

- 데이터의 샘플링

In [6]:
np.random.choice(5, 5, replace=False)   # 비복원 추출

array([2, 4, 3, 1, 0])

In [7]:
np.random.choice(5, 5, replace=True)    # 복원 추출

array([4, 0, 0, 4, 1])

In [10]:
x = np.random.randint(1, 100, 10)       # 1 <= x < 100
x

array([ 2, 32, 70, 52, 20, 41, 70, 32, 44,  6])

In [11]:
np.random.choice(x, 5, replace=False)

array([70, 20, 70,  2, 44])

- 난수 생성

In [13]:
# random() - Uniform 분포, 0 ~ 1 사이의 값 N개
np.random.random(10)

array([0.49995114, 0.36425699, 0.48360619, 0.51522459, 0.99464347,
       0.75340344, 0.36581992, 0.61137308, 0.41961135, 0.09167672])

In [14]:
# randint(low, high, N) - [low, high) 범위의 정수 N개
np.random.randint(1, 7, 10)

array([1, 6, 1, 3, 1, 2, 1, 2, 5, 4])

In [15]:
# normal(평균, 표준편차, N) - 정규분포 N개
np.random.normal(170, 10, 10)

array([179.41739428, 174.08110255, 167.98052652, 191.50613657,
       164.40371641, 186.194802  , 164.55017513, 165.36456357,
       148.91530325, 189.21295923])

In [16]:
# randn - 표준정규분포 N(0, 1) N개
np.random.randn(10)

array([ 0.83141425, -1.13348183, -2.33197703, -0.50921416, -1.34637198,
        0.90006549, -0.46832917, -0.22907534,  1.38555994,  1.05501845])

In [18]:
# binomial(시도횟수, 평균, N) - 이항분포 N개
np.random.binomial(10, 0.5, 20).reshape(4, 5)

array([[7, 4, 5, 4, 6],
       [3, 2, 5, 5, 6],
       [5, 3, 6, 5, 4],
       [4, 5, 6, 4, 5]])

In [19]:
# 가설검정: t-검정 (1-sample T, 2-sample T, paired T)
# Student t(자유도, N)
np.random.standard_t(2, 10)

array([-0.9639891 ,  0.5706655 ,  1.46715762, -0.86149343,  6.61391681,
       14.98065979,  0.5572856 ,  0.70375762, -7.09333142, -0.44007214])

- 연습문제 3.5.1
    1. 동전을 10번 던져 앞면(숫자 1)과 뒷면(숫자 0)이 나오는 가상 실험을 파이썬으로 작성한다.
    2. 주사위를 100번 던져서 나오는 숫자의 평균을 구라하.

In [23]:
np.random.binomial(1, 0.5, 10)

array([0, 0, 0, 0, 0, 1, 0, 1, 0, 1])

In [25]:
dice = np.random.randint(1, 7, 100)
np.mean(dice)

3.6

- 연습문제 3.5.2
    - 가격이 10000원인 주식이 있다. 이 주식의 일간 수익률(%)은 기댓값이0%이고 표준편차가 1%인 표준 정규 분포를 따른다고 하자. 250일 동안의 주가를 무작위로 생성하라

In [28]:
# 5개만 먼저 테스트
rate = np.random.normal(0, 0.01, 5)
rate

array([-0.0052876 , -0.01031967, -0.01024466,  0.00028831, -0.02901171])

In [33]:
price = 10000
for i in range(5):
    price = price * (1 + rate[i])     # price * (1 + r)
    price = int(round(price, 0))    # 가격의 단위는 원(소숫점 아래 자리는 버림)
    print(price, end=' ')

9947 9844 9743 9746 9463 

In [36]:
# 250개의 수익률 생성
np.random.seed(2023)
rate = np.random.normal(0, 0.01, 250)
rate[:5]

array([ 0.00711674, -0.00324485, -0.01001871,  0.00236251, -0.0010216 ])

In [37]:
# 1. 리스트로 해결
price = 10000
price_list = []
for i in range(250):
    price = price * (1 + rate[i])
    price = int(round(price, 0))
    price_list.append(price)

price_list[-10:]        # 어레이로 만들고 싶으면 np.array(price_list)

[10814, 10893, 10674, 10645, 10588, 10724, 10739, 10686, 10691, 10497]

In [38]:
# 2. 어레이로 해결
price = 10000
price_array = np.empty(250, dtype=int)
for i in range(250):
    price = price * (1 + rate[i])
    price = int(round(price, 0))
    price_array[i] = price

price_array[-10:]

array([10814, 10893, 10674, 10645, 10588, 10724, 10739, 10686, 10691,
       10497])

- 데이터 카운팅

In [45]:
np.random.seed(2023)
dices = np.random.randint(1, 7, 100)

In [46]:
# 고유한 값
np.unique(dices)

array([1, 2, 3, 4, 5, 6])

In [47]:
# 고유한 값과 돗수
np.unique(dices, return_counts=True)

(array([1, 2, 3, 4, 5, 6]), array([16, 18, 13, 15, 19, 19], dtype=int64))

In [48]:
indices, count = np.unique(dices, return_counts=True)
indices * count

array([ 16,  36,  39,  60,  95, 114], dtype=int64)

In [49]:
# 가중 평균
np.sum(indices * count) / np.sum(count)

3.6

In [50]:
np.mean(dices)

3.6

In [52]:
a = np.array(['X', 'y', 'X', 'y', 'z', 'y'])
np.unique(a, return_counts=True)

(array(['X', 'y', 'z'], dtype='<U1'), array([2, 3, 1], dtype=int64))