<a href="https://colab.research.google.com/github/shims94/230620_numpy_02/blob/main/230620_%EA%B8%B0%EC%88%A0%ED%86%B5%EA%B3%84.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 기술 통계

## 기술 통계(descriptive statistics)
> 데이터 집합에 대해 통계를 계산
* 데이터의 개수(count)
* 평균(mean, average)
* 분산(variance)
* 표준 편차(standard deviation)
* 최댓값(maximum)
* 최솟값(minimum)
* 중앙값(median)
* 사분위수(quartile)

In [1]:
import numpy as np

In [2]:
x = np.array([
    18, 5, 10, 23, 19, -8, 10, 0, 0, 5, 2, 15, 8,
    2, 5, 4, 15, -1, 4, -7, -24, 7, 9, -6, 23, -13
])
x

array([ 18,   5,  10,  23,  19,  -8,  10,   0,   0,   5,   2,  15,   8,
         2,   5,   4,  15,  -1,   4,  -7, -24,   7,   9,  -6,  23, -13])

## 데이터의 개수

In [3]:
len(x)

26

## 표본 평균
* 우리가 일반적으로 아는 평균
* 통계용어로는 표본 평균(sample average, sample mean)
<br>
$
\bar{x} = \frac{1}{N}\displaystyle\sum_{i=1}^{N}{x_i}
$
(𝑁은 데이터의 개수)

In [4]:
np.mean(x), x.mean()

(4.8076923076923075, 4.8076923076923075)

## 표본 분산
* 표본 분산(sample variance) : 데이터와 표본 평균간의 거리의 제곱의 평균
* 표본 분산이 작으면 데이터가 모여있는 것이고 크면 흩어져 있는 것
<br>
$
s^2 = \frac{1}{N}\displaystyle\sum_{i=1}^{N}{(x_i-\bar{x})^2}
$

In [5]:
np.var(x), x.var()

(115.23224852071006, 115.23224852071006)

## 표본 표준편차
* 표본 표준편차(sample standard variance) : 표본 분산의 양의 제곱근 값
<br>
$
s = \sqrt{s^2}
$

In [6]:
np.std(x), x.std()

(10.734628476137871, 10.734628476137871)

## 최댓값과 최솟값

In [7]:
# 최댓값 (maximum) / 최솟값 (minimum)
np.max(x), x.max(), np.min(x), x.min()

(23, 23, -24, -24)

## 중앙값
* 중앙값(median) : 데이터를 크기대로 정렬하였을 때 가장 가운데에 있는 수
* 만약 데이터의 수가 짝수이면 가장 가운데에 있는 두 수의 평균을 사용


In [8]:
np.median(x)  # 내장 메소드 X.

5.0

## 사분위수
* 사분위수(quartile) : 데이터를 가장 작은 수부터 가장 큰 수까지 크기가 커지는 순서대로 정렬하였을 때 1/4, 2/4, 3/4 위치에 있는 수
* 각각 1사분위수, 2사분위수, 3사분위수라고 함
* 1/4의 위치란 전체 데이터의 수가 만약 100개이면 25번째 순서, 즉 하위 25%
* 따라서 2사분위수는 중앙값과 같음
* 때로는 위치를 1/100 단위로 나눈 백분위수(percentile)을 사용하기도 함
* 1사분위수는 25% 백분위수와 같음


In [9]:
np.percentile(x, 0)  # 최솟값. min

-24.0

In [10]:
np.percentile(x, 25)  # 25% 백분위수, 1사분위수

0.0

In [11]:
np.percentile(x, 50)  # 50% 백분위수, 2사분위수, 중앙값

5.0

In [12]:
np.percentile(x, 75)  # 75% 백분위수, 3사분위수

10.0

In [13]:
np.percentile(x, 100)  # 100% 백분위수, 4사분위수, 최댓값

23.0

# 난수 발생과 카운팅

## 시드 설정
* 컴퓨터 프로그램에서 발생하는 무작위 수는 사실 엄격한 의미의 무작위 수가 아님
* 어떤 특정한 시작 숫자를 정해 주면 컴퓨터가 정해진 알고리즘에 의해 마치 난수처럼 보이는 수열을 생성. 이런 시작 숫자를 시드(seed)라고 함
* 일단 생성된 난수는 다음번 난수 생성을 위한 시드값이 됨. 따라서 시드값은 한 번만 정해주면 됨.
* 시드는 보통 현재 시각 등을 이용하여 자동으로 정해지지만 사람이 수동으로 설정할 수도 있음 * 특정한 시드값이 사용되면 그 다음에 만들어지는 난수들은 모두 예측할 수 있음
* 고정된 결과를 얻기 위해서 실습엔 시드를 설정

In [14]:
np.random.seed(0)  # 시드값 고정

### `rand` : 0과 1 사이의 난수를 발생

In [15]:
np.random.rand(5)  # rand(n) : n개의 길이를 가지는 배열에 각각 0~1 사이의 난수를 채워줌

array([0.5488135 , 0.71518937, 0.60276338, 0.54488318, 0.4236548 ])

In [16]:
np.random.rand(10)

array([0.64589411, 0.43758721, 0.891773  , 0.96366276, 0.38344152,
       0.79172504, 0.52889492, 0.56804456, 0.92559664, 0.07103606])

## 데이터의 순서 변경

### `shuffle`
* 데이터의 순서를 변경
* 자체 변환(in-place) 함수 (원본에 영향)

In [17]:
x = np.arange(10)
x

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [18]:
np.random.shuffle(x)  # x를 섞어줌 -> x 자체를 섞어버림
x

array([5, 1, 8, 2, 6, 7, 0, 3, 4, 9])

## 데이터 샘플링
* 표본선택 혹은 샘플링(sampling) : 이미 있는 데이터 집합에서 일부를 무작위로 선택하는 것

### `choice` : 샘플링에 사용
```
numpy.random.choice(a, size=None, replace=True, p=None)
```
* a : 배열이면 원래의 데이터, 정수이면 arange(a) 명령으로 데이터 생성
* size : 정수. 샘플 숫자
* replace : 불리언. True이면 한번 선택한 데이터를 다시 선택 가능 (복원/비복원 추출)
* p : 배열. 각 데이터가 선택될 수 있는 확률

In [19]:
np.random.choice(5, 5, replace=False)  # 5개 중에 5개를 선택 -> 비복원 -> shuffle

array([0, 4, 2, 1, 3])

In [20]:
np.random.choice(5, 3, replace=False)  # 5개 중에 3개를 선택 -> 비복원

array([4, 2, 3])

In [21]:
# np.random.choice(5, 10) # 복원, 5개 중에 10개를 선택 (뽑았던 것을 또 뽑는다)
np.random.choice(5, 10, replace=True) # 복원, 5개 중에 10개를 선택 (뽑았던 것을 또 뽑는다)

array([0, 2, 4, 3, 3, 2, 4, 2, 0, 0])

In [22]:
# [0, 1, 2, 3, 4]
np.random.choice(5, 10, p=[0.1, 0, 0.3, 0.6, 0]) # 복원, 5개 중에 10개를 선택 (뽑았던 것을 또 뽑는다)

array([2, 2, 2, 2, 3, 3, 3, 3, 0, 3])

## 난수 생성
* `rand` : 0부터 1 사이의 균일 분포
* `randn` : 표준 정규 분포
* `randint` : 균일 분포의 정수 난수

### `rand` : 0부터 1 사이에서 균일한 확률 분포로 실수 난수를 생성
* 숫자 인수는 생성할 난수의 크기
* 여러 개의 인수를 넣으면 해당 크기를 가진 행렬을 생성

In [23]:
np.random.rand(10)

array([0.65314004, 0.17090959, 0.35815217, 0.75068614, 0.60783067,
       0.32504723, 0.03842543, 0.63427406, 0.95894927, 0.65279032])

In [24]:
np.random.rand(3, 5)

array([[0.63505887, 0.99529957, 0.58185033, 0.41436859, 0.4746975 ],
       [0.6235101 , 0.33800761, 0.67475232, 0.31720174, 0.77834548],
       [0.94957105, 0.66252687, 0.01357164, 0.6228461 , 0.67365963]])

### `randn` : 기댓값이 0이고 표준편차가 1인 표준 정규 분포(standard normal distribution)를 따르는 난수를 생성

In [25]:
np.random.randn(10)

array([-0.68658948,  0.01487332, -0.3756659 , -0.03822364,  0.36797447,
       -0.0447237 , -0.30237513, -2.2244036 ,  0.72400636,  0.35900276])

In [26]:
np.random.randn(3, 5)

array([[ 1.07612104,  0.19214083,  0.85292596,  0.01835718,  0.42830357],
       [ 0.99627783, -0.49114966,  0.71267817,  1.11334035, -2.15367459],
       [-0.41611148, -1.07089699,  0.22113881, -1.12305712, -1.05075796]])

### `randint`
```
numpy.random.randint(low, high=None, size=None)
```
만약 `high`를 입력하지 않으면 0과 `low`사이의 숫자, `high`를 입력하면 `low`와 `high`는 사이의 숫자를 출력. `size`는 난수의 숫자

In [27]:
np.random.randint(10)  # 최대값 -> 그것보다 작은 범위에서의 랜덤 숫자 (끝점 제외)
# np.random.randint(10, size=1)  # 최대값 -> 그것보다 작은 범위에서의 랜덤 숫자

0

In [28]:
np.random.randint(10, size=10)  # 시작점

array([8, 8, 3, 8, 2, 8, 4, 3, 0, 4])

In [29]:
np.random.randint(10, 20, size=10)  # 시작점, 끝점

array([13, 16, 19, 18, 10, 18, 15, 19, 10, 19])

In [30]:
x = np.array([
    18, 5, 10, 23, 19, -8, 10, 0, 0, 5, 2, 15, 8,
    2, 5, 4, 15, -1, 4, -7, -24, 7, 9, -6, 23, -13
])
x

array([ 18,   5,  10,  23,  19,  -8,  10,   0,   0,   5,   2,  15,   8,
         2,   5,   4,  15,  -1,   4,  -7, -24,   7,   9,  -6,  23, -13])

## 💡 연습문제 7
1. 동전을 10번 던져 앞면(숫자 1)과 뒷면(숫자 0)이 나오는 가상 실험을 작성하라
2. 주사위를 100번 던져서 나오는 숫자의 평균
3. 가격이 10,000원인 주식이 있다. 이 주식의 일간 수익률(%)은 기댓값이 0%이고 표준편차가 1%인 표준 정규 분포를 따른다고 하자. 250일 동안의 주가를 무작위로 생성하라

In [32]:
# 1.
np.random.choice([0,1], size = 10, replace = True)

array([1, 0, 1, 1, 1, 1, 0, 0, 1, 1])

In [None]:
# 2.
np.random.randint(1,7,100).mean()

3.66

In [36]:
# 3.
a = np.random.randn(250) / 100  # 일간 수익률이 표준정귶분포를 따르는 (0과 0.01 표준편차)
a

array([ 7.84208626e-03, -1.95417204e-03, -1.26459544e-02,  8.56933176e-03,
       -4.93994346e-03,  1.46366584e-04, -1.60646646e-02,  1.61989515e-03,
        5.35038317e-03,  8.30588610e-03,  1.04362959e-02, -7.60947295e-03,
       -8.54313176e-04, -7.89963635e-03, -4.70839626e-03, -1.03305371e-02,
       -2.31186710e-03, -1.61024346e-02,  1.43060190e-02, -1.72538572e-02,
        3.59249589e-03,  8.81934954e-03,  2.05013088e-03,  1.21136351e-02,
       -2.16942319e-02, -3.35021039e-03, -1.71697153e-02, -1.46186553e-02,
       -5.71102085e-03, -1.96792820e-02,  6.08832004e-04,  4.48718882e-03,
       -2.28156367e-02, -7.88809508e-03,  1.18727088e-02, -9.41222103e-03,
       -1.28229697e-03,  1.27238613e-02, -8.02994742e-03,  1.02230320e-02,
        1.50787592e-02, -9.23341696e-03,  6.58777556e-03,  1.28597256e-02,
       -1.15506703e-02,  1.18876454e-03,  1.03214498e-02,  5.39952432e-03,
       -2.25126119e-02, -3.43617256e-03, -6.79435318e-04,  1.17658723e-02,
       -1.51501515e-02, -

array([ 9968.24569061,  9805.52172515,  9798.93887103,  9944.87995133,
        9996.72298327, 10057.89564959,  9922.96930879,  9970.29178757,
        9985.09264399, 10037.91830117, 10080.34141693,  9943.27087728,
        9939.15428244,  9863.82832836,  9858.88811928,  9770.41436592,
        9898.64815922,  9813.6215047 ,  9725.40272392,  9732.65655233,
        9627.82619918,  9586.94035449,  9507.37214356,  9641.53752326,
        9717.30109408,  9711.71660794,  9673.72271651,  9764.74447753,
        9804.31162059,  9853.14223038,  9850.56147198,  9684.2613353 ,
        9673.36983564,  9621.86011642,  9683.9264325 ,  9781.91250933,
        9717.55231377,  9763.06789394,  9932.54293905,  9866.22208637,
       10032.16422056,  9946.63140825,  9948.91513051,  9947.80626305,
        9948.95015133,  9865.60998051,  9807.28616123,  9741.80092199,
        9773.65296712,  9805.90945388, 10024.18353955, 10161.61399384,
       10109.8056916 , 10142.64937851, 10243.78355919, 10246.91834384,
      

In [None]:
start = 10000 # 가격이 10000원 250일 평균/표준편차가 반영되면서 250일
price = np.empty(250) # 자리
for i, v in enumerate(a):
  start += (1 + v) # i = index, v = 변화율
  # -> 해당 금액의 변화율이 반영된 금액이다
  price[i] = start # 변화율에 따라서 변경된 금액에 배열에 저장


## 정수 데이터 카운팅
* 만약 난수가 정수값이면 unique 명령이나 bincount 명령으로 데이터 값을 분석

### `unique`
* unique 함수는 데이터에서 중복된 값을 제거하고 중복되지 않는 값의 리스트를 출력
* return_counts 인수를 True 로 설정하면 각 값을 가진 데이터 갯수도 출력


array([ 2, 11, 34])

array(['a', 'b', 'c'], dtype='<U1')

array([2, 2, 1])

### `bincount`
* `unique` 함수는 데이터에 존재하는 값에 대해서만 갯수를 세므로 데이터 값이 나올 수 있음에도 불구하고 데이터가 하나도 없는 경우에는 정보를 주지 않음
* 따라서 데이터가 주사위를 던졌을 때 나오는 수처럼 특정 범위안의 수인 경우에는 `bincount` 함수에 `minlength` 인수를 설정하여 쓰는 것이 더 편리
* `bincount` 함수는 0 부터 `minlength` - 1 까지의 숫자에 대해 각각 카운트
* 데이터가 없을 경우에는 카운트 값이 0이 됨

array([0, 2, 3, 1, 0, 0])

# 기술 통계

## 기술 통계(descriptive statistics)
> 데이터 집합에 대해 통계를 계산
* 데이터의 개수(count)
* 평균(mean, average)
* 분산(variance)
* 표준 편차(standard deviation)
* 최댓값(maximum)
* 최솟값(minimum)
* 중앙값(median)
* 사분위수(quartile)

In [None]:
import numpy as np

In [None]:
x = np.array([
    18, 5, 10, 23, 19, -8, 10, 0, 0, 5, 2, 15, 8,
    2, 5, 4, 15, -1, 4, -7, -24, 7, 9, -6, 23, -13
])
x

array([ 18,   5,  10,  23,  19,  -8,  10,   0,   0,   5,   2,  15,   8,
         2,   5,   4,  15,  -1,   4,  -7, -24,   7,   9,  -6,  23, -13])

## 데이터의 개수

In [None]:
len(x)

26

## 표본 평균
* 우리가 일반적으로 아는 평균
* 통계용어로는 표본 평균(sample average, sample mean)
<br>
$
\bar{x} = \frac{1}{N}\displaystyle\sum_{i=1}^{N}{x_i}
$
(𝑁은 데이터의 개수)

In [None]:
np.mean(x), x.mean()

(4.8076923076923075, 4.8076923076923075)

## 표본 분산
* 표본 분산(sample variance) : 데이터와 표본 평균간의 거리의 제곱의 평균
* 표본 분산이 작으면 데이터가 모여있는 것이고 크면 흩어져 있는 것
<br>
$
s^2 = \frac{1}{N}\displaystyle\sum_{i=1}^{N}{(x_i-\bar{x})^2}
$

In [None]:
np.var(x), x.var()

(115.23224852071006, 115.23224852071006)

## 표본 표준편차
* 표본 표준편차(sample standard variance) : 표본 분산의 양의 제곱근 값
<br>
$
s = \sqrt{s^2}
$

In [None]:
np.std(x), x.std()

(10.734628476137871, 10.734628476137871)

## 최댓값과 최솟값

In [None]:
# 최댓값 (maximum) / 최솟값 (minimum)
np.max(x), x.max(), np.min(x), x.min()

(23, 23, -24, -24)

## 중앙값
* 중앙값(median) : 데이터를 크기대로 정렬하였을 때 가장 가운데에 있는 수
* 만약 데이터의 수가 짝수이면 가장 가운데에 있는 두 수의 평균을 사용


In [None]:
np.median(x)  # 내장 메소드 X.

5.0

## 사분위수
* 사분위수(quartile) : 데이터를 가장 작은 수부터 가장 큰 수까지 크기가 커지는 순서대로 정렬하였을 때 1/4, 2/4, 3/4 위치에 있는 수
* 각각 1사분위수, 2사분위수, 3사분위수라고 함
* 1/4의 위치란 전체 데이터의 수가 만약 100개이면 25번째 순서, 즉 하위 25%
* 따라서 2사분위수는 중앙값과 같음
* 때로는 위치를 1/100 단위로 나눈 백분위수(percentile)을 사용하기도 함
* 1사분위수는 25% 백분위수와 같음


In [None]:
np.percentile(x, 0)  # 최솟값. min

-24.0

In [None]:
np.percentile(x, 25)  # 25% 백분위수, 1사분위수

0.0

In [None]:
np.percentile(x, 50)  # 50% 백분위수, 2사분위수, 중앙값

5.0

In [None]:
np.percentile(x, 75)  # 75% 백분위수, 3사분위수

10.0

In [None]:
np.percentile(x, 100)  # 100% 백분위수, 4사분위수, 최댓값

23.0

# 난수 발생과 카운팅

## 시드 설정
* 컴퓨터 프로그램에서 발생하는 무작위 수는 사실 엄격한 의미의 무작위 수가 아님
* 어떤 특정한 시작 숫자를 정해 주면 컴퓨터가 정해진 알고리즘에 의해 마치 난수처럼 보이는 수열을 생성. 이런 시작 숫자를 시드(seed)라고 함
* 일단 생성된 난수는 다음번 난수 생성을 위한 시드값이 됨. 따라서 시드값은 한 번만 정해주면 됨.
* 시드는 보통 현재 시각 등을 이용하여 자동으로 정해지지만 사람이 수동으로 설정할 수도 있음 * 특정한 시드값이 사용되면 그 다음에 만들어지는 난수들은 모두 예측할 수 있음
* 고정된 결과를 얻기 위해서 실습엔 시드를 설정

In [None]:
np.random.seed(0)  # 시드값 고정

### `rand` : 0과 1 사이의 난수를 발생

In [None]:
np.random.rand(5)  # rand(n) : n개의 길이를 가지는 배열에 각각 0~1 사이의 난수를 채워줌

array([0.5488135 , 0.71518937, 0.60276338, 0.54488318, 0.4236548 ])

In [None]:
np.random.rand(10)

array([0.64589411, 0.43758721, 0.891773  , 0.96366276, 0.38344152,
       0.79172504, 0.52889492, 0.56804456, 0.92559664, 0.07103606])

## 데이터의 순서 변경

### `shuffle`
* 데이터의 순서를 변경
* 자체 변환(in-place) 함수 (원본에 영향)

In [None]:
x = np.arange(10)
x

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [None]:
np.random.shuffle(x)  # x를 섞어줌 -> x 자체를 섞어버림
x

array([5, 1, 8, 2, 6, 7, 0, 3, 4, 9])

## 데이터 샘플링
* 표본선택 혹은 샘플링(sampling) : 이미 있는 데이터 집합에서 일부를 무작위로 선택하는 것

### `choice` : 샘플링에 사용
```
numpy.random.choice(a, size=None, replace=True, p=None)
```
* a : 배열이면 원래의 데이터, 정수이면 arange(a) 명령으로 데이터 생성
* size : 정수. 샘플 숫자
* replace : 불리언. True이면 한번 선택한 데이터를 다시 선택 가능 (복원/비복원 추출)
* p : 배열. 각 데이터가 선택될 수 있는 확률

In [None]:
np.random.choice(5, 5, replace=False)  # 5개 중에 5개를 선택 -> 비복원 -> shuffle

array([0, 4, 2, 1, 3])

In [None]:
np.random.choice(5, 3, replace=False)  # 5개 중에 3개를 선택 -> 비복원

array([4, 2, 3])

In [None]:
# np.random.choice(5, 10) # 복원, 5개 중에 10개를 선택 (뽑았던 것을 또 뽑는다)
np.random.choice(5, 10, replace=True) # 복원, 5개 중에 10개를 선택 (뽑았던 것을 또 뽑는다)

array([0, 2, 4, 3, 3, 2, 4, 2, 0, 0])

In [None]:
# [0, 1, 2, 3, 4]
np.random.choice(5, 10, p=[0.1, 0, 0.3, 0.6, 0]) # 복원, 5개 중에 10개를 선택 (뽑았던 것을 또 뽑는다)

array([2, 2, 2, 2, 3, 3, 3, 3, 0, 3])

## 난수 생성
* `rand` : 0부터 1 사이의 균일 분포
* `randn` : 표준 정규 분포
* `randint` : 균일 분포의 정수 난수

### `rand` : 0부터 1 사이에서 균일한 확률 분포로 실수 난수를 생성
* 숫자 인수는 생성할 난수의 크기
* 여러 개의 인수를 넣으면 해당 크기를 가진 행렬을 생성

In [None]:
np.random.rand(10)

array([0.65314004, 0.17090959, 0.35815217, 0.75068614, 0.60783067,
       0.32504723, 0.03842543, 0.63427406, 0.95894927, 0.65279032])

In [None]:
np.random.rand(3, 5)

array([[0.63505887, 0.99529957, 0.58185033, 0.41436859, 0.4746975 ],
       [0.6235101 , 0.33800761, 0.67475232, 0.31720174, 0.77834548],
       [0.94957105, 0.66252687, 0.01357164, 0.6228461 , 0.67365963]])

### `randn` : 기댓값이 0이고 표준편차가 1인 표준 정규 분포(standard normal distribution)를 따르는 난수를 생성

In [None]:
np.random.randn(10)

array([-0.68658948,  0.01487332, -0.3756659 , -0.03822364,  0.36797447,
       -0.0447237 , -0.30237513, -2.2244036 ,  0.72400636,  0.35900276])

In [None]:
np.random.randn(3, 5)

array([[ 1.07612104,  0.19214083,  0.85292596,  0.01835718,  0.42830357],
       [ 0.99627783, -0.49114966,  0.71267817,  1.11334035, -2.15367459],
       [-0.41611148, -1.07089699,  0.22113881, -1.12305712, -1.05075796]])

### `randint`
```
numpy.random.randint(low, high=None, size=None)
```
만약 `high`를 입력하지 않으면 0과 `low`사이의 숫자, `high`를 입력하면 `low`와 `high`는 사이의 숫자를 출력. `size`는 난수의 숫자

In [None]:
np.random.randint(10)  # 최대값 -> 그것보다 작은 범위에서의 랜덤 숫자 (끝점 제외)
# np.random.randint(10, size=1)  # 최대값 -> 그것보다 작은 범위에서의 랜덤 숫자

8

In [None]:
np.random.randint(10, size=10)  # 시작점

array([8, 3, 8, 2, 8, 4, 3, 0, 4, 3])

In [None]:
np.random.randint(10, 20, size=10)  # 시작점, 끝점

array([16, 19, 18, 10, 18, 15, 19, 10, 19, 16])

In [None]:
np.random.randint(10, 20, size=(3,5))

array([[15, 13, 11, 18, 10],
       [14, 19, 16, 15, 17],
       [18, 18, 19, 12, 18]])

## 💡 연습문제 7
1. 동전을 10번 던져 앞면(숫자 1)과 뒷면(숫자 0)이 나오는 가상 실험을 작성하라
2. 주사위를 100번 던져서 나오는 숫자의 평균
3. 가격이 10,000원인 주식이 있다. 이 주식의 일간 수익률(%)은 기댓값이 0%이고 표준편차가 1%인 표준 정규 분포를 따른다고 하자. 250일 동안의 주가를 무작위로 생성하라

In [None]:
# 1.
np.random.choice([0, 1], size=10, replace=True)

array([0, 0, 1, 0, 1, 0, 1, 1, 0, 0])

In [None]:
np.random.choice(["H", "T"], size=10, replace=True)

array(['H', 'T', 'H', 'H', 'T', 'T', 'T', 'T', 'H', 'T'], dtype='<U1')

In [None]:
# 2.
# np.random.randint(1, 7, 100)
# np.random.randint(1, 7, 100).mean()
np.random.choice(range(1,7), size=100, replace=True).mean()

3.52

In [None]:
# 3.
np.random.randn(250)  # 정규분포!
# 평균(기댓값)이 0이고, 표준편차가 1인 정규분포. 1% -> 0.01

array([ 5.37303358e-01, -1.80641634e-01, -3.51324048e-01, -2.83419039e-01,
        6.87417069e-01, -5.52111259e-02,  4.64463062e-01,  1.21940615e+00,
       -5.59494921e-01, -7.99753646e-01, -6.19564145e-02,  4.78616217e-01,
        5.41855505e-01, -2.76199223e-01,  8.44562604e-03,  4.17933750e-01,
       -7.16912431e-01,  1.65127286e+00,  7.49986156e-01,  1.34023724e+00,
       -1.44060550e+00, -1.97453122e+00, -1.49290445e+00, -4.40193355e-01,
       -7.99284669e-02, -1.03208472e+00,  7.48544811e-01,  2.54969150e+00,
       -5.88179941e-01,  6.12608375e-01, -1.90186505e-01,  2.24924244e+00,
        1.38974492e+00, -5.11201572e-01, -3.47808067e-01,  2.17182257e-01,
       -1.50944590e+00,  3.01069300e-01,  3.75846986e-01, -6.81376135e-01,
        7.20683570e-01,  1.69119050e+00, -6.85184006e-02, -4.66560893e-01,
        5.84712361e-01,  7.95175364e-01,  3.60858129e-01, -4.82413541e-01,
       -3.47699469e-01, -1.26655868e+00, -7.66566456e-01,  2.05729685e-01,
       -6.08372876e-01, -

In [None]:
a = np.random.randn(250) / 100  # 일간 수익률이 표준정규분포를 따르는 (0과 0.01 표준편차)
a

array([-0.01154609, -0.01614361, -0.01453265, -0.01021484,  0.00737634,
        0.00319999,  0.01092688, -0.00794358,  0.0073372 ,  0.00670218,
        0.0050135 , -0.00456125,  0.00040553,  0.00922115, -0.01720215,
        0.00108806, -0.00517229, -0.02308549,  0.01012457,  0.00664704,
        0.00058089, -0.00983818, -0.00096541, -0.00050066,  0.00484718,
        0.00561661,  0.00976254,  0.00256702, -0.00050132,  0.01213628,
        0.00740709,  0.00061205, -0.00268167,  0.00631917, -0.0045058 ,
       -0.00152788,  0.00528646,  0.00589822,  0.00249405, -0.0003409 ,
       -0.00916612,  0.00629795,  0.01190861,  0.00514424,  0.00134779,
        0.01223688,  0.00395996,  0.02616066, -0.00254885, -0.00595866,
        0.00096873, -0.01270893, -0.01875642,  0.00336776, -0.01565554,
        0.01887319, -0.00728759,  0.00201026, -0.00746496,  0.01299394,
       -0.00641203, -0.0052038 , -0.0034883 , -0.00013075, -0.00981377,
       -0.01450624,  0.00320157,  0.01746811,  0.00407325,  0.00

In [None]:
start = 10000  # 가격이 10000원 -> 250일 -> 평균/표준편차가 반영되면서 250일.
price = np.empty(250)  # 자리
for i, v in enumerate(a): # a -> 가격이 0의 기댓값, 1%의 표준편차를 바탕으로 250일치의 변화율이 생성
    start *= (1 + v)  # i = index, v = 변화율
    # -> 해당 금액의 변화율이 반영된 금액
    price[i] = start  # 변화율에 따라서 변경된 금액에 배열에 저장.
    # 한 번씩 for이 돌때마다 -> index += 1 => 계속 변화율이 반영된 금액들이 다음 인덱스에 저장

In [None]:
price

array([ 9884.53909689,  9724.96690836,  9583.6373517 ,  9485.74205865,
        9555.71212754,  9586.29028803,  9691.03851062,  9614.05698112,
        9684.59726481,  9749.50519752,  9798.38430707,  9753.69143633,
        9757.64681857,  9847.62354836,  9678.22325463,  9688.75376369,
        9638.64073783,  9416.12797942,  9511.46220956,  9574.6852764 ,
        9580.24710392,  9485.99487037,  9476.83696948,  9472.09225658,
        9518.00517863,  9571.46411503,  9664.90595457,  9689.71592841,
        9684.85826594,  9802.3964211 ,  9875.00360839,  9881.04763514,
        9854.54992864,  9916.82251791,  9872.13926656,  9857.05584273,
        9909.16472958,  9967.61120748,  9992.47090991,  9989.06445641,
        9897.50353498,  9959.83748267, 10078.44526874, 10130.29119584,
       10143.94472451, 10268.07493045, 10308.73613251, 10578.4195002 ,
       10551.4567055 , 10488.58412508, 10498.74468169, 10365.31688236,
       10170.90060605, 10205.15373918, 10045.3865031 , 10234.97496873,
      

## 정수 데이터 카운팅
* 만약 난수가 정수값이면 unique 명령이나 bincount 명령으로 데이터 값을 분석

### `unique`
* unique 함수는 데이터에서 중복된 값을 제거하고 중복되지 않는 값의 리스트를 출력
* return_counts 인수를 True 로 설정하면 각 값을 가진 데이터 갯수도 출력


In [None]:
np.unique([11, 11, 2, 2, 34, 34])

array([ 2, 11, 34])

In [None]:
a = np.array(list('abbca'))
a

array(['a', 'b', 'b', 'c', 'a'], dtype='<U1')

In [None]:
np.unique(a, return_counts=True)

(array(['a', 'b', 'c'], dtype='<U1'), array([2, 2, 1]))

In [None]:
index, value = np.unique(a, return_counts=True)
index, value

(array(['a', 'b', 'c'], dtype='<U1'), array([2, 2, 1]))

In [None]:
# dict(np.unique(a, return_counts=True))

ValueError: ignored

In [None]:
index, value

(array(['a', 'b', 'c'], dtype='<U1'), array([2, 2, 1]))

In [None]:
list(zip(index, value))  # 같은 인덱스에 있는 값끼리 튜플화시켜서 묶어줌
# index, value == *np.unique(a, return_counts=True)

[('a', 2), ('b', 2), ('c', 1)]

In [None]:
dict(zip(*np.unique(a, return_counts=True)))  # key, value

{'a': 2, 'b': 2, 'c': 1}

### `bincount`
* `unique` 함수는 데이터에 존재하는 값에 대해서만 갯수를 세므로 데이터 값이 나올 수 있음에도 불구하고 데이터가 하나도 없는 경우에는 정보를 주지 않음
* 따라서 데이터가 주사위를 던졌을 때 나오는 수처럼 특정 범위안의 수인 경우에는 `bincount` 함수에 `minlength` 인수를 설정하여 쓰는 것이 더 편리
* `bincount` 함수는 0 부터 `minlength` - 1 까지의 숫자에 대해 각각 카운트
* 데이터가 없을 경우에는 카운트 값이 0이 됨

In [None]:
np.bincount([1, 1, 2, 2, 2, 3], minlength=6) # 1 = 2, 2 = 3, 3 = 1

array([0, 2, 3, 1, 0, 0])