<a href="https://colab.research.google.com/github/aaingyunii/230620_numpy_continued/blob/main/230620_ch05_04_%EA%B8%B0%EC%88%A0%ED%86%B5%EA%B3%84%2B%EB%82%9C%EC%88%98%EB%B0%9C%EC%83%9D%2B%EC%B9%B4%EC%9A%B4%ED%8C%85.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 기술 통계

## 기술 통계(descriptive statistics)
> 데이터 집합에 대해 통계를 계산
* 데이터의 개수(count)
* 평균(mean, average)
* 분산(variance)
* 표준 편차(standard deviation)
* 최댓값(maximum)
* 최솟값(minimum)
* 중앙값(median)
* 사분위수(quartile)

In [1]:
import numpy as np

In [3]:
x = np.array([
    18, 5, 10, 23, 19, -8, 10, 0, 0, 5, 2, 15, 8,
    2, 5, 4, 15, -1, 4, -7, -24, 7, 9, -6, 23, -13
])
x   #1차원 배열

array([ 18,   5,  10,  23,  19,  -8,  10,   0,   0,   5,   2,  15,   8,
         2,   5,   4,  15,  -1,   4,  -7, -24,   7,   9,  -6,  23, -13])

## 데이터의 개수

In [4]:
len(x)

26

## 표본 평균
* 우리가 일반적으로 아는 평균
* 통계용어로는 표본 평균(sample average, sample mean)
<br>
$
\bar{x} = \frac{1}{N}\displaystyle\sum_{i=1}^{N}{x_i}
$
(𝑁은 데이터의 개수)

In [5]:
np.mean(x), x.mean(), x.sum() / len(x)

(4.8076923076923075, 4.8076923076923075, 4.8076923076923075)

## 표본 분산
* 표본 분산(sample variance) : 데이터와 표본 평균간의 거리의 제곱의 평균
* 표본 분산이 작으면 데이터가 모여있는 것이고 크면 흩어져 있는 것
<br>
$
s^2 = \frac{1}{N}\displaystyle\sum_{i=1}^{N}{(x_i-\bar{x})^2}
$

In [6]:
np.var(x), x.var()

(115.23224852071006, 115.23224852071006)

## 표본 표준편차
* 표본 표준편차(sample standard variance) : 표본 분산의 양의 제곱근 값
<br>
$
s = \sqrt{s^2}
$

In [7]:
np.std(x), x.std()

(10.734628476137871, 10.734628476137871)

## 최댓값과 최솟값

In [9]:
# 최댓값 (maximum) / 최솟값 (minimum)
x.max(), x.min(), np.max(x), np.min(x)

(23, -24, 23, -24)

## 중앙값
* 중앙값(median) : 데이터를 크기대로 정렬하였을 때 가장 가운데에 있는 수
* 만약 데이터의 수가 짝수이면 가장 가운데에 있는 두 수의 평균을 사용


In [13]:
np.median(x)  # 내장 메서드 없음, x.median()불가능

5.0

## 사분위수
* 사분위수(quartile) : 데이터를 가장 작은 수부터 가장 큰 수까지 크기가 커지는 순서대로 정렬하였을 때 1/4, 2/4, 3/4 위치에 있는 수
* 각각 1사분위수, 2사분위수, 3사분위수라고 함
* 1/4의 위치란 전체 데이터의 수가 만약 100개이면 25번째 순서, 즉 하위 25%
* 따라서 2사분위수는 중앙값과 같음
* 때로는 위치를 1/100 단위로 나눈 백분위수(percentile)을 사용하기도 함
* 1사분위수는 25% 백분위수와 같음


In [15]:
np.percentile(x,0)  #최솟값

-24.0

In [16]:
np.percentile(x,25)  # 25% 백분위수, 1사분위수

0.0

In [17]:
np.percentile(x,50), np.median(x)   # 중앙값,중간값, 2사분위수, 50% 백분위수

(5.0, 5.0)

In [21]:
np.percentile(x,75)     # 3사분위수, 75% 백분위수

10.0

In [22]:
np.percentile(x,100), np.max(x)   # 최댓값, 4사분위수, 100% 백분위수

(23.0, 23)

# 난수 발생과 카운팅

## 시드 설정
* 컴퓨터 프로그램에서 발생하는 무작위 수는 사실 엄격한 의미의 무작위 수가 아님
* 어떤 특정한 시작 숫자를 정해 주면 컴퓨터가 정해진 알고리즘에 의해 마치 난수처럼 보이는 수열을 생성. 이런 시작 숫자를 시드(seed)라고 함
* 일단 생성된 난수는 다음번 난수 생성을 위한 시드값이 됨. 따라서 시드값은 한 번만 정해주면 됨.
* 시드는 보통 현재 시각 등을 이용하여 자동으로 정해지지만 사람이 수동으로 설정할 수도 있음 * 특정한 시드값이 사용되면 그 다음에 만들어지는 난수들은 모두 예측할 수 있음
* 고정된 결과를 얻기 위해서 실습엔 시드를 설정

In [37]:
np.random.seed(0)  # 시드값 고정

### `rand` : 0과 1 사이의 난수를 발생


In [38]:
np.random.rand(5) # rand(n) -> n개의 길이를 가지는 배열에 각각 0~1사이의 난수를 채워줌

array([0.5488135 , 0.71518937, 0.60276338, 0.54488318, 0.4236548 ])

In [39]:
np.random.rand(10)

array([0.64589411, 0.43758721, 0.891773  , 0.96366276, 0.38344152,
       0.79172504, 0.52889492, 0.56804456, 0.92559664, 0.07103606])

## 데이터의 순서 변경

### `shuffle`
* 데이터의 순서를 변경
* 자체 변환(in-place) 함수 (원본에 영향)

In [40]:
x = np.arange(10)
x

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [41]:
np.random.shuffle(x)  # x를 섞어줌 -> 사본 만들지 X -> x 배열 자체를 섞는다.
x

array([5, 1, 8, 2, 6, 7, 0, 3, 4, 9])

## 데이터 샘플링
* 표본선택 혹은 샘플링(sampling) : 이미 있는 데이터 집합에서 일부를 무작위로 선택하는 것

### `choice` : 샘플링에 사용
```
numpy.random.choice(a, size=None, replace=True, p=None)
```
* a : 배열이면 원래의 데이터, 정수이면 arange(a) 명령으로 데이터 생성
* size : 정수. 샘플 숫자
* replace : 불리언. True이면 한번 선택한 데이터를 다시 선택 가능 (복원/비복원 추출) True -> 복원 / False -> 비복원
* p : 배열. 각 데이터가 선택될 수 있는 확률

In [42]:
np.random.choice(5, 5, replace = False)   # 5개 중 5개를 선택 -> 비복원 -> shuffle

array([0, 4, 2, 1, 3])

In [43]:
np.random.choice(5, 3, replace = False)   # 5개 중 3개를 선택 -> 비복원 -> shuffle

array([4, 2, 3])

In [52]:
np.random.choice(5, 10, replace = True)   # 5개 중 10개를 선택 -> 복원 -> shuffle

array([1, 4, 2, 3, 0, 3, 2, 3, 0, 0])

In [54]:
np.random.choice(5, 10,p=(0.1,0, 0.3,0.6,0), replace = True)    # p=() 를 통해 각 요소의 확률을 설정할 수 있다.

array([3, 3, 2, 3, 3, 3, 3, 3, 3, 2])

## 난수 생성
* `rand` : 0부터 1 사이의 균일 분포
* `randn` : 표준 정규 분포
* `randint` : 균일 분포의 정수 난수

### `rand` : 0부터 1 사이에서 균일한 확률 분포로 실수 난수를 생성
* 숫자 인수는 생성할 난수의 크기
* 여러 개의 인수를 넣으면 해당 크기를 가진 행렬을 생성

In [58]:
np.random.rand(10)  # 길이가 10인 1차원 배열

array([0.46924917, 0.84114013, 0.90464774, 0.03755938, 0.50831545,
       0.16684751, 0.77905102, 0.8649333 , 0.41139672, 0.13997259])

In [59]:
np.random.rand(3,5) # (3,5) 모양의 2차원 배열

array([[0.03322239, 0.98257496, 0.37329075, 0.42007537, 0.05058812],
       [0.36549611, 0.01662797, 0.23074234, 0.7649117 , 0.94412352],
       [0.74999925, 0.33940382, 0.48954894, 0.33898512, 0.17949026]])

### `randn` : 기댓값이 0이고 표준편차가 1인 표준 정규 분포(standard normal distribution)를 따르는 난수를 생성

In [62]:
np.random.randn(10)

array([ 1.15184215,  0.13804288, -0.14780553,  1.68382745,  0.97183213,
        1.60767401, -0.25712774,  1.80981769,  0.8923485 , -0.09657613])

In [63]:
np.random.randn(3,5)

array([[-0.37715702, -0.50529774, -1.36267113,  1.13312703, -0.70068976],
       [-1.7683479 ,  0.34041728,  0.72924169, -1.08835382, -2.87777873],
       [-0.66147769,  0.70592839, -0.35859784,  0.73198245, -0.03636653]])

### `randint`
```
numpy.random.randint(low, high=None, size=None)
```
만약 `high`를 입력하지 않으면 0과 `low`사이의 숫자, `high`를 입력하면 `low`와 `high`는 사이의 숫자를 출력. `size`는 난수의 숫자

In [66]:
np.random.randint(10) # 최댓값 -> 그것보다 작은 범위에서의 랜덤 숫자, size=1 default
# 끝점은 제외

8

In [67]:
np.random.randint(10,size=10)

array([5, 0, 8, 5, 4, 7, 4, 1, 3, 3])

In [69]:
np.random.randint(10,20,size=10)

array([16, 15, 10, 10, 13, 11, 19, 19, 16, 16])

In [70]:
np.random.randint(10, 20, size=(3,5))

array([[17, 18, 18, 17, 10],
       [18, 16, 18, 19, 18],
       [13, 16, 11, 17, 14]])

## 💡 연습문제 7
1. 동전을 10번 던져 앞면(숫자 1)과 뒷면(숫자 0)이 나오는 가상 실험을 작성하라
2. 주사위를 100번 던져서 나오는 숫자의 평균
3. 가격이 10,000원인 주식이 있다. 이 주식의 일간 수익률(%)은 기댓값이 0%이고 표준편차가 1%인 표준 정규 분포를 따른다고 하자. 250일 동안의 주가를 무작위로 생성하라

In [76]:
# 1.
np.random.choice(['HEAD','TAIL'],10,replace = True)

array(['TAIL', 'HEAD', 'HEAD', 'TAIL', 'TAIL', 'TAIL', 'HEAD', 'HEAD',
       'TAIL', 'TAIL'], dtype='<U4')

In [75]:
# 2.
a = np.random.randint(1,6,100)
print(a)
a.mean()

[5 2 4 2 4 3 5 2 5 2 5 2 3 3 4 2 3 3 5 3 3 4 1 5 3 1 1 3 4 2 4 3 5 2 2 3 3
 5 4 5 3 5 3 2 5 1 2 1 3 1 4 3 1 3 4 1 1 2 1 1 3 4 5 4 4 1 5 5 4 3 5 5 4 2
 5 4 2 4 4 3 1 2 1 2 2 5 3 3 4 1 4 3 4 3 3 2 4 2 4 3]


3.09

In [80]:
# 3.
np.random.randn(250)  # 정규분포
# 평균(기댓값)이 0이고, 표준편차가 1인 정규분포. 1% -> 0.01

array([ 0.19542732,  0.88308214, -0.21375045,  0.18549847, -0.43496697,
        0.22340882, -1.54575857,  0.74248006,  0.82212466, -0.13879081,
        1.79634011, -0.56054016, -0.58251659, -2.42203947,  1.38143418,
        0.19999839, -0.37114816,  0.97271041, -0.23967655, -1.69813521,
       -0.53486028,  0.20071687,  0.49822632,  1.10275456,  1.03827778,
        0.90845349,  2.34373684,  2.25250633, -0.99866621, -1.21859544,
        1.47891627, -0.51057994,  1.99225765, -0.1254445 , -0.19507484,
       -0.240614  , -0.56594177, -1.5770323 ,  1.32629646,  0.91903778,
        1.16765145, -0.22799261, -0.24403064, -0.09315488, -0.17217058,
       -0.67821443, -0.24977826,  1.55756892,  0.74275657, -0.44376291,
       -0.96357356,  0.88917874,  1.23725419,  0.17552763,  1.13944448,
        0.03398465, -0.83277398,  1.2887339 , -0.17185518,  0.53883768,
        1.97857012,  0.88902021,  0.19914095, -1.78366635,  1.71287327,
       -0.96326188,  1.36908831,  0.4721129 , -0.88036755,  0.03

In [81]:
a = np.random.randn(250) / 100  # 일간 수익률이 표준정규분포를 따르는 (0과 0.01 표준편차)
a

array([ 6.16693484e-03, -4.83124794e-04, -2.63599390e-02,  7.61695042e-03,
        3.39616645e-03,  7.04954506e-03, -1.77604715e-03, -6.62945346e-03,
       -4.81292379e-03,  2.82162753e-03, -1.97998382e-02,  7.05875100e-04,
        3.16518157e-04, -3.16807946e-03, -8.42660878e-03,  8.09208583e-03,
       -6.15203658e-03,  3.95073786e-03,  2.81736725e-03,  7.02239354e-04,
        4.48598034e-03, -1.05500120e-02, -2.93096159e-02, -1.57882459e-03,
        2.14352836e-03,  1.48138574e-02, -1.30837000e-02, -2.06759510e-03,
        1.00685306e-03, -6.51130021e-03, -9.92551905e-03, -7.48094255e-03,
       -6.37516124e-03, -2.05942357e-03, -6.40029520e-03, -5.56361846e-03,
        8.02066648e-03,  1.30762130e-02, -6.57765434e-03, -7.50422627e-03,
        1.67921568e-02, -1.57022838e-02,  4.84574151e-03, -3.03721222e-03,
       -1.54884228e-02, -6.86048242e-03, -1.54123621e-03, -2.05925617e-02,
       -4.10652750e-04, -4.10497699e-03, -3.91816455e-03, -7.62690187e-03,
       -7.08212776e-03,  

In [82]:
start = 10000  # 가격이 10000원 -> 250일 -> 평균/표준편차가 반영되면서 250일.

price = np.empty(250)  # 자리

for i, v in enumerate(a): # a -> 가격이 0의 기댓값, 1%의 표준편차를 바탕으로 250일치의 변화율이 생성

    start *= (1 + v)  # i = index, v = 변화율
    # -> 해당 금액의 변화율이 반영된 금액

    price[i] = start  # 변화율에 따라서 변경된 금액에 배열에 저장.
    # 한 번씩 for이 돌때마다 -> index += 1 => 계속 변화율이 반영된 금액들이 다음 인덱스에 저장

In [83]:
price

array([10061.66934845, 10056.80830651,  9791.71145332,  9866.29443398,
        9899.8020121 ,  9969.59111246,  9951.88464861,  9885.90909247,
        9838.32896537,  9866.08906521,  9670.74209818,  9677.56843422,
        9680.63156035,  9649.96255037,  9568.64609122,  9646.07639665,
        9586.73338179,  9624.60805228,  9651.72410784,  9658.50192835,
        9701.82977809,  9599.47535722,  9318.11842138,  9303.40674692,
        9323.34886312,  9461.46362401,  9337.67267281,  9318.36614651,
        9327.74837199,  9267.01260204,  9175.0326919 ,  9106.39479948,
        9048.34006435,  9029.70569953,  8971.91291749,  8921.99661713,
        8993.55697635,  9111.1586427 ,  9051.22859054,  8983.30612316,
        9134.1552079 ,  8990.7281101 ,  9034.29485453,  9006.85578378,
        8867.35379288,  8806.5194681 ,  8792.94654137,  8611.87724709,
        8608.34075602,  8573.0037153 ,  8539.41327609,  8474.28400898,
        8414.26804693,  8496.2666613 ,  8560.66039047,  8472.26265255,
      

## 정수 데이터 카운팅
* 만약 난수가 정수값이면 unique 명령이나 bincount 명령으로 데이터 값을 분석

### `unique`
* unique 함수는 데이터에서 중복된 값을 제거하고 중복되지 않는 값의 리스트를 출력
* return_counts 인수를 True 로 설정하면 각 값을 가진 데이터 갯수도 출력


In [84]:
np.unique([11,11,2,2,34,34])

array([ 2, 11, 34])

In [85]:
a= np.array(list('abbca'))
a

array(['a', 'b', 'b', 'c', 'a'], dtype='<U1')

In [86]:
np.unique(a, return_counts=True)

(array(['a', 'b', 'c'], dtype='<U1'), array([2, 2, 1]))

In [94]:
index, value = np.unique(a, return_counts = True)
index, value

(array(['a', 'b', 'c'], dtype='<U1'), array([2, 2, 1]))

In [95]:
list(zip(index,value))    # 같은 인덱스에 있는 값끼리 튜플화시켜서 묶어줌
# index, value == *np.unique(a, return_counts=True)

[('a', 2), ('b', 2), ('c', 1)]

In [99]:
# dict(np.unique(a, return_counts=True))  #ValueError: dictionary update sequence element #0 has length 3; 2 is required

In [100]:
dict(zip(*np.unique(a, return_counts=True)))

{'a': 2, 'b': 2, 'c': 1}

### `bincount`
* `unique` 함수는 데이터에 존재하는 값에 대해서만 갯수를 세므로 데이터 값이 나올 수 있음에도 불구하고 데이터가 하나도 없는 경우에는 정보를 주지 않음
* 따라서 데이터가 주사위를 던졌을 때 나오는 수처럼 특정 범위안의 수인 경우에는 `bincount` 함수에 `minlength` 인수를 설정하여 쓰는 것이 더 편리
* `bincount` 함수는 0 부터 `minlength` - 1 까지의 숫자에 대해 각각 카운트
* 데이터가 없을 경우에는 카운트 값이 0이 됨

In [101]:
np.bincount([1,1,2,2,2,3], minlength=6)

array([0, 2, 3, 1, 0, 0])