<a href="https://colab.research.google.com/github/KHB2937/DataAnalysis/blob/main/kwak/ch05_04_%EA%B8%B0%EC%88%A0%ED%86%B5%EA%B3%84%2B%EB%82%9C%EC%88%98%EB%B0%9C%EC%83%9D%EA%B3%BC%2B%EC%B9%B4%EC%9A%B4%ED%8C%85_wa9_ipynb%EC%9D%98_%EC%82%AC%EB%B3%B8.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 기술 통계

## 기술 통계(descriptive statistics)
> 데이터 집합에 대해 통계를 계산
* 데이터의 개수(count)
* 평균(mean, average)
* 분산(variance)
* 표준 편차(standard deviation)
* 최댓값(maximum)
* 최솟값(minimum)
* 중앙값(median)
* 사분위수(quartile)

In [17]:
import numpy as np

In [2]:
x = np.array([
    18, 5, 10, 23, 19, -8, 10, 0, 0, 5, 2, 15, 8,
    2, 5, 4, 15, -1, 4, -7, -24, 7, 9, -6, 23, -13
])
x

array([ 18,   5,  10,  23,  19,  -8,  10,   0,   0,   5,   2,  15,   8,
         2,   5,   4,  15,  -1,   4,  -7, -24,   7,   9,  -6,  23, -13])

## 데이터의 개수

In [3]:
len(x)

26

## 표본 평균
* 우리가 일반적으로 아는 평균
* 통계용어로는 표본 평균(sample average, sample mean)
<br>
$
\bar{x} = \frac{1}{N}\displaystyle\sum_{i=1}^{N}{x_i}
$
(𝑁은 데이터의 개수)

In [4]:
np.mean(x), x.mean()

(4.8076923076923075, 4.8076923076923075)

## 표본 분산
* 표본 분산(sample variance) : 데이터와 표본 평균간의 거리의 제곱의 평균
* 표본 분산이 작으면 데이터가 모여있는 것이고 크면 흩어져 있는 것
<br>
$
s^2 = \frac{1}{N}\displaystyle\sum_{i=1}^{N}{(x_i-\bar{x})^2}
$

In [5]:
np.var(x)

115.23224852071006

## 표본 표준편차
* 표본 표준편차(sample standard variance) : 표본 분산의 양의 제곱근 값 
<br>
$
s = \sqrt{s^2}
$

In [6]:
np.std(x)

10.734628476137871

## 최댓값과 최솟값

In [7]:
# 최댓값 (maximum) / 최솟값 (minimum)
np.max(x), np.min(x)

(23, -24)

## 중앙값
* 중앙값(median) : 데이터를 크기대로 정렬하였을 때 가장 가운데에 있는 수
* 만약 데이터의 수가 짝수이면 가장 가운데에 있는 두 수의 평균을 사용


In [9]:
np.median(x)

5.0

## 사분위수
* 사분위수(quartile) : 데이터를 가장 작은 수부터 가장 큰 수까지 크기가 커지는 순서대로 정렬하였을 때 1/4, 2/4, 3/4 위치에 있는 수
* 각각 1사분위수, 2사분위수, 3사분위수라고 함
* 1/4의 위치란 전체 데이터의 수가 만약 100개이면 25번째 순서, 즉 하위 25%
* 따라서 2사분위수는 중앙값과 같음
* 때로는 위치를 1/100 단위로 나눈 백분위수(percentile)을 사용하기도 함
* 1사분위수는 25% 백분위수와 같음


In [10]:
np.percentile(x, 0) #최솟값 

-24.0

In [11]:
np.percentile(x, 25)

0.0

In [12]:
np.percentile(x, 50)

5.0

In [13]:
np.percentile(x, 75)

10.0

In [14]:
np.percentile(x, 100)

23.0

# 난수 발생과 카운팅

## 시드 설정
* 컴퓨터 프로그램에서 발생하는 무작위 수는 사실 엄격한 의미의 무작위 수가 아님
* 어떤 특정한 시작 숫자를 정해 주면 컴퓨터가 정해진 알고리즘에 의해 마치 난수처럼 보이는 수열을 생성. 이런 시작 숫자를 시드(seed)라고 함
* 일단 생성된 난수는 다음번 난수 생성을 위한 시드값이 됨. 따라서 시드값은 한 번만 정해주면 됨.
* 시드는 보통 현재 시각 등을 이용하여 자동으로 정해지지만 사람이 수동으로 설정할 수도 있음 * 특정한 시드값이 사용되면 그 다음에 만들어지는 난수들은 모두 예측할 수 있음
* 고정된 결과를 얻기 위해서 실습엔 시드를 설정

In [25]:
import random
np.random.seed(0) # 시드값 고정

### `rand` : 0과 1 사이의 난수를 발생

In [30]:
np.random.rand(5) # n개의 길이를 가지는 배열에 각각 0-1사이의 난수를 채워줌

array([0.0202184 , 0.83261985, 0.77815675, 0.87001215, 0.97861834])

In [29]:
np.random.rand(10)

array([0.43758721, 0.891773  , 0.96366276, 0.38344152, 0.79172504,
       0.52889492, 0.56804456, 0.92559664, 0.07103606, 0.0871293 ])

## 데이터의 순서 변경

### `shuffle`
* 데이터의 순서를 변경
* 자체 변환(in-place) 함수 (원본에 영향)

In [27]:
x = np.arange(10)
x

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [31]:
np.random.shuffle(x)
x

array([1, 5, 2, 4, 7, 3, 6, 9, 8, 0])

## 데이터 샘플링
* 표본선택 혹은 샘플링(sampling) : 이미 있는 데이터 집합에서 일부를 무작위로 선택하는 것

### `choice` : 샘플링에 사용
```
numpy.random.choice(a, size=None, replace=True, p=None)
```
* a : 배열이면 원래의 데이터, 정수이면 arange(a) 명령으로 데이터 생성
* size : 정수. 샘플 숫자
* replace : 불리언. True이면 한번 선택한 데이터를 다시 선택 가능 (복원/비복원 추출)
* p : 배열. 각 데이터가 선택될 수 있는 확률

In [32]:
np.random.choice(5, 5, replace=False)

array([2, 3, 0, 4, 1])

In [33]:
np.random.choice(5, 3, replace=False)

array([3, 1, 4])

In [34]:
np.random.choice(5, 10, replace=True)#복원 5개중 10개선택 (뽑은거 또 뽑음음)

array([2, 4, 2, 0, 0, 4, 0, 4, 1, 4])

In [35]:
np.random.choice(5, 10, p=[0.1, 0, 0.3, 0.6, 0])

array([3, 2, 3, 3, 0, 3, 3, 2, 2, 2])

## 난수 생성
* `rand` : 0부터 1 사이의 균일 분포
* `randn` : 표준 정규 분포
* `randint` : 균일 분포의 정수 난수

### `rand` : 0부터 1 사이에서 균일한 확률 분포로 실수 난수를 생성
* 숫자 인수는 생성할 난수의 크기
* 여러 개의 인수를 넣으면 해당 크기를 가진 행렬을 생성

In [36]:
np.random.rand(10)

array([0.36371077, 0.57019677, 0.43860151, 0.98837384, 0.10204481,
       0.20887676, 0.16130952, 0.65310833, 0.2532916 , 0.46631077])

In [37]:
np.random.rand(3, 5)

array([[0.24442559, 0.15896958, 0.11037514, 0.65632959, 0.13818295],
       [0.19658236, 0.36872517, 0.82099323, 0.09710128, 0.83794491],
       [0.09609841, 0.97645947, 0.4686512 , 0.97676109, 0.60484552]])

### `randn` : 기댓값이 0이고 표준편차가 1인 표준 정규 분포(standard normal distribution)를 따르는 난수를 생성

In [38]:
np.random.randn(10)

array([-0.63432209, -0.36274117, -0.67246045, -0.35955316, -0.81314628,
       -1.7262826 ,  0.17742614, -0.40178094, -1.63019835,  0.46278226])

In [39]:
np.random.randn(3, 5)

array([[-0.90729836,  0.0519454 ,  0.72909056,  0.12898291,  1.13940068],
       [-1.23482582,  0.40234164, -0.68481009, -0.87079715, -0.57884966],
       [-0.31155253,  0.05616534, -1.16514984,  0.90082649,  0.46566244]])

### `randint`
```
numpy.random.randint(low, high=None, size=None)
```
만약 `high`를 입력하지 않으면 0과 `low`사이의 숫자, `high`를 입력하면 `low`와 `high`는 사이의 숫자를 출력. `size`는 난수의 숫자

In [41]:
np.random.randint(10, size=10)

array([2, 8, 4, 3, 0, 4, 3, 6, 9, 8])

In [42]:
np.random.randint(10,20, size=10)

array([10, 18, 15, 19, 10, 19, 16, 15, 13, 11])

In [45]:
np.random.randint(10,20, size=(3, 5))

array([[18, 10, 14, 19, 16],
       [15, 17, 18, 18, 19],
       [12, 18, 16, 16, 19]])

## 💡 연습문제 7
1. 동전을 10번 던져 앞면(숫자 1)과 뒷면(숫자 0)이 나오는 가상 실험을 작성하라
2. 주사위를 100번 던져서 나오는 숫자의 평균
3. 가격이 10,000원인 주식이 있다. 이 주식의 일간 수익률(%)은 기댓값이 0%이고 표준편차가 1%인 표준 정규 분포를 따른다고 하자. 250일 동안의 주가를 무작위로 생성하라

In [46]:
# 1.
np.random.choice([0, 1], size=10, replace=True)

array([1, 1, 0, 0, 0, 1, 0, 1, 0, 1])

In [49]:
# 2.
np.random.randint(1, 7, 100).mean()
np.random.choice(range(1, 7), 100, replace=True).mean()

3.42

In [53]:
# 3.
a = np.random.randn(250)/100#일간 수익률의 표준 정규분포를 따르는(0.1%) 수익률 분포

In [54]:
a 

array([-1.54305643e-02,  1.65946033e-02, -9.70092222e-03,  1.29233496e-02,
       -9.38761907e-03, -1.21253290e-02,  1.67364748e-02,  1.97539178e-02,
       -1.17701205e-02,  1.28612871e-02,  8.71773490e-03, -9.85959963e-03,
        9.34594650e-04, -1.61964135e-02, -1.62542609e-02, -5.14445498e-03,
        3.12787072e-03,  1.56451260e-02,  8.18435504e-03,  4.02149816e-03,
        1.18055558e-03,  3.54427721e-04, -4.77901096e-03,  6.23693170e-03,
       -2.46952308e-02, -1.14912376e-02, -5.00970786e-03,  1.47594784e-04,
       -3.91050579e-03, -3.88419578e-03,  1.05014196e-02, -3.20693872e-04,
       -4.77338656e-04, -2.77342949e-03, -4.72136268e-03, -1.85329637e-03,
        1.95420226e-03,  1.48838294e-02,  3.24843567e-03, -1.18814232e-02,
       -1.49414282e-03, -3.03328915e-03, -1.35969704e-02, -2.13801735e-02,
        4.00937099e-03,  7.06842389e-03,  7.92607785e-03, -2.33423082e-03,
        8.59745314e-03,  3.66280535e-03,  7.26423161e-03,  1.79384552e-04,
       -2.28547991e-02, -

In [55]:
init = 10000
stock = np.empty(250)
for i, v in enumerate(a):
    init += (1 + v)
    stock[i] = init
stock

array([10000.98456944, 10002.00116404, 10002.99146312, 10004.00438647,
       10004.99499885, 10005.98287352, 10006.99960999, 10008.01936391,
       10009.00759379, 10010.02045508, 10011.02917281, 10012.01931321,
       10013.02024781, 10014.00405139, 10014.98779713, 10015.98265268,
       10016.98578055, 10018.00142567, 10019.00961003, 10020.01363153,
       10021.01481208, 10022.01516651, 10023.0103875 , 10024.01662443,
       10024.9919292 , 10025.98043796, 10026.97542826, 10027.97557585,
       10028.97166534, 10029.96778115, 10030.97828257, 10031.97796187,
       10032.97748454, 10033.97471111, 10034.96998974, 10035.96813645,
       10036.97009065, 10037.98497448, 10038.98822291, 10039.97634149,
       10040.97484735, 10041.97181406, 10042.95821709, 10043.93683692,
       10044.94084629, 10045.94791471, 10046.95584079, 10047.95350656,
       10048.96210401, 10049.96576682, 10050.97303105, 10051.97321043,
       10052.95035563, 10053.93556718, 10054.92203518, 10055.92174573,
      

array([ 9968.24569061,  9805.52172515,  9798.93887103,  9944.87995133,
        9996.72298327, 10057.89564959,  9922.96930879,  9970.29178757,
        9985.09264399, 10037.91830117, 10080.34141693,  9943.27087728,
        9939.15428244,  9863.82832836,  9858.88811928,  9770.41436592,
        9898.64815922,  9813.6215047 ,  9725.40272392,  9732.65655233,
        9627.82619918,  9586.94035449,  9507.37214356,  9641.53752326,
        9717.30109408,  9711.71660794,  9673.72271651,  9764.74447753,
        9804.31162059,  9853.14223038,  9850.56147198,  9684.2613353 ,
        9673.36983564,  9621.86011642,  9683.9264325 ,  9781.91250933,
        9717.55231377,  9763.06789394,  9932.54293905,  9866.22208637,
       10032.16422056,  9946.63140825,  9948.91513051,  9947.80626305,
        9948.95015133,  9865.60998051,  9807.28616123,  9741.80092199,
        9773.65296712,  9805.90945388, 10024.18353955, 10161.61399384,
       10109.8056916 , 10142.64937851, 10243.78355919, 10246.91834384,
      

## 정수 데이터 카운팅
* 만약 난수가 정수값이면 unique 명령이나 bincount 명령으로 데이터 값을 분석

### `unique`
* unique 함수는 데이터에서 중복된 값을 제거하고 중복되지 않는 값의 리스트를 출력
* return_counts 인수를 True 로 설정하면 각 값을 가진 데이터 갯수도 출력


In [56]:
np.unique([11, 11, 2, 2, 34, 34])

array([ 2, 11, 34])

In [58]:
a = np.array(['a', 'b', 'b', 'c', 'a'])
index, count = np.unique(a, return_counts=True)

In [59]:
index

array(['a', 'b', 'c'], dtype='<U1')

In [60]:
count

array([2, 2, 1])

In [61]:
dict(zip(*np.unique(a, return_counts=True)))

{'a': 2, 'b': 2, 'c': 1}

### `bincount`
* `unique` 함수는 데이터에 존재하는 값에 대해서만 갯수를 세므로 데이터 값이 나올 수 있음에도 불구하고 데이터가 하나도 없는 경우에는 정보를 주지 않음
* 따라서 데이터가 주사위를 던졌을 때 나오는 수처럼 특정 범위안의 수인 경우에는 `bincount` 함수에 `minlength` 인수를 설정하여 쓰는 것이 더 편리
* `bincount` 함수는 0 부터 `minlength` - 1 까지의 숫자에 대해 각각 카운트
* 데이터가 없을 경우에는 카운트 값이 0이 됨

In [62]:
np.bincount([1, 1, 2, 2, 2, 3], minlength=6)

array([0, 2, 3, 1, 0, 0])