<a href="https://colab.research.google.com/github/kmk3058/playdata_python_basic/blob/master/230620_numpy_04%EA%B8%B0%EC%88%A0%ED%86%B5%EA%B3%84%2B%EB%82%9C%EC%88%98%EB%B0%9C%EC%83%9D%EA%B3%BC%2B%EC%B9%B4%EC%9A%B4%ED%8C%85.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 기술 통계

## 기술 통계(descriptive statistics)
> 데이터 집합에 대해 통계를 계산
* 데이터의 개수(count)
* 평균(mean, average)
* 분산(variance)
* 표준 편차(standard deviation)
* 최댓값(maximum)
* 최솟값(minimum)
* 중앙값(median)
* 사분위수(quartile)

## 데이터의 개수

In [None]:
import numpy as np

In [None]:
a = np.array(range(10, 100, 2))
len(a)

45

## 표본 평균
* 우리가 일반적으로 아는 평균
* 통계용어로는 표본 평균(sample average, sample mean)
<br>
$
\bar{x} = \frac{1}{N}\displaystyle\sum_{i=1}^{N}{x_i}
$
(𝑁은 데이터의 개수)

In [None]:
np.mean(a), a.mean()

(54.0, 54.0)

## 표본 분산
* 표본 분산(sample variance) : 데이터와 표본 평균간의 거리의 제곱의 평균
* 표본 분산이 작으면 데이터가 모여있는 것이고 크면 흩어져 있는 것
<br>
$
s^2 = \frac{1}{N}\displaystyle\sum_{i=1}^{N}{(x_i-\bar{x})^2}
$

In [None]:
np.var(a), a.var()

(674.6666666666666, 674.6666666666666)

## 표본 표준편차
* 표본 표준편차(sample standard variance) : 표본 분산의 양의 제곱근 값
<br>
$
s = \sqrt{s^2}
$

In [None]:
np.std(a), a.std()

(25.974346318370873, 25.974346318370873)

## 최댓값과 최솟값

In [None]:
# 최댓값 (maximum) / 최솟값 (minimum)
np.max(a), a.max()

(98, 98)

## 중앙값
* 중앙값(median) : 데이터를 크기대로 정렬하였을 때 가장 가운데에 있는 수
* 만약 데이터의 수가 짝수이면 가장 가운데에 있는 두 수의 평균을 사용


In [None]:
np.median(a)

54.0

## 사분위수
* 사분위수(quartile) : 데이터를 가장 작은 수부터 가장 큰 수까지 크기가 커지는 순서대로 정렬하였을 때 1/4, 2/4, 3/4 위치에 있는 수
* 각각 1사분위수, 2사분위수, 3사분위수라고 함
* 1/4의 위치란 전체 데이터의 수가 만약 100개이면 25번째 순서, 즉 하위 25%
* 따라서 2사분위수는 중앙값과 같음
* 때로는 위치를 1/100 단위로 나눈 백분위수(percentile)을 사용하기도 함
* 1사분위수는 25% 백분위수와 같음


In [None]:
np.percentile(a, 0) # 최솟값, min

10.0

In [None]:
np.percentile(a, 25) # 25% 백분위수, 1사분위수

32.0

In [None]:
np.percentile(a, 50) # 50% 백분위수, 2사분위수, 중앙값

54.0

In [None]:
np.percentile(a, 75) # 75% 백분위수, 3사분위수

76.0

In [None]:
np.percentile(a, 100) # 100% 백분위수, 4사분위수

98.0

# 난수 발생과 카운팅

## 시드 설정
* 컴퓨터 프로그램에서 발생하는 무작위 수는 사실 엄격한 의미의 무작위 수가 아님
* 어떤 특정한 시작 숫자를 정해 주면 컴퓨터가 정해진 알고리즘에 의해 마치 난수처럼 보이는 수열을 생성. 이런 시작 숫자를 시드(seed)라고 함
* 일단 생성된 난수는 다음번 난수 생성을 위한 시드값이 됨. 따라서 시드값은 한 번만 정해주면 됨.
* 시드는 보통 현재 시각 등을 이용하여 자동으로 정해지지만 사람이 수동으로 설정할 수도 있음 * 특정한 시드값이 사용되면 그 다음에 만들어지는 난수들은 모두 예측할 수 있음
* 고정된 결과를 얻기 위해서 실습엔 시드를 설정

In [None]:
np.random.seed(0) # 시드값 고정

### `rand` : 0과 1 사이의 난수를 발생

In [None]:
np.random.rand(5) # rand(n) : n개의 길이를 가지는 배열에 각각 0-1 사이의 난수를 채워줌

array([0.5488135 , 0.71518937, 0.60276338, 0.54488318, 0.4236548 ])

In [None]:
np.random.rand(10)

array([0.64589411, 0.43758721, 0.891773  , 0.96366276, 0.38344152,
       0.79172504, 0.52889492, 0.56804456, 0.92559664, 0.07103606])

## 데이터의 순서 변경

### `shuffle`
* 데이터의 순서를 변경
* 자체 변환(in-place) 함수 (원본에 영향)

In [None]:
x = np.arange(10)
x

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [None]:
np.random.shuffle(x) # x를 섞어줌 -> x 자체를 섞어버림

In [None]:
x

array([5, 1, 8, 2, 6, 7, 0, 3, 4, 9])

## 데이터 샘플링
* 표본선택 혹은 샘플링(sampling) : 이미 있는 데이터 집합에서 일부를 무작위로 선택하는 것

### `choice` : 샘플링에 사용
```
numpy.random.choice(a, size=None, replace=True, p=None)
```
* a : 배열이면 원래의 데이터, 정수이면 arange(a) 명령으로 데이터 생성
* size : 정수. 샘플 숫자
* replace : 불리언. True이면 한번 선택한 데이터를 다시 선택 가능 (복원/비복원 추출)
* p : 배열. 각 데이터가 선택될 수 있는 확률

In [None]:
np.random.choice(5, 5, replace=False) # 5개 중에 5개를 선택하는 비복원 / shuffle

array([0, 4, 2, 1, 3])

In [None]:
np.random.choice(5, 3, replace=False) # 5개 중에 3개를 선택하는 비복원 / shuffle

array([4, 2, 3])

In [None]:
np.random.choice(5, 10, replace=True) # 5개 중에 10개를 선택하는 복원

array([0, 2, 4, 3, 3, 2, 4, 2, 0, 0])

In [None]:
# [0, 1, 2, 3, 4]
np.random.choice(5, 10, replace=True, p=[0.1, 0, 0.3, 0.6, 0]) # 복원 5개 중에 10개를 선택

array([2, 2, 2, 2, 3, 3, 3, 3, 0, 3])

## 난수 생성
* `rand` : 0부터 1 사이의 균일 분포
* `randn` : 표준 정규 분포
* `randint` : 균일 분포의 정수 난수

### `rand` : 0부터 1 사이에서 균일한 확률 분포로 실수 난수를 생성
* 숫자 인수는 생성할 난수의 크기
* 여러 개의 인수를 넣으면 해당 크기를 가진 행렬을 생성

In [None]:
np.random.rand(10)

array([0.65314004, 0.17090959, 0.35815217, 0.75068614, 0.60783067,
       0.32504723, 0.03842543, 0.63427406, 0.95894927, 0.65279032])

In [None]:
np.random.rand(3, 5)

array([[0.63505887, 0.99529957, 0.58185033, 0.41436859, 0.4746975 ],
       [0.6235101 , 0.33800761, 0.67475232, 0.31720174, 0.77834548],
       [0.94957105, 0.66252687, 0.01357164, 0.6228461 , 0.67365963]])

### `randn` : 기댓값이 0이고 표준편차가 1인 표준 정규 분포(standard normal distribution)를 따르는 난수를 생성

In [None]:
np.random.randn(10)

array([-0.68658948,  0.01487332, -0.3756659 , -0.03822364,  0.36797447,
       -0.0447237 , -0.30237513, -2.2244036 ,  0.72400636,  0.35900276])

In [None]:
np.random.randn(3, 5)

array([[ 1.07612104,  0.19214083,  0.85292596,  0.01835718,  0.42830357],
       [ 0.99627783, -0.49114966,  0.71267817,  1.11334035, -2.15367459],
       [-0.41611148, -1.07089699,  0.22113881, -1.12305712, -1.05075796]])

### `randint`
```
numpy.random.randint(low, high=None, size=None)
```
만약 `high`를 입력하지 않으면 0과 `low`사이의 숫자, `high`를 입력하면 `low`와 `high`는 사이의 숫자를 출력. `size`는 난수의 숫자

In [None]:
np.random.randint(10) # 최댓값 -> 그것보다 작은 범위에서의 랜덤 숫자

0

In [None]:
np.random.randint(10, size=10) # 시작점

array([8, 8, 3, 8, 2, 8, 4, 3, 0, 4])

In [None]:
np.random.randint(10, 20, size=(3,5))

array([[13, 16, 19, 18, 10],
       [18, 15, 19, 10, 19],
       [16, 15, 13, 11, 18]])

## 💡 연습문제 7
1. 동전을 10번 던져 앞면(숫자 1)과 뒷면(숫자 0)이 나오는 가상 실험을 작성하라
2. 주사위를 100번 던져서 나오는 숫자의 평균
3. 가격이 10,000원인 주식이 있다. 이 주식의 일간 수익률(%)은 기댓값이 0%이고 표준편차가 1%인 표준 정규 분포를 따른다고 하자. 250일 동안의 주가를 무작위로 생성하라

In [None]:
np.random.choice(["앞", "뒤"], size=10, replace=True)

array(['뒤', '앞', '앞', '뒤', '뒤', '뒤', '앞', '뒤', '앞', '뒤'], dtype='<U1')

In [None]:
# 2.
dice_number = np.random.randint(1, 7, size=100)
dice_number, dice_number.mean()

(array([6, 5, 1, 3, 6, 1, 1, 1, 5, 4, 6, 6, 6, 2, 3, 3, 1, 2, 4, 2, 2, 3,
        5, 1, 5, 6, 3, 2, 1, 4, 4, 2, 5, 5, 1, 6, 3, 5, 4, 4, 4, 6, 5, 2,
        5, 5, 1, 3, 6, 5, 5, 3, 4, 6, 3, 5, 2, 1, 1, 3, 3, 4, 1, 3, 6, 5,
        5, 2, 6, 2, 6, 3, 4, 4, 4, 6, 4, 1, 6, 6, 4, 2, 6, 2, 6, 1, 3, 5,
        2, 2, 6, 1, 2, 5, 1, 4, 4, 4, 5, 3]),
 3.63)

In [None]:
price = 10000
percent = np.random.randn(250) / 100

In [None]:
start = 10000
price = np.empty(250)
for i, v in enumerate(a):  # a -> 가격이 0의 기댓값, 1%의 표준편차를 바탕으로 250일치의 변화율이 생성
   start *= (1 + v) # i = index, v = 변화율
   price[i] = start

  start *= (1 + v) # i = index, v = 변화율


In [None]:
price

array([ 1.10000000e+005,  1.43000000e+006,  2.14500000e+007,
        3.64650000e+008,  6.92835000e+009,  1.45495350e+011,
        3.34639305e+012,  8.36598262e+013,  2.25881531e+015,
        6.55056440e+016,  2.03067496e+018, -6.77470253e+018,
        2.69308440e+018,  7.41040254e+018, -6.14220616e+018,
        6.42396448e+018, -4.70688456e+017, -2.73423645e+018,
        6.18095357e+017, -6.60681563e+018, -4.90620385e+018,
       -1.77438697e+018, -5.35756300e+018,  8.21355823e+018,
        4.98458987e+018,  8.91207680e+018,  8.05851611e+018,
        7.29471298e+018,  9.13042374e+018,  2.80993921e+018,
       -3.40850076e+018, -9.01288233e+018,  6.56335576e+018,
        7.31630368e+018,  6.13892438e+018, -8.09214946e+017,
        6.62213578e+018, -8.96752459e+018, -5.41138813e+018,
       -1.99819789e+018,  2.63143274e+018,  4.91557173e+018,
        5.81071216e+018, -8.20998643e+018, -1.13191757e+018,
        0.00000000e+000,  6.89838110e-310,  5.39079969e+057,
        0.00000000e+000,

## 정수 데이터 카운팅
* 만약 난수가 정수값이면 unique 명령이나 bincount 명령으로 데이터 값을 분석

### `unique`
* unique 함수는 데이터에서 중복된 값을 제거하고 중복되지 않는 값의 리스트를 출력
* return_counts 인수를 True 로 설정하면 각 값을 가진 데이터 갯수도 출력


In [None]:
np.unique([11,11,2,2,34,34])

array([ 2, 11, 34])

In [None]:
a = np.array(list('abbca'))
a

array(['a', 'b', 'b', 'c', 'a'], dtype='<U1')

In [None]:
np.unique(a, return_counts=True)

(array(['a', 'b', 'c'], dtype='<U1'), array([2, 2, 1]))

In [None]:
index, value = np.unique(a, return_counts=True)
index, value

(array(['a', 'b', 'c'], dtype='<U1'), array([2, 2, 1]))

In [None]:
list(zip(index, value))

[('a', 2), ('b', 2), ('c', 1)]

In [None]:
dict(zip(*np.unique(a, return_counts=True)))

{'a': 2, 'b': 2, 'c': 1}

### `bincount`
* `unique` 함수는 데이터에 존재하는 값에 대해서만 갯수를 세므로 데이터 값이 나올 수 있음에도 불구하고 데이터가 하나도 없는 경우에는 정보를 주지 않음
* 따라서 데이터가 주사위를 던졌을 때 나오는 수처럼 특정 범위안의 수인 경우에는 `bincount` 함수에 `minlength` 인수를 설정하여 쓰는 것이 더 편리
* `bincount` 함수는 0 부터 `minlength` - 1 까지의 숫자에 대해 각각 카운트
* 데이터가 없을 경우에는 카운트 값이 0이 됨

In [None]:
np.bincount([1, 1, 2, 2, 2, 3], minlength=6) # 1 = 2, 2 = 3, 3 = 1

array([0, 2, 3, 1, 0, 0])