어떤 자료의 값을 반복적으로 or 동시에 병렬적으로 측정하는 경우

**결정론적 자료 (deterministic data) : 항상 같은 값이 나오는 자료**
**확률적 자료 (probabilistic data) : 예측할 수 없는 값이 나오는 자료**
- 분포(distribution) : 확률적 자료에서 어떤 값이 얼마나 자주 나오는가를 나타내는 특성
- 도수분포도 (histogram) : 도표를 이용해 분포를 표현
- 기술통계량 (descriptive statistics) : 어떤 숫자를 계산하여 그 숫자로 분포를 표현
    - 대표값
        - 표본평균 (sample mean), 표본중앙값 (sample median), 표본최빈값 (sample mode)
    - 퍼진 정도를 나타냄
        - 표본분산 (sample variance), 표본표준편차 (sample standard deviation)
    - 분포의 집중도를 나타냄
        - 표본왜도 (sample skewness), 표본첨도 (sample kurtosis)

### (1) 대표값

**대표값 : n개의 어떤 자료가 있을 때 어떤 하나의 값으로 이들을 대표하고자 하는 경우의 값**

**평균 : 다음과 같이 계산**
- n은 자료의 개수, i는 자료의 순서
- mean()

![image.png](attachment:image.png)

**중앙값 : 전체 자료를 크기순으로 정렬했을 때, 가장 중앙에 위치하는 값**
- n이 홀수이면, 중앙값은 (n+1)/2번째 표본의 값
- n이 짝수이면, 중앙값은 n/2번째 표본과 (n+1)/2번째 표본의 평균
- median()

**최빈값 : 자료값 중 가장 빈번하게 나오는 값**
- 이산자료에서는 구하기 쉽지만, 연속적인 값을 갖는 자료에서는 구하기가 어려움
- 연속값을 갖는 자료에서는 일정 구간 간격으로 나누어, 가장 많은 자료를 가진 구간의 대표값을 그 자료의 최빈값으로 함
- argmax()

### (2) 분산과 표준편차

- 분포의 폭을 대표하는 값

**표본분산**
- 자료의 수 n 대신 자유도 n - 1로 나누는 이유는 불편추정량 (unbiased estimator) 이 되도록 하기 위함
- std()
![image-2.png](attachment:image-2.png)

**분산**
- var()
![image.png](attachment:image.png)

### (3) 왜도와 첨도

**왜도(skewness) : 분포가 어느 쪽으로 치우쳤는지**
![image.png](attachment:image.png)

**첨도(kurtosis) : 자료가 중앙에 몰려 있는 정도**
![image-2.png](attachment:image-2.png)

### (4) 그 밖의 통계량

- 최대값, 최소값
- 사분위수, 백분위수 등

### (5) 난수 발생

- **난수 (random number) : 필요한 자료를 만들기 위한 무작위수**

In [5]:
import numpy as np

np.random.seed(0)
np.random.rand(5)

array([0.5488135 , 0.71518937, 0.60276338, 0.54488318, 0.4236548 ])

In [6]:
# rand() : 0부터 1사이의 균일분포 난수

# randn() : 표준정규분포 난수

# randint() : 균일분포의 정수 난수
# numpy.randint(low [, high=None, size=None])
x = np.random.randint(10, size=10)
x

array([5, 2, 4, 7, 6, 8, 8, 1, 6, 7])

In [7]:
y = np.random.randint(10, 20, size=10)
y

array([17, 18, 11, 15, 19, 18, 19, 14, 13, 10])

In [8]:
z = np.random.randint(10, 20, size=(3, 5))
z

array([[13, 15, 10, 12, 13],
       [18, 11, 13, 13, 13],
       [17, 10, 11, 19, 19]])

In [9]:
# shuffle() : 자료의 순서를 뒤섞기
x = np.arange(10)
x

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [10]:
np.random.shuffle(x)
x

array([1, 8, 9, 5, 2, 6, 3, 7, 4, 0])

In [12]:
# 통계량 계산
import numpy as np
import matplotlib.pyplot as plt

np.random.seed(0)
x = np.random.randn(51)
print("자료값")
print(x)
print()

xbar = np.mean(x)
xmed = np.median(x)
print("표본평균  :", xbar)
print("중앙값  :", xmed)

var = np.var(x)
std = np.std(x)
print("분산  :", var)
print("표준편차  :", std)

xmin = np.percentile(x, 0) # 최소값
x25 = np.percentile(x, 25) # 1사분위수
x50 = np.percentile(x, 50) # 2사분위수
x75 = np.percentile(x, 75) # 3사분위수
xmax = np.percentile(x, 100) # 최대값

print("최소값    :", xmin)
print("최대값    :", xmax)
print("1 사분위수:", x25)
print("2 사분위수:", x50)
print("3 사분위수:", x75)

자료값
[ 1.76405235  0.40015721  0.97873798  2.2408932   1.86755799 -0.97727788
  0.95008842 -0.15135721 -0.10321885  0.4105985   0.14404357  1.45427351
  0.76103773  0.12167502  0.44386323  0.33367433  1.49407907 -0.20515826
  0.3130677  -0.85409574 -2.55298982  0.6536186   0.8644362  -0.74216502
  2.26975462 -1.45436567  0.04575852 -0.18718385  1.53277921  1.46935877
  0.15494743  0.37816252 -0.88778575 -1.98079647 -0.34791215  0.15634897
  1.23029068  1.20237985 -0.38732682 -0.30230275 -1.04855297 -1.42001794
 -1.70627019  1.9507754  -0.50965218 -0.4380743  -1.25279536  0.77749036
 -1.61389785 -0.21274028 -0.89546656]

표본평균  : 0.1202450402835533
중앙값  : 0.144043571160878
분산  : 1.262595993985068
표준편차  : 1.1236529686629533
최소값    : -2.5529898158340787
최대값    : 2.2697546239876076
1 사분위수: -0.6259086010790478
2 사분위수: 0.144043571160878
3 사분위수: 0.9072623081925475
