<a href="https://colab.research.google.com/github/SWeat-python-weekend-study/changhyeon/blob/main/2/20(4)" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 2-3. 기술 통계

```{margin}
기술 통계
```

넘파이는 다음과 같은 데이터 집합에 대해 간단한 통계를 계산하는 함수를 제공한다. 이러한 값들을 통틀어 **기술 통계(descriptive statistics)**라고 한다.

* 데이터의 개수(count)
* 평균(mean, average)
* 분산(variance)
* 표준 편차(standard deviation)
* 최댓값(maximum)
* 최솟값(minimum)
* 중앙값(median)
* 사분위수(quartile)

예를 들어 다음과 같은 데이터 $x$가 있다고 하자.

$$
x = \{
18,   5,  10,  23,  19,  -8,  10,   0,   0,   5,   2,  15,   8,
2,   5,   4,  15,  -1,   4,  -7, -24,   7,   9,  -6,  23, -13
\}
$$
             

$x$를 이루는 숫자 하나하나를 수학 기호로는 $x_1, x_2, \cdots, x_N$처럼 표시한다. 위 예에서 $x_1 = 18$, $x_2 = 5$이다.

넘파이에서는 이러한 데이터를 1차원 배열로 구현한다.

In [1]:
import numpy as np

In [3]:
x = np.array([18,   5,  10,  23,  19,  -8,  10,   0,   0,   5,   2,  15,   8,
              2,   5,   4,  15,  -1,   4,  -7, -24,   7,   9,  -6,  23, -13])

### 데이터의 개수

데이터의 개수는 `len` 명령으로 구할 수 있다.

In [4]:
len(x)  # 갯수

26

### 표본 평균

평균을 통계용어로는 **표본 평균**(sample average, sample mean)이라고 한다. $x$ 데이터에 대한 표본 평균은 $\bar{x}$라고 표시하며 다음과 같이 계산한다. 이 식에서 $N$은 데이터의 개수이다.

$$ \bar{x} = \dfrac{1}{N}\sum_{i=1}^N x_i $$

In [5]:
np.mean(x)  # 평균

4.8076923076923075

### 표본 분산

표본 분산(sample variance)은 데이터와 표본 평균간의 거리의 제곱의 평균이다. 표본 분산이 작으면 데이터가 모여있는 것이고 크면 흩어져 있는 것이다. 수학 기호로는 $s^2$이라고 표시하며 다음과 같이 계산한다.

$$ s^2 = \dfrac{1}{N}\sum_{i=1}^N (x_i - \bar{x})^2 $$

In [6]:
np.var(x)  # 분산

115.23224852071006

In [7]:
np.var(x, ddof=1)  # 비편향 분산. 추후 공부하게 된다.

119.84153846153846

### 표본 표준편차

표본 표준편차(sample standard variance)는 표본 분산의 양의 제곱근 값이다. $s$이라고 표시한다.

$$ s = \sqrt{s^2} $$

In [8]:
np.std(x)  # 표준 편차

10.734628476137871

### 최댓값과 최솟값

최댓값(maximum)은 데이터 중에서 가장 큰 값을, 최솟값(minimum)은 가장 작은 값을 의미한다.

In [9]:
np.max(x)  # 최댓값

23

In [10]:
np.min(x)  # 최솟값

-24

### 중앙값

중앙값(median)은 데이터를 크기대로 정렬하였을 때 가장 가운데에 있는 수를 말한다. 만약 데이터의 수가 짝수이면 가장 가운데에 있는 두 수의 평균을 사용한다.

In [11]:
np.median(x)  # 중앙값

5.0

### 사분위수

사분위수(quartile)는 데이터를 가장 작은 수부터 가장 큰 수까지 크기가 커지는 순서대로 정렬하였을 때 1/4, 2/4, 3/4 위치에 있는 수를 말한다. 각각 1사분위수, 2사분위수, 3사분위수라고 한다. 1/4의 위치란 전체 데이터의 수가 만약 100개이면 25번째 순서, 즉 하위 25%를 말한다. 따라서 2사분위수는 중앙값과 같다. 

때로는 위치를 1/100 단위로 나눈 백분위수(percentile)을 사용하기도 한다. 1사분위수는 25% 백분위수와 같다.

In [12]:
np.percentile(x, 0)  # 최소값

-24.0

In [13]:
np.percentile(x, 25)  # 1사분위 수

0.0

In [14]:
np.percentile(x, 50)  # 2사분위 수

5.0

In [15]:
np.percentile(x, 75)  # 3사분위 수

10.0

In [16]:
np.percentile(x, 100)  # 최댓값

23.0

# 2-4. 랜덤 함수
- 난수(random number)

In [17]:
import numpy as np

In [18]:
np.random.seed(0) # 랜덤 seed 지정

In [19]:
np.random.randint(0, 1000) # 0~1000 사이 난수 생성

684

In [20]:
np.random.rand(5) #5 개의 난수 생성

array([0.59284462, 0.84426575, 0.85794562, 0.84725174, 0.6235637 ])

In [21]:
np.random.rand(3,5) #3x5 행렬 형태의 난수 생성

array([[0.38438171, 0.29753461, 0.05671298, 0.27265629, 0.47766512],
       [0.81216873, 0.47997717, 0.3927848 , 0.83607876, 0.33739616],
       [0.64817187, 0.36824154, 0.95715516, 0.14035078, 0.87008726]])

In [22]:
x = np.arange(10) # 0~9 까지 배열 생성
x

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [23]:
np.random.shuffle(x) # 배열 x 의 순서를 무작위로 변경
x

array([0, 7, 2, 4, 6, 5, 9, 1, 8, 3])

# 2-5. 데이터 샘플링
- 샘플링(sampling): 존재하는 데이터 집합에서 일부를 무작위로 선택


In [24]:
x = np.random.choice(10, 10, replace=False) # shuffle 기능과 동일
x

array([3, 6, 4, 5, 2, 9, 7, 8, 1, 0])

In [25]:
x = np.random.choice(x, 5, replace=True) # 5 개 샘플링 , 중복 허용
x

array([4, 8, 4, 3, 3])

In [26]:
x = np.random.choice(4, 3, replace=False, p=[0.4, 0.2, 0, 0.4]) # 선택 확률 별도 지정
x

array([0, 3, 1])

# 2-6. 비교 연산


In [27]:
f = np.random.rand(3,4)
f

array([[0.61306346, 0.90234858, 0.09928035, 0.96980907],
       [0.65314004, 0.17090959, 0.35815217, 0.75068614],
       [0.60783067, 0.32504723, 0.03842543, 0.63427406]])

In [28]:
tf = f > 0.3
tf

array([[ True,  True, False,  True],
       [ True, False,  True,  True],
       [ True,  True, False,  True]])

In [29]:
f[ f > 0.3 ] = 1
f

array([[1.        , 1.        , 0.09928035, 1.        ],
       [1.        , 0.17090959, 1.        , 1.        ],
       [1.        , 1.        , 0.03842543, 1.        ]])

# 2-7. 유니버설 함수
- 슬라이드 참고