# 통계 스터디

2023.11.11

## 2장 자료의 특징 파악하기

### 2.1 모집단과 표본

- 모집단(population): 전체 대상에 대한 자료 집단
- 표본(sample): 모집단의 일부이면서 실제로 우리가 얻는 자료
- 모집단 전체에 대한 자료 얻기 어려움 → **모집단에 이론적으로 접근**하여 표본의 관계를 이해

### 2.2 대푯값

- 대푯값을 쓰는 이유: 표본을 대표하는 값을 통해 모집단에 대해 알아내고 싶은 것을 끌어내기 위해

#### 2.2.1 평균
- 평균(mean)
    - **가장 일반적이고 중요한 대푯값**
    $$\bar{x} = {{x_1 + x_2 + ... + x_n}\over{n}}$$
- 가중평균(weighted mean)
    - 데이터셋의 중요한 정도가 다를 때 (ex. 대학교별 학생 규모, 품목별 물가지수 등)
    $$\bar{x}_w = {{w_1x_1 + w_2x_2 + ... + w_nx_n}\over{w_1 + w_2 + ... + w_n}}$$

#### 2.2.2 중위수
- 중위수(median)
    - 가장 가운데 위치한 값
    - 평균과는 달리 극단값의 영향을 안 받지만, 이론적으로 딱히 쓸모있지는 않음
- 백분위수(percentile)
    - 작은 순서(오름차순)로 정렬해 놓았을 때 몇 %에 해당하는지?
    - 예를 들어 작은 값 20%는 $P_{20}$
    
#### 2.2.3 최빈수
- 최빈수(mode)
    - 가장 빈번히 얻어지는 값
    - 주로 **질적 자료**에서 이용 (ex. 자동차 색상)

### 2.3 퍼짐의 정도

#### 2.3.1 범위
- 범위(range)
    - 자료가 퍼져있는 구간의 크기 (ex. 15점부터 90점까지의 데이터면 $R = 75$)

#### 2.3.2 사분위편차
- 사분위수(quartile)
    - 자료를 네 등분할 때 각 경계값 (ex. 제 1사분위수 $Q_1 = P_{25}$)
- 사분위편차(quartile deviation)
    - 작은 값 25%, 큰 값 25%를 제외한 **가운데 50% 자료의 범위**
    $$Q.D. = {(Q_3 - Q_1) \over 2}$$
    
#### 2.3.3 분산 또는 표준편차
- 분산(variance)
    - 편차를 제곱하여 자유도로 나눈 값
    $$s^2 = {\sum{(x_i - \bar{x})^2} \over n - 1}$$
    - 제곱을 취하기 때문에 변수와의 **차원이 다름** (ex. 원$^2$ 이런 단위 들어나 봤나 ㅎㅎ;)
- 표준편차(standard deviation)
    - 분산의 제곱근
    - 변수와 **동일한 차원**으로 표현됨 (분산의 단점을 보완)
    - 제곱근으로 표현되기에 이론을 전개해 나가는 과정에서 불리
- 편차(deviation)
    - 표본값에서 표본평균을 뺀 것
    - 편차의 평균은 항상 0이 됨 (...생각해 보면 당연하다!)
- 자유도(degree of freedom)
    - 독립적인 것의 수
    - 표본분산 구할 때 자유도를 $n - 1$로 쓰는 이유: $n$개의 표본에서 각 편차를 구할 때, $\bar{x}$는 정해진 값이라 **마지막 편차는 독립적이지 않음!**
- 절대평균편차(absolute mean deviation)
    - 편차에 절대값 씌워서 평균 매긴 것
    - 통계적 특성이 딱히 없어서 굳이 쓰진 않음

### 2.4 왜도와 첨도

- 왜도(skewness)
    - 분포가 대칭인지 측정해 주는 값
    $$왜도 = {{\sum{(x_i - \bar{x})^3}/{n}}\over{s^3}}$$
        - **왜도 = 0: 좌우 대칭**
        - 왜도 > 0: 오른쪽으로 왜곡 (왼쪽으로 치우친 개형)
        - 왜도 < 0: 왼쪽으로 왜곡 (오른쪽으로 치우친 개형)
    - 편차 세제곱 합을 이용
- 첨도(kurtosis)
    - 분포가 얼마나 뾰족한지 나타내는 값
    $$첨도 = {{\sum{(x_i - \bar{x})^4}/{n}}\over{s^4}} - 3$$
        - 첨도 > 0: 정규분포보다 뾰족
        - 첨도 < 0: 정규분포보다 완만
    - 편차 네제곱 합을 이용

---

### [예제 2.1]

60개의 정수형 자료에 대한 기술통계량 구하기

In [1]:
import pandas as pd

ex_df = pd.read_csv('데이터 파일/ex2-1.csv')
ex_df.describe()

Unnamed: 0,number
count,60.0
mean,113.583333
std,11.378379
min,84.0
25%,108.0
50%,112.0
75%,118.5
max,166.0


- 대푯값
    - 평균: 113.58
    - 중앙값: 112
- 퍼짐의 정도
    - 사분위범위: 10.5
    - 분산: ```std ** 2```
    - 표준편차: 11.38

---

### 2.5 도수분포표

- 도수(frequency)
    - 분포되어 있는 개수 (ex. ```df.value_counts()```)
- 도수분포표
    - 도수로 만든 표 (...)

In [2]:
import numpy as np

freq_df = pd.read_csv('데이터 파일/2.5.csv')
freq, bins = np.histogram(freq_df, bins=6, range=(15.5, 33.5))
print(f"계급: {bins}")

계급: [15.5 18.5 21.5 24.5 27.5 30.5 33.5]


- 정수 자료이기 때문에 **계급을 소수 단위로 구성**하면 이상, 이하를 표시하지 않아도 됨!

In [3]:
# 도수분포표
freq_class = []
for i in range(len(bins) - 1):
    freq_class.append(f"{bins[i]}~{bins[i + 1]}")
    
freq_table = pd.DataFrame({'도수': freq}, index=freq_class)
freq_table

Unnamed: 0,도수
15.5~18.5,7
18.5~21.5,11
21.5~24.5,23
24.5~27.5,19
27.5~30.5,14
30.5~33.5,8


- 도수분포표를 통해 얻을 수 있는 그림
    - 히스토그램(histogram): 도수를 막대그래프 형태로 시각화
    - 도수다각형(frequency polygon): 각 계급의 중앙값을 직선으로 연결
    - 도수분포도(frequency distribution): 도수다각형을 부드러운 곡선으로 연결
    - 누적도수분포도(cumulative frequency distribution): 누적도수를 연결
- 상대도수(relative frequency)
    - 전체에 대한 도수의 비율
    - 백분율(%)로 표현되기에 **확률분포와 같은 개념**으로 이해 가능

In [4]:
# 상대도수
r_freq = freq / freq.sum()

# 누적상대도수
cum_r_freq = np.cumsum(r_freq)

freq_table['상대도수'] = r_freq
freq_table['누적상대도수'] = cum_r_freq
freq_table

Unnamed: 0,도수,상대도수,누적상대도수
15.5~18.5,7,0.085366,0.085366
18.5~21.5,11,0.134146,0.219512
21.5~24.5,23,0.280488,0.5
24.5~27.5,19,0.231707,0.731707
27.5~30.5,14,0.170732,0.902439
30.5~33.5,8,0.097561,1.0


```np.cumsum()```은 **누적 합**을 계산한다!