# 기술통계와 추론통계 Descriptive Statistics and Inferential Statistics


## 1. 개요

- 기술통계와 추론통계는 모두 통계학에서 기초적이고 중요한 개념입니다.
- 데이터 분석에서 기술통계와 추론통계는 상호보완적으로 사용됩니다.
- 기술통계는 데이터의 특성을 요약하고 설명하는 데 사용되며, 추론통계는 표본 데이터를 기반으로 모집단에 대한 결론을 도출하고 예측하는 데 사용됩니다.


## 2. 기술통계

- 1)개요: 얻어진 자료 분석
  - 기술통계는 데이터를 수치화하고 정량화하여 요약하고 설명하는 통계 방법입니다.
  - 주로 하나의 변수나 집단에 관련된 자료를 체계적으로 조직화하거나 요약하여 데이터의 전반적인 특성을 파악하는 것이 목적입니다.
  - 기술통계를 통해 데이터의 패턴과 경향성을 파악할 수 있습니다.

- 2)주요 특징
  - 방법 : 데이터를 의미 있는 방식으로 수집, 정리, 분석, 제시합니다.
  - 용법 : 주어진 데이터를 기반으로 현상을 설명합니다.
  - 기능 : 표본 또는 전체 데이터를 요약하고 설명하는 데 사용됩니다.
  - 최종 결과 형태 : 도표, 그래프, 테이블 등으로 시각화된 결과

- 3)기술통계에 사용되는 기법
  - (1)중심 경향성
    - 기술 : 평균, 중앙값, 최빈값
    - 설명 : 데이터를 대표하는 중심 값을 나타내며, 데이터가 집중되어 있는 위치를 설명합니다.
   
  - (2)산포도
    - 기술 : 범위, 분산, 표준편차, 사분위수
    - 설명 : 데이터가 얼마나 넓게 퍼져 있는지를 나타내며, 변동성을 측정합니다.

      - **범위** (Range) : 데이터에서 가장 큰 값과 가장 작은 값의 차이로, 데이터의 전체 변동성을 단순하게 나타냅니다. 범위가 클수록 데이터의 변동폭이 넓음을 의미합니다.
        $$
        \text{범위} = \text{최대값} - \text{최소값}
        $$
    
    - **분산** (Variance): 각 데이터 포인트가 평균에서 얼마나 떨어져 있는지를 제곱하여 평균을 낸 값입니다. 분산이 클수록 데이터 포인트들이 평균으로부터 더 많이 흩어져 있음을 나타냅니다.<br/>
        모집단분산
        $$
        \sigma^2 = \frac{1}{N}\sum_{i=1}^{N}(x_i - \mu)^2
        $$
        
        표본분산
        $$
        s^2 = \frac{1}{n-1}\sum_{i=1}^{n}(x_i - \bar{x})^2
        $$

    - **표준편차** (Standard Deviation): 분산의 제곱근으로, 데이터가 평균을 중심으로 얼마나 흩어져 있는지를 나타냅니다. 표준편차가 작을수록 데이터가 평균에 가까이 모여 있음을 의미합니다.
        $$
        \sigma = \sqrt{\frac{1}{N}\sum_{i=1}^{N}(x_i - \mu)^2}
        \quad \text{(모집단)}
        $$
        $$
        s = \sqrt{\frac{1}{n-1}\sum_{i=1}^{n}(x_i - \bar{x})^2}
        \quad \text{(표본)}
        $$

    - **사분위수** (Quartiles): 데이터를 네 부분으로 나누는 값들로, 데이터의 중간 50%의 범위를 나타냅니다. IQR은 데이터의 중간 절반이 얼마나 퍼져 있는지를 나타내는 중요한 지표입니다.
        - 1사분위수(Q1): 데이터의 하위 25%
        - 2사분위수(Q2, 중앙값): 데이터의 하위 50%
        - 3사분위수(Q3): 데이터의 상위 25%
        - **사분위 범위(IQR)**: 
          $$
          IQR = Q3 - Q1
          $$

   
  - (3)분포
    - 기술: 왜도, 첨도
    - 설명: 데이터의 분포 형태를 설명하며, 왜도는 비대칭 정도를, 첨도는 분포의 뾰족한 정도를 나타냅니다.
      
      - **왜도** (Skewness) : 데이터의 분포가 좌우로 비대칭인 정도를 나타냅니다. 왜도가 0이면 분포가 대칭임을 의미하고, 양수이면 오른쪽으로 긴 꼬리, 음수이면 왼쪽으로 긴 꼬리를 가진 분포를 의미합니다.
        $$
        \text{왜도} = \frac{1}{N} \sum_{i=1}^{N} \left(\frac{x_i - \mu}{\sigma}\right)^3
        $$

      - **첨도** (Kurtosis) : 데이터의 분포가 얼마나 뾰족한지를 나타냅니다. 첨도가 0이면 정규분포와 유사한 형태를 가지며, 양수는 뾰족하고 두꺼운 꼬리를, 음수는 평평하고 가는 꼬리를 가진 분포를 의미합니다.
        $$
        \text{첨도} = \frac{1}{N} \sum_{i=1}^{N} \left(\frac{x_i - \mu}{\sigma}\right)^4 - 3
        $$

  - (4)빈도와 백분율
    - 기술: 빈도, 빈도분포, 백분위수
    - 설명: 각 값의 발생 빈도와 전체 값 중에서 차지하는 비율을 나타냅니다.


## 3. 추론통계

- 1)개요: 모집단 추정
  - 추론통계는 표본 데이터를 바탕으로 모집단에 대한 결론을 유추하고 예측하는 통계 방법입니다.
  - 표본 통계치로부터 모집단의 특성을 추정하거나 가설을 검증하는 데 중점을 둡니다.
  - 불확실성과 표본 오차를 고려하여 모집단에 대한 추정을 수행합니다.

- 2)주요 특징
  - 방법: 
    1. 표본 데이터를 기반으로 모집단에 대한 가설을 검증
    2. 미래 예측 수행
  - 용법: 특정 사건이나 현상이 발생할 확률을 추정합니다.
  - 기능: 표본 데이터를 통해 모집단의 특성을 추론합니다.
  - 최종 결과 형태 : 확률, 신뢰구간, 가설검정 결과 등

- 3)주요 개념 및 기법
  - (1)점추정
    - 모수(parameter)의 가장 가능성 높은 값을 추정하는 방법입니다.
    - **적률법** : 표본의 적률(moment)을 이용해 모수를 추정하는 방법입니다. 이는 주어진 표본의 평균, 분산 등의 통계량을 사용하여 모수를 추정하는 간단한 방법입니다.
    - **최대우도추정법** : 관측된 데이터가 주어진 모수에서 관찰될 가능성(우도)을 최대화하는 모수 값을 추정하는 방법입니다.
    - **최소제곱법** : 오차 제곱합이 최소가 되는 모수를 추정하는 방법입니다.

  - (2)구간추정
    - 모수의 값이 속할 것으로 예상되는 신뢰구간을 사용하여 추정하는 방법입니다.
    - 표준정규분포, t-분포 등의 분포를 기반으로 합니다.
    - 예: '신뢰구간 95%'란 동일한 방법으로 표본을 반복적으로 추출했을 때, 100번 중 95번은 모수가 구간 내에 포함될 것이라는 의미입니다.
    - **p-값 (p-value)**: 관찰된 데이터가 귀무가설 하에서 나타날 확률을 의미하며, 작은 p-값은 귀무가설을 기각할 증거가 강함을 나타냅니다.


  - (3)가설검정
    - 모집단의 모수에 대한 가설을 설정하고, 표본 통계치를 통해 가설의 진위를 검정하는 과정입니다.
    - 표본 데이터를 기반으로 모집단에 대한 특정 주장(가설)이 타당한지 판단합니다.
    - **오류 유형**:
      - **1종 오류 (제1종 오류, Type I Error)**: 실제로는 참인 귀무가설을 기각하는 오류입니다. 1종 오류가 발생할 확률은 유의수준(α)으로 설정되며, 일반적으로 5%로 설정됩니다. 이는 연구자가 허위로 효과나 차이가 존재한다고 결론 내리는 경우에 해당합니다.
      - **2종 오류 (제2종 오류, Type II Error)**: 실제로는 거짓인 귀무가설을 기각하지 않는 오류입니다. 2종 오류가 발생할 확률은 β로 표시되며, 1종 오류와는 상반된 개념입니다. 이는 실제 효과나 차이가 존재하는데도 이를 발견하지 못하는 경우에 해당합니다.
    - **통계적 검정력**: 제2종 오류를 범할 확률의 보완으로, 귀무가설이 거짓일 때 이를 올바르게 기각할 확률을 의미합니다. 검정력이 높을수록 가설검정의 유효성이 증가합니다.

#### (4) 차이검정


  - (4)차이검정
    - 두 집단 간의 평균값의 차이를 검증하는 분석 방법입니다.
    - t-검정(t-test), 분산분석(ANOVA) 등을 사용합니다.
      - **t-검정(t-test)**: 두 집단 간 평균 차이를 비교하는 통계적 방법으로, 주로 작은 표본에서 평균의 차이가 통계적으로 유의미한지 판단하는 데 사용됩니다.
        - **독립표본 t-검정**: 서로 다른 두 집단의 평균을 비교하여 두 집단 간 차이가 있는지 검정합니다. 예를 들어, 남성과 여성 간의 평균 키 차이를 비교할 수 있습니다.
        - **대응표본 t-검정**: 동일한 집단의 사전/사후 데이터를 비교하여 시간이나 조건 변화에 따른 차이를 검정합니다. 예를 들어, 특정 치료 전후의 환자의 혈압 변화를 비교할 수 있습니다.
      - **분산분석(ANOVA)**: 세 개 이상의 집단 간 평균 차이를 검증하는 방법으로, 주로 여러 집단 간의 평균이 동일한지 여부를 판단합니다. 
        - **일원 분산분석 (One-Way ANOVA)**: 한 가지 요인(factor)에 대해 세 개 이상의 집단 간 평균 차이를 비교합니다. 예를 들어, 세 가지 다른 식단이 체중 감소에 미치는 영향을 비교할 수 있습니다.
        - **이원 분산분석 (Two-Way ANOVA)**: 두 가지 요인에 대해 평균 차이를 검토하며, 요인 간 상호작용도 분석할 수 있습니다. 예를 들어, 식단과 운동의 조합이 체중 감소에 미치는 영향을 분석할 수 있습니다.

  - (5)관계검정
    - 독립변수와 종속변수 간의 관련성을 검토하는 방법입니다.
    - 교차분석, 상관분석, 회귀분석 등이 이에 해당합니다.

## 참고자료

https://velog.io/@tnsida315/%EA%B8%B0%EC%88%A0%ED%86%B5%EA%B3%84%EC%99%80-%EC%B6%94%EB%A1%A0-%ED%86%B5%EA%B3%84

https://com-flex.tistory.com/86

https://shinbe.tistory.com/entry/%EA%B8%B0%EC%88%A0%ED%86%B5%EA%B3%84-%EC%B6%94%EB%A1%A0%ED%86%B5%EA%B3%84