# 데이터분석 의사결정을 위한 수학/통계적 언어를 이해하기

## 데이터 관점에 따른 분류

<!-- - **시계열분석 Target 데이터: 최소 시계열/시계열횡단면/패널 데이터 (횡단면 데이터 시계열분석 불가)**  
- **시계열분석 시간축: 초/분/시/일/월/년 등 (Tick 단위 이하 및 빛의 속도 이상 제외)**   -->

|  | 횡단면 데이터(Cross Sectional) | 시계열 데이터(Time Series) | 시계열 횡단면 데이터(Pooled Cross Section) | 패널 데이터(Panel) |
|--------------------------------|-----------------------------------------|--------------------------------------------|------------------------------------|---------------------------------------------|
| 정의 | 특정시점 + 다수독립변수 | 다수시점 + 특정독립변수 | 다수독립변수 + 다수시점 | 다수독립변수 + 다수시점 (동일 변수 및 시점) |
| 예시 | 2016년 16개 시도의 GRDP와 최종소비 | 연도별 전국 GRDP와 최종소비 | 연도별 16개 시도의 GRDP와 최종소비 | 연도별 16개 시도의 GRDP와 최종소비 |
| 특징 | 값 독립적, 모집단 중 특정 시점 표본추출 | 값 Serial-correlation/Trend/Seasonality 등 | 시점/변수 불일치로 공백 가능 | 시점/변수 일치로 연구자들이 가장 선호 |

<center><img src='Image/Data_Type.png' width='600'></center>

## 데이터 변수구분 및 용어정리
- **원데이터(Raw Data)**: 수집된 차례로 기록되어 처리되지 않고 순서화되지 않은 데이터 **(ex. Log, Table)**    
- **변수(Variable)**: 정보가 수집되는 특정한 개체나 대상 (보통 열(Column) 값들을 의미)
- **질적변수 vs 양적변수**: 데이터의 특성에 따른 분류
    - 질적변수(Qualitative Variable): 변수의 값이 비수치적 특정 카테고리에 포함 시키도록 하는 변수 (ex.색상, 성별, 종교)
        - 명목변수(Nominal Variable): 변수의 값이 특정한 범주(Category)에 들어가지만 해당 범주간 순위는 존재하지 않는 것 (ex.혈액형)
        - 순위변수(Ordinal Variable): 변수의 값이 특정 범주에 들어가면서 변수의 값이 순위를 가지는 경우 (ex.성적)
    - 양적변수(Quantitative Variable): 변수의 값을 숫자로 나타 낼 수 있는 변수 (ex. 키, 몸무게, 소득)
        - 이산변수(Discrete Variable): 하나하나 셀 수 있는 변수 (ex.정수)
        - 연속변수(Continuous Variable): 이산변수와 다르게 변수의 값 사이에 무수히 많은 또 다른 값들이 존재하는 경우 (ex.실수)
            - 등간변수: 변수들 순서뿐만 아니라 순서 사이의 간격을 알 수 있는 변수
            - 비율변수: 등간변수의 특성에 더하여 측정데이터 간의 비율계산이 가능한 변수
- **독립변수 vs 종속변수**: 데이터의 관계에 따른 분류
    - 독립변수(Independent Variable): 다른 변수에 영향을 미치는 변수
    - 종속변수(Dependent Variable): 다른 변수에 영향을 미치지 못하고 다른 변수의 영향을 받는 변수
    

## 데이터의 기초 통계량 (Descriptive Statistics)

### 중심 통계량: 데이터의 중심경향을 나타내는 수치
- **[평균(Average)](https://en.wikipedia.org/wiki/Average)**: 표본데이터의 중심무게 (산술평균, 기하평균, 조화평균, 가중평균)  
- **[중앙값(Median)](https://en.wikipedia.org/wiki/Median)**: 순서를 가진 표본데이터의 가운데(50%)에 위치한 값
- **[최빈값(Mode)](https://en.wikipedia.org/wiki/Mode_(statistics))**: 표본데이터 중 가장 빈번한 값

<center><img src='Image/Statistics_MMM.png' width='200'></center>

### 변동 통계량: 데이터의 변동성을 나타내는 수치
- **범위(Range)**: 최대값과 최소값의 차이
- **편차(Deviation)**: 관측값과 평균의 차이
- **변동(Variation)**: 편차 제곱의 합
- **분산(Variance)**: 편차 제곱의 합을 데이터의 수로 나눈 값
- **표준편차(Standard Deviation)**: $\sqrt{분산}$  

<center><img src='Image/Statistics+deviation+and+variance.jpg' width='400'></center>

### 형태 통계량: 데이터의 분포형태와 왜곡을 나타내는 수치
- **왜도(Skewness)**: 평균을 중심으로 좌우로 데이터가 편향되어 있는 정도
- **첨도(Kurtosis)**: 뾰족함 정도
- **[이상치(Outlier)](https://en.wikipedia.org/wiki/Outlier)**: 오류로 판단하는 값이지만 기준이 불명확

<center><img src='Image/Statistics_Skew_Kurt.gif' width='600'></center>

### 관계 통계량: 데이터간의 관계를 나타내는 수치
- **상관관계(Correlation)**: A변수의 변화와 B변수의 변화방향의 (선형적)유사성으로 표준화된 공분산이라고도 함

<center><img src='Image/Correlation.png' width='400'></center>

- **인과관계(Causality)**: A변수와 B변수중 하나는 원인이 되고 다른 하나는 결과가 되는 관계성

<center><img src='Image/Correlation_Causation.png' width='500'></center>

- **예시:**
    - 아이스크림 판매량 vs 익사자의 수  
    - 화재 현장에 출동하는 소방대원 수 vs 화재의 규모   
    - 해적의 수가 감소됨과 동시에 지구 온난화가 증가됨  

### 함정
- **통계를 이용한 조작**: 특정하게 skew된 sample 수집, 임의로 outlier를 정해서 값변경

## 문제정의 및 의사결정을 위한 실험설정
> **필요성1: 대부분의 분석은 "누구나" 할수 있는 "비교(A/B Test)"를 기반으로 하며, 일상생활부터 연구논문까지 다양**  
**필요성2: "설명력"과 "(모델)복잡도"는 반비례하는 경향이 있으며, 설명력이 수반되는 모델들은 가설검정 해석이 필수**
> - 분석목적예시: 양치기들이 거짓말쟁이인가?  
>> - 나의주장(B): 양치기들은 거짓말쟁이다!  
>> - 대중주장(A): 양치기들은 거짓말쟁이가 아니다!  

### 가설설정 조건 3가지:  
1. **상호배반적(Mutually Exclusive)**: 나의주장과 대중주장은 모호함 없이 독립적이어야 하며 더하면 다른주장은 없어야 함
    - 거짓말쟁이를 어떻게 정의하지? 어느 수준이 거짓말쟁이라는거지? 
        > - 나의주장: 양치기들은 다 거짓말쟁이다!  
        > - 대중주장: 모든 양치기들이 다 거짓말쟁이는 아니다!  
        
        <center><img src='Image/Probability-mutually-exclusive.png' width='600'></center>

2. **증명가능성(Demostrable)**: 성급한 일반화에 빠지지 않으려면 증명 가능한 것이나 범위로 내세워야 함  
    - 모든 양치기들을 확인하기도 어렵고 일부 양치기들 중에는 거짓말쟁이가 아닌 양치기도 있을 수 있음
    - 모든 양치기를 조사후 거짓말쟁이가 없다 하더라도 과거에는 거짓말 했을 수도 있음  
        > - 나의주장: 현재 대한민국에 있는 양치기들은 일반적으로 거짓말하는 경향이 있다!
        > - 대중주장: 그들이라고 일반적으로 더 거짓말을 하는 경향이 있지는 않다!  
3. **구체적(Specific)**: 충분히 구별되고 실현가능한 표현으로 정의되어야 함
    > - 나의주장: 현재 대한민국에 있는 양치기들은 일반인 대비 거짓말을 많이 한다!
    > - 대중주장: 현재 대한민국에 있는 양치기들은 일반인 대비 거짓말을 많이 하지 않는다!  
        >> **가설변경에 따라 데이터분석이 변경됨!**  

### 가설검정 정리 및 절차:
- **모집단(Population)**: 연구(관심) 대상이 되는 전체 집단  
- **표본(Sample)**: 모집단에서 선택된 일부 집단
- **전수조사(Population Scale Test)**: 모집단 모두를 조사하는 방식으로 시간과 비용이 가장 비효율적인 방식 (ex.인구주택 총조사)
- **표본조사(Sample Scale Test)**: 표본집단을 조사하는 방식으로 시간과 비용을 크게 줄일 수 있으나 편향성(Bias) 문제 존재 (ex.출구조사, 여론조사)
    - [Sample을 편향되게 만드는 방법](https://cshlife.tistory.com/291)
    - [Sampling 과정에서 생기는 Bias 제거하는 방법](https://m.blog.naver.com/bluefish850/220698040249)  
- **추론통계(Statistical Inference)**: 모집단에서 샘플링한 표본집단을 가지고 모집단의 특성을 추론하고 그 신뢰성이 있는지 검정하는 것
    - 요즘은 내가 보유한 데이터를 표본으로, 보유하지 못하는 현실세계 전체의 데이터나 미래의 데이터를 모집단으로 보기도 함
    - 표본을 통해 모집단을 추정하기 때문에 표본의 특성이 모집단을 잘 반영해야 함
    - 표본의 기초통계(Descriptive Statistics) 확인을 통해 분포를 확인해야 함 (분포에 따라 분석 방법이 달라짐)
        > - 모집단: 현재 전 세계 사람  
        > - 샘플집단: 현재 대한민국 사람
            >> - 샘플집단1: 현재 대한민국 양치기들
            >> - 샘플집단2: 현재 대한민국 일반인들
- **통계량(Statistic)**: 표본의 특성을 나타내는 수치  
- **모수(Parameter)**: 통계량을 통해 알게 된 모집단의 특성
- **표본오차(Sampling Error)**: 표본평균으로 모평균을 알아내는 것이 추론통계의 목적이기 때문에 "모평균-표본평균"으로 계산
    - 모평균은 모집단에서 표본추출을 통해 얻어진 표본평균으로 추정된 모집단의 특성이며, 절대 표본평균이 모평균을 그대로 나타내는 것은 아님!
- **중심극한정리(Central Limit Theorem)**:   
    **"전체 모집단에서 여러 번 Sample을 추출해라. 그리고 Sample마다 평균을 구해라.**  
    **이 평균들의 분포는 정규분포이며 전체 모집단의 평균으로 수렴한다."**
    $${\bar{X} \overset{\alpha}{\sim} N(~\mu, \frac{\sigma^2}{n})}$$
    1. 모집단이 어떤 분포든 "Sample 평균"의 분포는 정규분포다.  
    2. "Sample 크기"가 클수록 "Sample 평균"의 분산은 낮아진다.  
    3. "Sample 분산"은 대체로 원집단 분산에 매우 근접한다.  
    4. Sample 평균과 분산만으로 모집단의 평균과 분산을 추론할 수 있다.  
    5. CLT를 통한 추론으로 모집단의 분포 형태까지 추론하지는 못한다.  
    (*모집단과 표본집단 비교 대신 표본집단간 비교 수렴에도 성립한다)
    
<center><img src='Image/CLT.jpg' width='600'></center>
    
> **"나의주장이 틀렸다면,"**
>> **- 양치기들과 일반인들의 거짓말 빈도가 전혀 차이가 없어야 함**  
>> **- 모든 양치기들을 조사하지 않더라도 Sample로 추출한 양치기의 거짓말 횟수 평균은 일반인의 거짓말 횟수 평균에 수렴해야 함**  
>> **- 양치기의 거짓말 횟수 평균이 일반인의 거짓말 횟수 평균보다 같거나 적어야 함**

---
**1. 가설 설정**
- **대립가설(Alternative Hypothesis, $H1$)**: 새로운 현상이나 주장(나의주장)
> - 대립가설: 현재 대한민국에 있는 양치기들은 일반인 대비 거짓말을 많이 한다!
- **귀무가설(Null Hypothesis, $H0$)**: 현재의 상황이나 통념(대중주장)
> - 귀무가설: 현재 대한민국에 있는 양치기들은 일반인 대비 거짓말을 많이 하지 않는다!  
    
**2. 검정통계량 및 유의확률 추정**  
- **[검정통계량(Test Statistics)](https://en.wikipedia.org/wiki/Test_statistic)**: 대립가설(나의주장)과 귀무가설(대중주장)을 비교하기 위한 검증(Evaluation)지표값, 일명 "점추정"  
    > - 검정통계량: ${샘플집단~~양치기~~거짓말~~빈도~~평균~~-~~샘플집단~~일반인~~거짓말~~빈도~~평균 \over 샘플집단~~양치기~~거짓말~~빈도~~표준편차}$
        >> - 양치기와 일반인의 거짓말 빈도가 차이가 없다면 이상적인 검정통계량은 0이고 나의주장 틀린 것
        >> - 양치기와 일반인의 거짓말 빈도가 차이가 있다면 검정통계량이 0에서 많이 벗어날수록(큰 양수) 나의주장 옳은 것
    > - 검정통계량 로직:
        >> - 두 표본평균의 분포를 보려고 하면 분석이 어렵기 때문에, "두 표본의 차"만을 분석하면 간단해짐
        >> - X와 Y를 각각 추정하는 것보다 X-Y만 추정하면 훨씬 단순한 모형
        >> - 정규분포에서 정규분포를 빼도 정규분포
        <center><img src='Image/Comparison_Test.png' width='600'></center>

- **신뢰구간(Confidence Interval)**: 검정통계량이 발생가능한 구간, 일명 "구간추정"  

- **유의수준(Significant Level, $\alpha$)**: 
> **"귀무가설이 참인데 잘못된 데이터 또는 실험으로 귀무가설을 기각(Reject)할 허용오류"**
> - **유의수준 5%:**  
>> - 양치기와 일반인의 거짓말 차이가 없다는 전제 하에, 
>> - 100번 중 95번은 귀무가설이 관찰되고(양치기와 일반인의 거짓말 차이가 없음),
>> - 100번 중 5번은 대립가설이 관찰된다(양치기와 일반인의 거짓말 차이가 있음)

**4. (나의주장) 기각/채택 의사결정**
- **유의확률(p-value)**: 
> **1) 수학적: 귀무가설이 참인데 "나의 실험데이터"에서 귀무가설을 기각(Reject)할 확률**   
> **2) 비수학적: 분석가의 데이터가 문제가 있고 그 결과 귀무가설을 함부러 기각하고 자신의 주장이 참이라 주장할 오류**    
> - **유의확률 10%:** 
>>  나의 데이터는,
>> - 100번 중 90번은 대립가설이 관찰되고(양치기와 일반인의 거짓말 차이가 있음)
>> - 100번 중 10번은 귀무가설이 관찰된다(양치기와 일반인의 거짓말 차이가 없음)
>> - 귀무가설이 참인 일반적인 경우가 가장 높은 빈도이므로,
>> - 양치기와 일반인의 거짓말 차이가 없다!
> - **유의확률 1%:** 
>>  나의 데이터는,
>> - 100번 중 99번은 대립가설이 관찰되고(양치기와 일반인의 거짓말 차이가 있음)
>> - 100번 중 1번은 귀무가설이 관찰된다(양치기와 일반인의 거짓말 차이가 없음)
>> - 대립가설이 참인 희박한 경우가 가장 높은 빈도이므로,
>> - 양치기와 일반인의 거짓말 차이가 있다!

<center><img src='Image/Statistical-Significance-P-Value.png' width='600'></center>

<center><img src='Image/Statistics_Confidence_Interval1.png' width='600'></center>

- **양측검정/좌측검정/우측검정**:

| 양측검정 | 좌측검정 | 우측검정 |
|--------------------------------------------------------------------------------------------------------------------------------------------|--------------------------------------------------------------------------------------------------------------------------------------------|-------------------------------------------------------------------------------------------------------------------------------------------|
| <img src='Image/Statistics_Confidence_Interval2.png' width='400'> | <img src='Image/Statistics_Confidence_Interval3.png' width='400'> | <img src='Image/Statistics_Confidence_Interval4.png' width='400'> |

### 예시 및 정리
**> 이해문제1: 양치기들이 거짓말쟁이인가?**  

1) 가설설정  
> - **대중주장:** 현재 대한민국에 있는 양치기들은 일반인 대비 거짓말을 많이 하지 않는다!   
> - **나의주장:** 현재 대한민국에 있는 양치기들은 일반인 대비 거짓말을 많이 한다!   

2) 점추정 및 구간추정  
> - **검정통계량(점추정):** ${샘플집단~~양치기~~거짓말~~빈도~~-~~샘플집단~~일반인~~거짓말~~빈도 \over 샘플집단~~양치기~~거짓말~~빈도~~표준편차}$ (1회성)    
> - **신뢰구간(구간추정):** 실험을 여러번 반복해서 거짓말차이(검정통계량)의 히스토그램 또는 분포 (반복성)   

3) 유의수준 및 유의확률
> - **유의수준:** 양치기와 일반인이 거짓말 차이가 없는데, 차이가 있다고 오류를 범할 확률
> - **유의확률:** 양치기와 일반인이 거짓말 차이가 없는데, 실제 실험에서 차이가 있다고 나타날 확률

4) 의사결정: (유의수준 5%기준)
> - **나의주장 참:** 허용오류가 5%인데, 나의 실험과 데이터에서 나타날 오류는 3%로 더욱 낮기에 나의 주장은 신뢰성이 있고 양치기들은 거짓말쟁이!  
> - **대중주장 참:** 허용오류가 5%인데, 나의 실험과 데이터에서 나타날 오류는 7%로 더욱 높기에 나의 주장은 신뢰할 수 없고 대중의 주장대로 양치기들은 거짓말쟁이가 아님!   

-----

**> 이해문제2: (논문읽기 A/B Test) 내 알고리즘의 성능은 좋은가?**  

1) 가설설정  
> - **대중주장:** 지금까지 존재하는 알고리즘의 정확성은 최대 80%  
> - **나의주장:** 내가 만든 알고리즘의 정확성은 90%  

2) 점추정 및 구간추정  
> - **검정통계량(점추정):** 지금까지 존재하는 알고리즘들로 나올수 있는 정확성 (1회성)    
> - **신뢰구간(구간추정):** 정확성을 여러번 반복해서 계산 시 정확성의 히스토그램 또는 분포 (반복성)   

3) 유의수준 및 유의확률
> - **유의수준:** 일반적인 알고리즘 정확성이 최대 80%인데, 알고리즘 정확성이 80%이상 나올 수 있는 허용오류 
> - **유의확률:** 일반적인 알고리즘 정확성이 최대 80%인데, 나의 실험에서 정확성이 80%이상이 관찰될 확률  

4) 의사결정: (유의수준 5%기준)
> - **나의주장 참:** 허용오류가 5%인데, 나의 실험에서 80%이상 정확성이 관찰될 확률은 3%로 더욱 희박하니 90%라는 알고리즘 정확성을 신뢰할만 하고 내가 만든 알고리즘은 훌륭한 알고리즘!  
> - **대중주장 참:** 허용오류가 5%인데, 나의 실험에서 80%이상 정확성이 관찰될 확률은 7%로 높은 오류이니 90%라는 알고리즘 정확성을 신뢰하기 어렵고 내가 만든 알고리즘은 일반적인 알고리즘!  
-----

**> 심플정리1: 에너XXX 건전지 수명이 듀XX 보다 길다?**

1) 가설확인:
> - **대중주장(H0):** 에너XXX 수명 = 듀XX 수명
> - **나의주장(H1):** 에너XXX 수명 > 듀XX 수명

2) 유의수준 설정 및 유의확률 확인:
> - **유의수준:** 5%
> - **유의확률:** 1% (H0가 참이란 가정에, 건전지 평균 수명(검정통계량) 100개를 실험)

3) 의사결정
> - **유의수준 > 유의확률:** 나의주장 참!  
-> 에너XXX 수명이 더 김
> - **유의수준 < 유의확률:** 대중주장 참!  
-> 에너XXX 수명이 더 길지 않음

-----

**> 심플정리2: 숟가락을 잘 구부리는 나는 초능력자다?**

1) 가설확인:
> - **대중주장(H0):** 내 능력 = 다른 사람의 능력
> - **나의주장(H1):** 내 능력 > 다른 사람의 능력

2) 유의수준 설정 및 유의확률 확인:
> - **유의수준:** 5%
> - **유의확률:** 8% (H0가 참이란 가정에, 숟가락 구부린 횟수(검정통계량) 100명과 비교)

3) 의사결정
> - **유의수준 > 유의확률:** 나의주장 참!  
-> 나는 초능력자!
> - **유의수준 < 유의확률:** 대중주장 참!  
-> 나는 일반인!

-----

**> 현실문제1: 회귀분석 (점추정 & 구간추정 & 결과해석)** 
<center><img src='Image/Example_Interval_Estimation.png' width='500'></center>
<center><img src='Image/Statmodels_OLS_Result.png' width='600'></center>

-----

**> 현실문제2: 출구조사** 
> - **(방송표현)** "출구조사 결과 A후보의 지지율은 40%로 추정되며, 95% 신뢰구간에서 +-3%의 오차가 발생할 수 있습니다"  
> - **(통계표현)** "샘플링을 통해 A후보의 지지율(검정통계량)의 평균값은(점추정) 40%이며, 실제 모집단 확대시 A후보의 지지율이 37%~43%(구간추정)에 있을 확률이 샘플링 100번 중 95번 정도다"  