# 데이터 구조를 이해하고 구조에 따른 분석방향 이해하기

## 데이터 관점에 따른 분류

- **시계열분석 Target 데이터: 최소 시계열/시계열횡단면/패널 데이터 (횡단면 데이터 시계열분석 불가)**  
- **시계열분석 시간축: 초/분/시/일/월/년 등 (Tick 단위 이하 및 빛의 속도 이상 제외)**  

|  | 횡단면 데이터(Cross Sectional) | 시계열 데이터(Time Series) | 시계열 횡단면 데이터(Pooled) | 패널 데이터(Panel) |
|------|-----------------------------------------------|-------------------------------------------------------|-------------------------------------------------|-------------------------------------------|
| 정의 | 특정시점 + 다수독립변수 | 다수시점 + 특정독립변수 | 다수독립변수 + 다수시점 | 다수독립변수 + 다수시점 (동일 변수 및 시점) |
| 예시 | 2016년 16개 시도의 GDP와 최종소비 | 연도별 전국 GDP와 최종소비 | 연도별 16개 시도의 GDP와 최종소비 | 연도별 16개 시도의 GDP와 최종소비 |
| 특징 | 값 독립적, 모집단 중 특정 시점 표본추출 | 값 Serial-correlation/Trend/Seasonality 등 | 시점/변수 불일치로 공백 가능 | 시점/변수 일치로 연구자들이 가장 선호 |

<img src='https://i1.wp.com/triki.net/wp-content/uploads/2018/11/statistics-data-1-1.png?w=756' width='600'>
<center>(http://triki.net/wiki/3343)</center>

## 데이터 변수구분 및 개념정리
- **원자료(Raw Data)**: 수집된 차례로 기록되어 처리되지 않고 순서화되지 않은 데이터  
- **변수(Variable)**: 정보가 수집되는 특정한 개체나 대상 (보통 열(Column) 값들을 의미)
- **질적변수 vs 양적변수**: 자료의 특성에 따른 분류
    - 질적변수(Qualitative Variable): 변수의 값이 비수치적 특정 카테고리에 포함 시키도록 하는 변수 (ex.색상, 성별, 종교)
        - 명목변수(Nominal Variable): 변수의 값이 특정한 범주(Category)에 들어가지만 해당 범주간 순위는 존재하지 않는 것 (ex.혈액형)
        - 순위변수(Ordinal Variable): 변수의 값이 특정 범주에 들어가면서 변수의 값이 순위를 가지는 경우 (ex.성적)
    - 양적변수(Quantitative Variable): 변수의 값을 숫자로 나타 낼 수 있는 변수 (ex. 키, 몸무게, 소득)
        - 이산변수(Discrete Variable): 하나하나 셀 수 있는 변수 (ex.정수)
        - 연속변수(Continuous Variable): 이산변수와 다르게 변수의 값 사이에 무수히 많은 또 다른 값들이 존재하는 경우 (ex.실수)
            - 등간변수: 변수들 순서뿐만 아니라 순서 사이의 간격을 알 수 있는 변수
            - 비율변수: 등간변수의 특성에 더하여 측정자료 간의 비율계산이 가능한 변수
- **독립변수 vs 종속변수**: 자료의 관계에 따른 분류
    - 독립변수(Independent Variable): 다른 변수에 영향을 미치는 변수
    - 종속변수(Dependent Variable): 다른 변수에 영향을 미치지 못하고 다른 변수의 영향을 받는 변수

# 분석 단계별 의사결정을 위한 수학/통계적 언어를 이해하기

## 기술통계 기본용어 (Descriptive Statistics)

### 중심 특성: 자료의 중심경향을 나타내는 통계량
- **[평균(Average)](https://en.wikipedia.org/wiki/Average)**: 표본자료의 중심무게 (산술평균, 기하평균, 조화평균, 가중평균)  
- **[중앙값(Median)](https://en.wikipedia.org/wiki/Median)**: 순서를 가진 표본자료의 가운데(50%)에 위치한 값
- **[최빈값(Mode)](https://en.wikipedia.org/wiki/Mode_(statistics))**: 표본자료 중 가장 빈번한 값
<img src='https://upload.wikimedia.org/wikipedia/commons/thumb/3/33/Visualisation_mode_median_mean.svg/800px-Visualisation_mode_median_mean.svg.png' width='200'>
<center>(https://en.wikipedia.org/wiki/Mode_(statistics)#/media/File:Visualisation_mode_median_mean.svg)</center>

### 변동/산포 특성: 자표의 변동성을 나타내는 통계량
- **범위(Range)**: 최대값과 최소값의 차이
- **편차(Deviation)**: 관측값과 평균의 차이
- **변동(Variation)**: 편차 제곱의 합
- **분산(Variance)**: 편차 제곱의 합을 데이터의 수로 나눈 값
- **표준편차(Standard Deviation)**: $\sqrt{분산}$
<img src='https://slideplayer.com/slide/6413350/22/images/6/Example+Find+the+standard+deviation+and+variance.jpg' width='400'>

### 형태 특성: 자표의 분포형태의 왜곡을 나타내는 통계량
- **왜도(Skewness)**: 평균을 중심으로 좌우로 데이터가 편향되어 있는 정도
- **첨도(Kurtosis)**: 뾰족함 정도
<img src='https://cdn-images-1.medium.com/max/800/1*RCN2MMk5MWmMWDHtgZjX1Q.gif' width='600'>
<center>(https://medium.com/@annishared/descriptive-statistics-ec6e9c60989c)</center>

### 기타 특성
- **[이상치(Outlier)](https://en.wikipedia.org/wiki/Outlier)**: 오류로 봐야 하는지 데이터로 봐야 하는지 명확한 기준 없음
- **통계를 이용한 조작**: 특정하게 skew된 sample 수집, 임의로 outlier를 정해서 값변경

## 기존주장과 신규주장의 비교(가설검정)

> - 분석목적: 양치기들이 거짓말쟁이인가?  
> - 나의주장: 양치기들은 거짓말쟁이다!  
> - 대중주장: 양치기들은 거짓말쟁이가 아니다!  

### 가설 설정 방법:  
1. **상호배반적(Mutually Exclusive)**: 나의주장과 대중주장은 모호함 없이 독립적이어야 하며 더하면 다른주장은 없어야 함
<img src='https://www.onlinemathlearning.com/image-files/probability-mutually-exclusive.png' width='600'>
<center>(https://www.onlinemathlearning.com/mutually-exclusive-events.html)</center>
    - 거짓말쟁이를 어떻게 정의하지? 어느 수준이 거짓말쟁이라는거지?
        > - 나의주장: 양치기들은 다 거짓말쟁이다!  
        > - 대중주장: 모든 양치기들이 다 거짓말쟁이는 아니다!  
2. **증명가능성(Demostrable)**: 성급한 일반화에 빠지지 않으려면 증명 가능한 것이나 범위로 내세워야 함  
    - 모든 양치기들을 확인하기도 어렵고 일부 양치기들 중에는 거짓말쟁이가 아닌 양치기도 있을 수 있음
    - 모든 양치기를 조사후 거짓말쟁이가 없다 하더라도 과거에는 거짓말 했을 수도 있음  
        > - 나의주장: 현재 대한민국에 있는 양치기들은 일반적으로 거짓말하는 경향이 있다!
        > - 대중주장: 그들이라고 일반적으로 더 거짓말을 하는 경향이 있지는 않다!  
3. **구체적(Specific)**: 충분히 구별되고 실현가능한 표현으로 정의되어야 함
    > - 나의주장: 현재 대한민국에 있는 양치기들은 일반인 대비 거짓말을 많이 한다!
    > - 대중주장: 현재 대한민국에 있는 양치기들은 일반인 대비 거짓말을 많이 하지 않는다!  
        >> **가설변경에 따라 데이터분석이 변경됨!**  

### 가설검정 정리 및 절차:
- **모집단(Population)**: 연구(관심) 대상이 되는 전체 집단  
- **표본(Sample)**: 모집단에서 선택된 일부 집단
- **전수조사(Population Scale Test)**: 모집단 모두를 조사하는 방식으로 시간과 비용이 가장 비효율적인 방식 (ex.인구주택 총조사)
- **표본조사(Sample Scale Test)**: 표본집단을 조사하는 방식으로 시간과 비용을 크게 줄일 수 있으나 편향성(Bias) 문제 존재 (ex.출구조사, 여론조사)
    - [Sample을 편향되게 만드는 방법](https://cshlife.tistory.com/291)
    - [Sampling 과정에서 생기는 Bias 제거하는 방법](https://m.blog.naver.com/bluefish850/220698040249)  
- **추론통계(Statistical Inference)**: 모집단에서 샘플링한 표본집단을 가지고 모집단의 특성을 추론하고 그 신뢰성이 있는지 검정하는 것
    - 요즘은 내가 보유한 데이터를 표본으로, 보유하지 못하는 현실세계 전체의 데이터나 미래의 데이터를 모집단으로 보기도 함
    - 표본을 통해 모집단을 추정하기 때문에 표본의 특성이 모집단을 잘 반영해야 함
    - 표본의 기초통계(Descriptive Statistics) 확인을 통해 분포를 확인해야 함 (분포에 따라 분석 방법이 달라짐)
        > - 모집단: 현재 전 세계 사람  
        > - 샘플집단: 현재 대한민국 사람
            >> - 샘플집단1: 현재 대한민국 양치기들
            >> - 샘플집단2: 현재 대한민국 일반인들
- **통계량(Statistic)**: 표본의 특성을 나타내는 수치  
- **모수(Parameter)**: 통계량을 통해 알게 된 모집단의 특성
- **표본오차(Sampling Error)**: 표본평균으로 모평균을 알아내는 것이 추론통계의 목적이기 때문에 "모평균-표본평균"으로 계산
    - 모평균은 모집단에서 표본추출을 통해 얻어진 표본평균으로 추정된 모집단의 특성이며, 절대 표본평균이 모평균을 그대로 나타내는 것은 아님!
- **중심극한정리(Central Limit Theorem)**: 
    <center>**"전체 모집단에서 여러 번 Sample을 추출해라. 그리고 Sample마다 평균을 구해라.**  
    **이 평균들의 분포는 정규분포이며 전체 모집단의 평균으로 수렴한다."**</center>
    $${\bar{X} \overset{\alpha}{\sim} N(~\mu, \frac{\sigma^2}{n})}$$
    1. 모집단이 어떤 분포든 "Sample 평균"의 분포는 정규분포다.  
    2. "Sample 크기"가 클수록 "Sample 평균"의 분산은 낮아진다.  
    3. "Sample 분산"은 대체로 원집단 분산에 매우 근접한다.  
    4. Sample 평균과 분산만으로 모집단의 평균과 분산을 추론할 수 있다.  
    5. CLT를 통한 추론으로 모집단의 분포 형태까지 추론하지는 못한다.  
    (*모집단과 표본집단 비교 대신 표본집단간 비교 수렴에도 성립한다)
<img src='https://d32ogoqmya1dw8.cloudfront.net/images/introgeo/teachingwdata/CntrlLt100.jpg' width='600'>
<center>(https://serc.carleton.edu/introgeo/teachingwdata/Statcentral.html)</center>
    
    > **나의주장이 틀렸다면 양치기들과 일반인들의 거짓말 빈도가 전혀 차이가 없어야 함**  
    > **모든 양치기들을 조사하지 않더라도 Sample로 추출한 양지기의 거짓말 횟수 평균은 일반인의 거짓말 횟수 평균에 수렴해야 함**  
    > **양치기의 거짓말 횟수 평균이 일반인의 거짓말 횟수 평균보다 같거나 적더라도 나의주장은 틀린 것**
---
**1. 가설 설정**
- **대립가설(Alternative Hypothesis, $H1$)**: 나의주장, 분석 방법별 정해져 있음(보통 차이가 있다/영향력이 있다/연관성이 있다/효과가 있다)  
    > - 대립가설: 현재 대한민국에 있는 양치기들은 일반인 대비 거짓말을 많이 한다!
- **귀무가설(Null Hypothesis, $H0$)**: 대중주장, 분석 방법별 정해져 있음(보통 차이가 없다/영향력이 없다/연관성이 없다/효과가 없다)  
    > - 귀무가설: 현재 대한민국에 있는 양치기들은 일반인 대비 거짓말을 많이 하지 않는다!  
    
**2. 유의수준 설정**
- **유의수준(Significant Level, $\alpha$)**: 가설을 검정할 때 이 기준의 확률로 발생하지 않을 일이 발생한거면 대립가설(나의주장)을 채택
    > - 유의수준 20%: 100번 샘플들을 뽑아 실험을 했을 때, 20번 미만으로 발생할 상황이 발생하면 대립가설(나의주장) 채택
    > - 유의수준 5%: 100번 샘플들을 뽑아 실험을 했을 때, 5번 미만으로 발생할 상황이 발생하면 대립가설(나의주장) 채택
    
**3. 검정통계량 및 유의확률 추정**  
- **[검정통계량(Test Statistics)](https://en.wikipedia.org/wiki/Test_statistic)**: 대립가설과 귀무가설을 비교하기 위한 "점추정" 검증(Evaluation)지표값  
    > - 검정통계량: ${샘플집단~~양치기~~거짓말~~빈도~~-~~샘플집단~~일반인~~거짓말~~빈도 \over 샘플집단~~양치기~~거짓말~~빈도~~표준편차}$
        >> - 양치기와 일반인의 거짓말 빈도가 차이가 없다면 이상적인 검정통계량은 0이고 나의주장 틀린 것
        >> - 양치기와 일반인의 거짓말 빈도가 차이가 있다면 검정통계량이 0에서 많이 벗어날수록(큰 양수) 나의주장 옳은 것
    > - 검정통계량 로직:
        >> - 두 표본평균의 분포를 보려고 하면 분석이 어렵기 때문에, "두 표본의 차"만을 분석하면 간단해짐
        >> - X와 Y를 각각 추정하는 것보다 X-Y만 추정하면 훨씬 단순한 모형
        >> - 정규분포에서 정규분포를 빼도 정규분포
        <img src='https://github.com/cheonbi/DataScience/blob/master/Image/Comparison_Test.png?raw=true' width='600'><center>(http://www.evanmiller.org/ab-testing/t-test.html#)</center>

- **유의확률(p-value)**: 귀무가설이 타당할 경우 검정통계량으로 봤을 때 대립가설이 발생할 확률
    > - 유의확률 10%: 100번 샘플들을 뽑아 실험을 했을 때, 일반인들 보다 양치기들의 거짓말 수가 많을 확률은 10번 정도임
    <img src='https://adriancolyer.files.wordpress.com/2017/01/p-value-wikipedia.jpeg?w=920' width='600'><center>(https://en.wikipedia.org/wiki/P-value)</center>

    
**4. (나의주장) 기각/채택 의사결정**
- **유의수준(Significant Level, $\alpha$)**: 가설을 검정할 때 이 기준의 확률로 발생하지 않을 일이 발생한거면 대립가설(나의주장)을 채택
    > - 유의수준 20%: 100번 샘플들을 뽑아 실험을 했을 때, 20번 미만으로 발생할 상황이 발생하면 대립가설(나의주장) 채택
        >> - 100번 중 20번 미만으로 발생할 상황을 희박한 경우로 보는데, 나의 데이터상 양치기가 일반인보다 거짓말을 많이 하는 경우가 100번 중 10번 정도 발생하는 희박한 상황이 발생한 것이기 때문에 나의주장이 옳다!
    > - 유의수준 5%: 100번 샘플들을 뽑아 실험을 했을 때, 5번 미만으로 발생할 상황이 발생하면 대립가설(나의주장) 채택
        >> - 100번 중 5번 미만으로 발생할 상황을 희박한 경우로 보는데, 나의 데이터상 양치기가 일반인보다 거짓말을 많이 하는 경우가 100번 중 10번 정도 발생하는 일반적인(희박하지 않은) 상황이기 때문에 나의주장이 옳지 않다!
- **신뢰수준(Confidence Level)**: 1-유의수준 
    > - 신뢰수준 80%: 양치기들이 일반인들보다 거짓말을 많이 할 확률은 80%이다(100번 실험 중 80번이다)
    > - 신뢰수준 95%: 양치기들이 일반인들보다 거짓말을 많이 하지 않을 확률은 95%이다(100번 실험 중 95번이다)
- **신뢰구간(Confidence Interval)**: 신뢰수준에 따른 검정통계량의 구간, 일명 "구간추정"
<img src='http://blog.analytics-toolkit.com/wp-content/uploads/2017/09/2017-09-11-Statistical-Significance-P-Value-1.png' width='600'>
<center>(http://blog.analytics-toolkit.com/2017/statistical-significance-ab-testing-complete-guide/)</center>

<img src='https://img1.daumcdn.net/thumb/R1920x0/?fname=http%3A%2F%2Fcfile30.uf.tistory.com%2Fimage%2F994B64345B5401C1057A84' width='600'>
<center>(https://kkokkilkon.tistory.com/36)</center>

- **양측검정/좌측검정/우측검정**:

| 양측검정 | 좌측검정 | 우측검정 |
|--------------------------------------------------------------------------------------------------------------------------------------------|--------------------------------------------------------------------------------------------------------------------------------------------|-------------------------------------------------------------------------------------------------------------------------------------------|
| <img src='https://img1.daumcdn.net/thumb/R1920x0/?fname=http%3A%2F%2Fcfile21.uf.tistory.com%2Fimage%2F991D4D405B5401763A54BC' width='400'> | <img src='https://img1.daumcdn.net/thumb/R1920x0/?fname=http%3A%2F%2Fcfile25.uf.tistory.com%2Fimage%2F999E3B3A5B5401A432E3FF' width='400'> | <img src='https://img1.daumcdn.net/thumb/R1920x0/?fname=http%3A%2F%2Fcfile9.uf.tistory.com%2Fimage%2F99D6FA405B54018A0D8277' width='400'> |

- 예시 문제
> - 회귀분석 (점추정 & 구간추정 & 결과해석)
<img src='https://tomholderness.files.wordpress.com/2013/01/linearfit.png?w=421&h=387' width='500'>
<center>(https://tomholderness.wordpress.com/2013/01/10/confidence_intervals/)</center><img src='https://github.com/cheonbi/DataScience/blob/master/Image/Statmodels_OLS_Result.png?raw=true' width='600'>

> - (방송표현) "출구조사 결과 A후보의 지지율은 40%로 추정되며, 95% 신뢰구간에서 +-3%의 오차가 발생할 수 있습니다"  
> - (통계표현) "샘플링을 통해 A후보의 지지율(검정통계량)은 40%이며, 실제 모집단 확대시 A후보의 지지율은 신뢰구간(37%~43%)에 있을 확률이 95%이다"  
