# DW & DC Main Goal: High Data Quality!

 - 데이터 품질 평가를 위한 기준
     - 완전성(completeness)
         - 필수항목에 누락이 없어야한다.
     - 유효성(validity)
         - 데이터 항목은 정해진 데이터 유효범위 및 도메인을 충족해야 한다.
     - 정확성(accuracy)
         - 데이터 항목의 값은 실세계에 존재하는 객체를 정확히 반영해야 한다.
     - 유일성(uniqueness)
         - 데이터 항목은 유일해야 한다.
     - 일관성(consistency)
         - 데이터의 구조, 값, 표현 형태가 일관되게 정의되고 서로 일치해야 한다.

# Missing Data Mechanisms

 - 데이터 결측 메커니즘 : 결측치 발생에 영향을 미치는 인과관계에 따른 분류
     - MCAR(Missing Completely at Random)
     - MAR(Missing Random)
     - MNAR(Missiging Not Random)
 
# MCAR

 - MCAR : Missing Completely at Random, 완전 무작위 결측
     - 결측치가 다른 변수들과 무관하게 발생한 경우
         - Ex. 전산오류
     - 결측치와 관측치는 동일한 분포를 가짐
     - 가장 이상적인 경우지만, 현실에서 그럴 가능성이 높지 않음.
     
# MAR 

 - MAR : Missing at Random, 무작위 결측
     - 결측치의 발생이 오직 관측된 변수와 관계가 있음(=관측된 변수로 추정 가능)
         - Ex. 여자들은 본인의 몸무게를 묻는 질문에 응답할 가능성이 남자보다 적다.
         - Ex. 남자들은 우울증 설문조사에 응답할 가능성이 여자보다 적다.
     - 일반적으로 MCAR 보다 흔하게 발생

# Methods for Handling Missing Data

 - 제거(deletion)
     - Listwisev deletion
     - Pairwise deletion
     - Variable deletion
  - 단순 대치(simple imputation)
      - Mean/Median/Mode substitution
      - LOCF, NOCB
  - 보간(interpolation)
      - Linear interpolation
      - Spline interpolation
  - 모델 기반 대치(model-based imputation)
      - Regression
      - K-NN
      - EM
      - MICE
      - Machine learning/ Deep learning approaches
  - 수작업 with 도메인 지식

# Discard Data

 - Listwise deletion : 결측치를 포함하는 레코드(샘플)를 삭제
 - Pairwise deletion : 해당 결측치만 삭제
 - Variable deletion : 변수(컬럼) 자체를 삭제
     - 특정 변수의 결측 비율이 높은 경우

# Retain All Data : Simple Imputation

 - Mean substitution(평균대체)
     - 평균값으로 결측치를 대체
 - Median substitution(중앙값 대체)
     - 중앙값으로 결측치를 대체
 - Mode substitution(최빈값 대체)
     - 가장 높은 빈도의 값으로 결측치를 대체
     - 범주형 데이터에 적용 가능(연속형 값도 가능)
     
# Retain All Data : Simple Imputation(for Time-Series)

 - LOCF : Last Observation Carried Forward
     - 결측치 또는 결측 구간 직전의 값으로 대체
 - NOCB : Next Observation Carried Backward
     - 결측치 또는 결측 구간 직후의 값으로 대체
 - 시계열 데이터의 결측치 처리에 많이 사용됨
     - pandas 메서드: ffill(), bfill()
     
# Retain All Data : interpolation(for Time-Series)

 - 보간법 : 결측 구간의 값들을 함수에 의해 추정하는 방법
     - Linear interpolation(선형 보간): 선형 함수 사용
     - Spline interpolation(스플라인 보간): 스플라인 함수 사용
         - Ex. quadratic spline interpolation(2차 스플라인 함수)
         - Ex. cubic spline interpolation(3차 스플라인 함수)

# Retain All Data : Model-based Imputation

 - 모델 기반 대치 기법
     - Regression(회귀)
         - 관측된 데이터 기반으로 생성된 회귀 모델을 이용하여 값을 예측
     - K-NN(k-Nearest Neighbor)
         - 거리 계산을 통해 가장 가까운 k개 샘플의 평균/중앙값을 취함
     - EM(Expectation-Maximization)
         - 최대우도(maximum likelihood) 기반 알고리즘을 통해 값을 추정
     - MICE(Multiple Imputation by Chained Equations)
         - 반복적으로 대치를 수행하여 얻어진 다수의 데이터셋을 종합(평균, 분산, 신뢰 구간)
     - 그 외: 머신러닝/딥러닝 기반 대치 기법
     
# Guideline for Handling Missing Data

 - 결측치 비율에 따른 처리 방법
     - 0~10%: 삭제 or 단순 대치
     - 10~20%: 핫덱(hot-deck)/회귀/모델 기반 대치
         - 핫덱: 결측이 발생한 샘플과 유사한 샘플들을 대상으로 무작위 표본 추출을 통한 값 대체
     - 20~50%: 회귀/모델 기반 대치
     - 50%~: 변수 제거