# - 탐색적 데이터 분석(Exploratory Data Analysis)

##  탐색적 데이터 분석 정의
- 기존의 통계학이 정보의 추출에서 가설 검정 등에 치우쳐 자료가 가지고 있는 본연의 의미를 찾는데 어려움이 있어 이를 보완하고자 주어진 자료만 가지고도 충분한 정보를 찾을 수 있도록 여러가지 탐색적 자료 분석 방법을 개발(by 존 튜키)

##  탐색적 데이터 분석의 필요성
- 데이터 분포 및 값을 검토함으로써 데이터가 표현하는 현상을 더 잘 이해하고, 데이터에 대한 잠재적인 문제를 발견
- 본격적인 분석에 들어가기에 앞서 데이터를 다시 수집하거나 추가로 수집하는 등의 결정을 내릴 수 있음
- 데이터를 다양한 각도에서 살펴보는 과정을 통해 문제 정의 단계에서 미처 발생하지 못했을 다양한 패턴을 발견하고, 이를 바탕으로 기존의 가설을 수정하거나 새로운 가설을 세울 수 있음

##  탐색적 데이터 분석 과정
> 문제정의(질문, 가설) -> 분석 계획 -> 데이터 관찰 -> 재현 -> 요인 추가 / 가설 변경 -> 실험
- 문제 정의 단계에서 세웠던 연구 질문과 가설을 바탕으로 분석 계획을 세우는 것
    - 분석 계획에는 어떤 속성 및 속성 간의 관계를 집중적으로 관찰해야 할지, 이를 위한 최적의 방법은 무엇인지가 포함되어야 함
- 분석의 목적과 변수가 무엇이 있는지를 확인하고, 개별 변수의 이름이나 설명을 가지는지 확인
- 데이터를 전체적으로 살펴보기
    - 데이터에 문제가 없는지
    - head나 tail 확인
    - 이상치, 결측치 등 탐색
- 데이터의 개별 속성값을 관찰
    - 각 속성 값이 예측한 범위와 분포를 갖는지 확인
    - 만약 그렇지 않다면, 이유가 무엇인지를 확인
- 속성 간의 관계에 초점을 맞춰, 개별 속성 관찰에서 찾아내지 못했던 패턴을 발견(상관관계, 시각화 등)

##  이상값 발견 기법
- 개별 데이터 관찰
- 통계값 활용: 요약 통계 지표(summary statistics)
    - 5가지 숫자 요약(5-number summary)
        - 최대값(maximum)
        - 상위 사분위수 또는 제3사분위수(Q3): 중앙값 기준으로 상위 50% 중의 중앙값(상위 25%)
        - 중앙값(median): 데이터의 가운데 **순위**에 해당하는 값 (!=mean)
        - 하위 사분위수 또는 제1사분위수(Q1): 중앙값 기준으로 하위 50% 중의 중앙값(하위 25%)
        - 최소값(miniumum)
        > IQR(InterQuartile Range): Q1 ~ Q3을 묶은 박스
    - 속성 간의 관계분석  
      | 데이터 조합 | 요약통계 | 시각화 |
      |----------|--------|-------|
      | 질적자료 + 질적자료 | 교차 테이블 | 모자이크 플롯 |
      | 양적자료 + 질적자료 | 질적자료별 통계 값 | 박스 플롯 |
      | 양적자료 + 양적자료 | 상관계수 | 산점도 |
- 시각화 활용: 확률 밀도 함수, 히스토그램, 점 플롯, 워드 클라우드, 시계열 차트, 지도 등
- 머신러닝 기법 활용: 클러스터링 등
- 통계 기반 탐지: Distribution-based, Depth-based
- 편차 기반 방법: Sequential exception, OLAP data cube
- 거리 기반 탐지: Index-based, Nested-loop, Cell-based, Local-outliers, Partition-based

# - 데이터 전처리, 품질(Data Preprocessing, Quality)


## 데이터 전처리
- 데이터를 분석 및 처리에 적합한 형태로 만드는 과정을 총칭
- 일반적으로 데이터는 비어있는 부분이 많거나 정합성이 맞지 않는 경우가 많음(품질이 낮은 데이터)
- 데이터 전처리 단계
    - 데이터 정제(Cleaning): 누락 데이터나 잡음, 모순된 데이터 등을 정합성이 맞도록 교정하는 작업(ex.누락값, 불일치, 오류의 수정)
    - 데이터 통합(Integration): 여러 개의 데이터베이스, 데이터세트 또는 파일을 통합하는 작업
    - 데이터 축소(Reduction): 샘플링, 차원축소, 특징 선택 및 추출을 통해 데이터 크기를 줄이는 작업(데이터의 완결성을 유지하면서 양을 줄이는 작업)
    - 데이터 변환(Transformation): 데이터를 정규화, 이산화 또는 집계를 통해 변환하는 작업

## 데이터 품질
- 완벽한 데이터를 얻는 것은 불가능함.
- 데이터 품질을 저해하는 주요 요인 2가지
    - 측정 오류: 사람의 실수로 잘못된 단위로 기록을 하거나 측정 장비 자체의 한계 등 측정 과정에서 발생하는 오류
    - 수집 과정 오류: 데이터의 손실 중복 등의 문제로 발생하는 오류
- 실시계의 데이터 난제
    - 너무 많은 데이터: 손상 및 잡음, 속성의 수가 많은 데이터, 숫자와 문자가 혼합된 데이터
    - 너무 적은 데이터: 결여된 속성, 결측치가 있는 데이터
    - 파손된 데이터: 양립할 수 없는 데이터 등
- 잡음: 측정 과정에서 무작위로 발생하여 측정값의 에러를 발생시키는 것
- 아티펙트: 어떠한 요인으로 인해 반복적으로 발생하는 왜곡이나 에러(ex. 카메라 렌즈에 얼룩이 묻어 있다면, 얼룩으로 인한 왜곡이 지속적으로 발생)
- 정밀도(Precision): 동일한 대상을 반복적으로 측정했을 때 각 결과의 친밀성을 나타내는 것
- 바이어스(Bias): 편향된 데이터
- 이상치(Outlier): 대부분의 데이터와 다른 특성을 보이거나 특성 속성의 값이 다른 개체들과 달리 유별난 값을 가지는 데이터를 의미. 잡음과는 달리 그 자체가 중요한 분석의 목적이 될 수 있음
- 결측치(Missing values)
- 모순, 불일치: 동일한 개체에 대한 측정 데이터가 다르게 나타나는 경우(ex. 주소와 우편번호가 다를 경우)
- 중복(Duplocate data): 데이터 중복은 언제든지 발생 가능하나, 문제는 중복된 데이터 사이에 속성의 차이나 값의 약간의 불일치가 발생할 수 있음(적합한 데이터 선택 등의 추가적인 작업 필요)

# - 데이터 정제(Data Cleaning)

## 데이터 특성 파악 -> 데이터 모순점 발견 -> 데이터 수정 변환 (반복)

## 데이터 특성 파악
- 속성의 데이터 타입과 도메인
- 속성 값의 분포 특성
    - 대칭/비대칭 분포
    - 실제 값의 주요 분포 범위
    - 값의 표준편차
- 속성 간의 의존성: 속성 A의 값이 같은 데이터의 속성 B값과 같다면, 속성 A와 속성 B간 함수적 종속성 존재(A->B)
- 메타데이터
    - 데이터에 대한 데이터
    - 메타-메타데이터: 메타데이터가 어떻게 구성되고 관리되는지에 대한 정보 제공
    - 메타데이터의 종류
        - 설명 메타데이터: 데이터에 대한 속성, 값에 대한 설명 제공
        - 구조 메타데이터: 데이터가 어떻게 만들어졌는지에 대한 구조적 정보 제공
        - 관리 메타데이터: 데이터의 생성, 유지, 관리에 대한 정보 제공(작성자, 변경자, 권한, 감사, 계보 등)
        - 보존 메타데이터: 데이터 보관 절차를 지원하는데 필요한 정보 제공(저장소, 버전, 개발환경 등)
        - 사용 메타데이터: 데이터가 어떻게 사용되었는지에 대한 정보 제공
        - 거래 메타데이터: 데이터가 어떻게 거래되었는지에 대한 정보 제공

## 데이터 모순점 발견
- 잘못 설계된 데이터 입력 폼이 존재
- 데이터 입력에서 사람의 실수로 발생
- 만료된 데이터(바뀐 주소 등)
- 데이터 표현의 모순
- 일치하지 않는 코드의 사용
- 데이터를 기록하는 계측 장치의 오류나 시스템 오류
- 원래의 의도와 다른 목적으로 데이터를 부적절하게 사용
- 데이터 통합 과정에서 주어진 속성이 다른 데이터베이스에서 다른 이름을 사용할 경우
- 필드 오버로딩
    - 데이터 분석가는 코드 사용의 불일치와 데이터 표현의 불일치를 주의해야함
    - 필드 오버로딩은 개발자가 기존에 정의된 속성에서 사용하지 않은 일부를 새로운 속성의 정의로 사용할 때 발생
    - 필드 오버로딩에 대한 검토
        - 유일규칙: 주어진 속성의 값이 같은 속성의 다른 값들과는 달라야 함
        - 일관규칙: 최소값과 최대값 사이에 결측치가 없어야 함
        - 무 규칙: 공백, 물음표, 특수문자 등과 같이 데이터가 없음을 나타내는 다른 문자의 사용 가능

## 데이터 수정 변환
- 모순점이 발견된 데이터에 대해 수정 변환 필요
- 데이터 수정 변환 시 오류 발생 가능성도 높고, 많은 시간이 필요(더 많은 모순이 생길 수 있음)
- ex. 년도 속성에 20001이라는 값은 다른 날짜 값들이 일관된 형식(YYYY)로 변환될 때 
- ex. 성별 속성에 'emale' 이라는 값은 다른 성별 값들이 일관된 형식(1:male, 2:female)으로 변환될 때
- 결측값: 값이 존재하지 않고 비어있는 상태
    - NA: 결측값
    - NULL: 값이 없다
    - 결측값 구분
        - MCAR(Missing Completely At Random)
            - 결측값이 관측된 데이터와 관측되지 않은 데이터와 독립적이며 완전 무작위로 발생
            - 데이터 분석 시 편향되지 않아 결측값이 문제되지 않는 경우
        - MAR(Missing At Random)
            - 결측값이 다른 변수에 따라 조건부로 무적위 발생하는 경우
            - 변수의 조건에 따른 결측값이 설명할 수 있는 경우
            - 데이터 분석 시 편향이 발생할 수도 있음
        - MNAR(Missing Not At Random)
            - 무시할 수 없는 무응답 데이터(누락된 이유가 존재)
            - 주도면밀한 추가 조사가 필요한 경우
    - 결측값 처리 방법
        - 결측값 데이터 개체 또는 속성의 제거(실제 많이 사용하진 않음)
        - 수동으로 결측값 입력
            - 데이터를 다시 조사 및 수집
            - 매우 고비용의 소모적인 방법
        - 전역상수(global constant)를 사용한 결측값 입력
            - 예를 들어, 결측값을 0으로 입력
            - 분석 결과를 왜곡할 수 있음
        - 결측값의 무시
            - 하나의 속성 값이 없더라도 유사성을 계산하는데 미치는 영향이 크지 않다면 무시
            - ex. 개체들 사이의 유사성 계산에 있어 많은 수의 속성이 있는 경우 이 중 하나의 속성이 없다면 이를 제외하고 유사성을 계산할 수 있또록 알고리즘을 조정하는 것
        - 결측값의 추정(일반적으로 많이 사용되는 방법)
            - 속성의 평균값을 사용하여 결측값 추정(왜곡시킬 위험성 존재)
            - 같은 클래스(분류)에 속하는 속성의 평균값 사용(몸무게 속성 중 남자 몸무게, 여자 몸무게)
            - 가장 가능성이 높은 값으로 결측값 추정(회귀분석, 베이지안 기법, 의사결정트리 기법 등의 통계 또는 마이닝 기법을 활용한 결측값 예측. 그러나 복잡함)
- 잡음(Noise data)
    - 측정된 변수(속성)에서의 오류나 오차 값
    - 오류나 오차 값에 의해 경향성 훼손 발생
    - 데이터 평활화 기법
        - 구간화(Binning)
            - 정렬된 데이터 값들을 몇 개의 빈으로 분할하여 평활화하는 방법
            - 이웃(주변 값)들을 참조하여 정렬된 데이터를 매끄럽게 함
                - 평균값 평활화, 중앙값 평활화, 경계값 평활화
        - 회귀
            - 회귀함수를 이용한 데이터 평활화 기법
            - 선형 회귀 분석
            - 다중 회귀 분석(두 개 이상의 속성을 가지고 다른 속성을 예측)
        - 군집화
            - 유사한 값들끼리 그룹화하는 과정
            - 이상값: 어떤 군집에도 속하지 않은 값

# - 데이터 통합(Data Integration)

## 개체 식별 문제(Entity Identification Problem)
- 데이터 통합은 여러 데이터 저장소로부터 온 데이터의 합병
- 데이터 원천은 데이터베이스 데이터 큐브, 플랫 파일 등 다양한 형태로 존재
- 여러 데이터 원천들로부터 데이터를 통합시킬 때, 동일한 의미의 개체들이 서로 다르게 표현되어 있을 경우, 어떻게 일치시킬 수 있을까?
    > 개체 식별 문제
- 메타데이터의 활용이 중요
    - 각 속성의 메타데이터는 이름과 의미, 데이터 타입, 허용되는 값의 범위, 무규칙(null rule) 등을 포함
    - 스키마 통합 과정에서 오류를 피하기 위해 메타데이터 활용 필요