# 탐색적 데이터 분석 정의
- 탐색적 데이터 분석(EDA: Exploratory Data Analysis)는 존 튜키라는 미국의 저명한 통계학자가 창안한 데이터 분석 방법론
- 기존 통계학이 정보의 추출에서 가설 검정 등에 치우쳐 자료가 가지고 있는 본연의 의미를 찾는데 어려움이 있어 이를 보완하고자 주어진 자료만 가지고도 충분한 정보를 찾을 수 있도록 여러가지 탐색적 자료 분석 방법을 개발
> "탐색적 데이터 분석은 우리가 존재한다고 믿는 것들은 물론이고 존재하지 않는다고 믿는 것들을 발견하려는 태도, 유연성, 그리고 자발성이다." - 존 튜키(John W. Tukey)

## 탐색적 데이터 분석의 필요성
- 데이터의 분포 및 값을 검토함으로써 데이터가 표현하는 현상을 더 잘 이해하고, 데이터에 대한 잠재적인 문제를 발견
- 본격적인 분석에 들어가기에 앞서 데이터를 다시 수집하거나 추가로 수집하는 등의 결정을 내릴 수 있음
- 데이터를 다양한 각도에서 살펴보는 과정을 통해 문제 정의 단계에서 미처 발생하지 못했을 다양한 패턴을 발견하고, 이를 바탕으로 기존 가성르 수정하거나 새로운 가설을 세울 수 있음
- 데이터에 대한 이런 지식은 이후에 통계적 추론을 시도하거나 예측 모델을 만들 때 유용하게 사용

## 탐색적 데이터 분석 과정
- 문제 정의 단계에서 세웠던 연구 질문과 가설을 바탕으로 분석 계획을 세우는 것
- 분석 계획에는 어떤 속성 및 속성 간의 관계를 집중적으로 관찰해야 할지, 이를 위한 최적의 방법은 무엇인지가 포함되어야 함
- 분석의 목적과 변수가 무엇이 있는지 확인하고, 개별 변수의 이름이나 설명을 가지는지 확인
- 데이터를 전체적으로 살펴보기
  - 데이터에 문제가 없는지 확인
  - head나 tail 부분을 확인
  - 추가적으로 다양한 탐색(이상치, 결측치 등을 확인하는 과정)
- 데이터의 개별 속성값을 관찰
  - 각 속성 값이 예측한 범위와 분포를 갖는지 확인
  - 만약 그렇지 않다면, 이유가 무엇인지를 확인
- 속성 간의 관계에 초점을 맞추어, 개별 속성 관찰에서 찾아내지 못했던 패턴을 발견(상관관계 시각화 등)

## 탐색적 데이터 분석 단계
1. 문제 정의(질문, 가설)
2. 분석 계획
3. 데이터 관찰
4. 재현
5. 요인 추가 / 가설 변경
6. 실험

### 연구 질문
- 연구 과정은 방법론을 선택하는 것에서부터 보고에 이르는 많은 단계를 수반
- 종종 간과되는 연구과정의 영역은 연구 질문의 개발이며, 이 과정은 매우 중요한 과정
- 왜냐하면 올바른 질문을 하지 않는다면, 정답을 얻을 수 없을 것이기 때문
- 목적이 본직적으로 질적인지 양적인지에 따라 어떤 유형의 연구 문제를 환용해야 하는지가 결정

#### 정량적 질문 유형(Quantitative Question Types)
- 정량적 연구는 일반적으로 어떻게 무엇을, 언제, 어디서를 결정하는데 사용 
- 정량적 연구를 위한 설문지는 질적 질문보다 많은 면에서 갭라하기 쉬움
- 한번 배워야 할 것을 결정하면 이러한 질문을 객관식, 선택형, 격자형 문제 등에 통합하는 것이 더 직관적이기 때문
- 더 큰 데이터 집합을 수집하기 때문에 정량적 방법론에는 일반적으로 보다 구체적인 연구 질문이 포함됨

질문 유형
- 서술형 질문(Descriptive Questions) : 문제의 개념 또는 주제를 설명
  - 예: 빈도, 하루 중 시간, 사용 목적 등과 같은 제품의 사용을 이해하는 것
- 비교 질문(Comparative Questions) : 두 그룹, 개념 또는 기타 변수 간의 차이를 분석하는데 사용
  - 예: 두 제품 간의 사용 빈도 비교, 남성 대 여성의 브랜드 선호도 등
- 관계 기반 질문(Relationship-Based Quesions): 인과관계에 기반한 질문들을 한 변수가 다른 변수에 어떻게 영향을 미치는지 이해하는 데 효과가 있음
  - 예: 색상이 특정 제품을 구매하려는 욕구에 어떻게 영향을 미치는지

#### 질적 질문 유형(Qualitative Question Types)
- 질적 연구는 본질적으로 정량화가 덜되고, 목표에 관한 의미를 발견하고, 이해하고, 탐구하는 데 더 초점을 맞춤
- 질적 연구 질문은 직접적이지 않고 본질적으로 훨씬 모호함

질문 유형
- 탐색적 질문(Exploratory Questions): 정량적 연구의 서술형 문제와 유사하게, 선입견으로 결과에 영향을 주지 않고, 무언가를 이해하는 것으로 보임
  - 예: 제품이 어떻게 사용되는지 또는 특정 주제에 대한 인식을 묻는 것은 두 가지 유형의 탐색적 질문
- 예측 질문(Predictive Questions): 이러한 질문들은 주제나 행동을 둘러싼 의도나 미래의 결과를 이해하려고 함
  - 예: 소비자가 왜 특정한 상황에서 행동하는지 또는 어떤 상황이 발생한다면 어떻게 느끼는지 묻는 것을 포함
- 해석적 질문(Interpretive Questions): 결과에 영향을 주지 않고 특정 주제 또는 개념에 대한 피드백 수집
  - 예: 새로운 제품 개념을 테스트하고 전달 요청이 어떻게 해석되는지 이해하는 것은 이 융형에 해당

### 이상값 발견 기법
- 개별 데이터 관찰: 데이터 값을 눈으로 보며 전체적인 추세와 특이사항 관찰
- 통계값 활용: 요약 통계 지표(summary statistics)
- 시각화 활용: 확률 밀도 함수, 히스토그램, 점 플롯(dot plot), 워드 클라우드, 시계열 차트, 지도 등
- 머신러닝 기법 활용: 클러스터링(CLustering) 등을 통해서 이상치 확인
- 통계 기반 탐지(Statistical-based Detection): Distribution-based, Depth-based
- 편차 기반 방법(Deviation-based Method): Sequential exception, OLAP data cube
- 거리 기반 탐지(Distance-based Detection): Indexed-based, Nested-loop, Cell-based, Local-outliers, Partition-based

### 5가지 숫자 요약(Five-number summary)
- 데이터 집합에 대한 정보를 제공하는 통계량으로 가장 중요한 표본 백분위수 5가지로 구성(Tukey좌)
  - 최대값(maximum)
  - 상위 사분위수(upper quartile) 또는 제 3사분위 수(Q3): 중앙값 기준으로 상위 50% 중의 중앙값, 전체 데이터 중 상위 25%에 해당하는 값
  - 중앙값(median): 데이터의 가운데 순위에 해당
  - 하위 사분위수(lower quartile) 또는 제 1사분위 수(Q1): 중앙값 기준으로 하위 50% 중의 중앙값, 전체 데이터 중 상하위 25%에 해당하는 값
  - 최소값(minimum)

### Descriptive Statistics
데이터가 많으면 데이터를 관찰하는데 시간이 오래 걸림
> 따라서 적절한 시각화를 통해 데이터를 가시화할 필요가 있음

### 속성 간의 관계 분석
- Categorical Variable(Qualitative)
  - Nominal Data : 원칙적으로 숫자로 표기할 수 없으나, 편의상 숫자화(순위의 개념이 없음)
    - 예시 : 남자-0, 여자 -1
  - Ordinal Data : 원칙적으로 숫자로 표기할 수 없으나 편의상 숫자화(순위의 개념이 있음)
    - 예시 : 소득분위 10분위 > 9 분위 > 8 분위
- Numeric Variable(Quantitative)
  - Continuous Data : 데이터가 연속량으로서 셀 수 있는 형태
    - 예시 : 키 - 166.1cm
  - Discrete Data : 데이터가 비연속량으로서 셀 수 있는 형태
    - 예시 : 자식 수 5 명

### 속성 간의 관계 분석
|데이터 조합|요약 통계|시각화|
|----------|--------|------|
|Categorical-Categorical|교차 테이블|모자이크 플롯|
|Numeric-Categorical|카테고리별 통계 값|박스 플롯|
|Numeric-Numeric|상관계수|산점도|

