## 데이터 분석 방법론

### 확증적 데이터 분석(CDA: Confirmatory Data Analysis)

- 가설을 설정한 후, 수집한 데이터로 가설을 평가하고 추정하는 전통적인 분석
- 관측된 형태나 효과의 재현성 평가, 유의성 검정, 신뢰구간 추정 등의 통계적 추론을 하는 분석 방법으로 설문조사나 논문에 관한 내용을 입증하는데 사용됨

가설설정 -> 데이터 수집 -> 통계분석 -> 가설검증 // * 추론통계 사용

### 탐색적 데이터 분석(EDA: Exploratory Data Analysis)

- 원 데이터(Raw data)를 가지고 유연하게 데이터를 탐색하고, 데이터의 특징과 구조로부터 얻은 정보를 바탕으로 통계모형을 만드는 분석방법

데이터 수집 -> 시각화 탐색 -> 패턴 도출 -> 인사이트 발견 // * 기술통계 사용

## EDA의 이해

1. 정의
- 존 튜키라는 미국의 저명한 통계학자가 창안한 자료 분석 방법론
- 기존의 통계학이 정보의 추출에서 가설 검정 등에 치우쳐 자료가 가지고 있는 본연의 의미를 찾는데 어려움이 있어, 이를 보완하고자 주어진 자료만 가지고도 충분한 정보를 찾을 수 있도록 여라가지 탐색적 자료 분석 방법을 개발함 / 대표적인 예로 박스플롯이 있음
- 탐색적 자료 분석을 통하여 자료에 대한 충분한 이해를 한 후에 모형 적합 등의 좀 더 정교한 모형을 개발할 수 있음

2. 목적
- 시각화 및 통계 도구를 사용하여 데이터를 이해할 수 있다.
- 도출하고자 하는 결과의 기본이 되는 가정에 접근하고 가정을 검증할 수 있다.
- 가설을 세우기 전에 데이터를 이해합니다.

3. 대상
- Univariate(일변량): EDA를 통해 한 번에 파악하려는 변수가 1개. 데이터를 설명하고 그 안에 존재하는 패턴을 찾는 것이 주요 목적.
- Multi-variate(다변량): EDA를 통해 한 번에 파악하려는 변수가 여러개. 여러 변수들간의 관계를 보는 것이 주요 목적.

4. 종류
- Graphic(시각화)
- Non-Graphic(비시각화)

## EDA의 필수기술

### 데이터셋의 해석 및 이해(주제의 이해)

|데이터 탐색 질문|각각의 피처는 서로 어떤<br /> 상관관계를 갖는가?|평균 맥주 소비량이 가장<br /> 높은 대륙?|술 소비량 대비 알코올<br /> 비율 피처 생성하기|아프라카와 유럽 간의<br /> 맥주 소비량 차이 검정|
|:---:|:---:|:---:|:---:|:---:|
|핵심내용<br />모든 연속형 피처의 상관 분석|모든 연속형 피처의 상관 분석|모든 행을 그룹 단위로 분석|새로운 분석 피처 생성|통계적 차이 검정|
|핵심내용|대부분의 국가의 총 알코올 소비량은 맥주 소비량에<br /> 영향을 받을 확률이 높다. 또한 대부분의 국가에서는<br /> 맥주가 가장 많이 소비되는 술이라는 해석도 가능|유럽이 가장 맥주 소비량이 높음. 대륙별로 상이한<br /> 차이가 있다는 것을 발견함.|술 소비량 대비 알코올 비율이라는 새로운<br /> 피처로부터 술을 독하게 마시는 정도의 국가별<br /> 차이를 관찰 가능|T-test 분석 결과, 아프리카와 유럽 간의 맥주<br /> 소비량은 통계적으로 유의미한 차이를 보임(단, 그룹<br /> 간 데이터 크기가 매우 다르고, 정규분포를 띤다는<br /> 가정을 할 수 없어 신뢰할 만한 정보라고 할 수 없음.)

### 컬럼별 데이터셋의 내용 이해와 컬럼 변형

- 데이터 설명서(data description) 읽고 데이터에 대한 이해 선실행
- 분석하는 목적에 맞추어서 데이터 전처리 실행
  * 유형1: 수치형으로 입력되어 있지만 실체는 명목형인 변수
    - 학년이 1,2,3,4로 되어 있을 때 이 자료는 각 학년별 빈도수를 구해야하는 명목형 변수임
    - 나이도 상황에 따라서 나이별로 빈도수를 구해야 하는 명목형 변수로 처리해야 할 때가 있음
  * 유형2: 명목형으로 입력되어 있지만 실제는 순서상의 의미를 가지는 변수
    - 변수의 성격이 카테고리형으로 되어 있지만 숫자로 분석해야 하는 경우 (예: 나이값이 카테고리로 되어 있을때 숫자로 계산하는 기술통계가 필요할 때, 나이평균, 나이최대값)
  * 유형3: 합쳐서 하나로 만들 수 있는 변수
    - 도, 시 변수가 별도로 이씅ㄹ 때 한 개의 변수로 만들어야 중복성을 제거할 수 있음.
  * 유형4: 쪼개서 나눌 수 있는 변수
  * 유형5: 결측값인지 0인지 헷갈리는 관측치

### 결측치 및 데이터 필터링

- 결측치 종류
  1. 완전 무작위 결측
    - 결측치가 다른 변수들과 아무런 상관이 없음
  2. 무작위 결측
    - 특정 변수에 관련되어 누락되어있지만, 그 변수는 결과와 관련이 없음
  3. 비무작위 결측
    - 결과에 관련이 있는 변수 때문에 값이 누락됨

- 결측치 처리
  1. 합리적 접근법
    - 결측값을 평균, 중앙값, 예상값 등으로 채워 넣는 방식
  2. 완전제거
    - 결측값이 있는 데이터 전체를 삭제하는 방법
  3. 다중대체
    - 시뮬레이션을 통해 예측되는 최대한 정확한 값을 채워 넣는 방식

### 데이터 기술통계

- 합: 각 숫자값의 누적합
- 산술평균: 합/갯수
- 중앙값: 숫자값을 작은값에서 큰값으로 나열한뒤(오름차순) 가운데의 위치값
  - 갯수가 홀수일때는 int(갯수/2)의 위치값
  - 갯수가 짝수일때는 int(갯수/2)의 위치값과, (int(갯수)/2) + 1의 위치의 값을 더하고 2로 나눔

|input값|sorted|위치값계산|중앙값|
|:---:|:---:|:---:|:---:|
|[8,7,1,5,2]|[1,2,5,7,8]|center=int(개수/2) => int(5/2)=int(2.5)=2|[1,2,3,4,7]|
|[8,7,1,5,2,0]|[0,1,2,5,7,8]|center1=int(개수/2) => 2<br />center2=center1 + 1 => 3<br />(center1의값 + center2의값)/2|[0,1,2,5,7,8] => (2+5)/2 => 3.5

- 분산: 분산(variance)은 관측값에서 평균을 뺀 값을 제곱하고, 그것을 모두 더한 후 전체 개수로 나눠서 곱한다. 즉, 차이값의 제곱의 평균이다. 관측값에서 평균을 뺀 값인 편차를 모두 더하면 0이 나오므로 제곱해서 더한다.
- 표준편차: 표준편차(standard deviation)는 분산을 제곱근한 것이다. 편차들(deviations)의 제곱합(SS, sum of square)에서 얻어진 값의 평균치인 분산의 성질로 부터 다시 제곱근해서 원래 단위로 만들어줌으로써 얻게된다.

### 데이터 시각화

- Boxplot을 이용한 이상치 탐색: 데이터의 이상유무를 확인: 대표적으로 이상치(데이터 분포에서 너무크거나 작은값)로 확인함. 일반적인 boxplot은 IQR * 1.5 이상값을 넘어가거나, 미치지 못했을때 이상치로 판단함. 이상치는 상황에 따라 제거하거나 보존함.
- 산점도차트: 데이터의 분포정도를 표현하는 차트, 파이썬에서는 scatter 차트로 표현
- 상관계수: 피어슨상관계수(두데이터변량간의 값의 변화폭의 관계를 -1 ~ 1 사이로 표시)
스피어상만계수
