# EDA(Exploratory Data Analysis) 

- EDA는 데이터 분석을 하기에 앞서서 데이터의 특징을 파악하는 모든 과정이다.
  - 시각화하여 데이터의 패턴을 분석
  - 통계적 수치 값을 확인하여 데이터의 특징을 파악

- 좋은 모델을 설계하기 위해서는 분석하고자 하는 데이터의 정확한 이해가 필요하다. 데이터의 분포와 이상치를 확인하고 필요에 따라서 데이터의 scale을 맞춰주는 작업을 했을때 비로소 적합한 모델을 구현할 수 있다.

## EDA를 위해 고려할 사항

### EDA 대상
- Univariate(일변량)
  - EDA를 통해 한 번에 파악하려는 변수가 한 개인 경우로, 변수의 평균, 분산, 중앙값 등을 확인하여 분포를 이해한다
- Multi-variate(다변량)
  - EDA를 통해 한 번에 파악하려는 변수가여러 개인 경우로, 데이터들 간의 관계를 파악하는 것이 중요하다. 상관관계를 분석하기 위해 산점도, 회귀 분석, 클러스터링 등의 기법을 사용한다.
  - 다변량에 대해 분석할 때도 개별 데이터의 특징을 먼저 파악한 후에 각 변수의 상관관계를 분석하면 데이터 분석에 있어서 오류를 피할 수 있다.

### EDA 종류
- 시각화
  - 데이터를 그래프나 차트로 표현하여 데이터에서 나타나는 패턴을 한 눈에 파악하는 방식으로, 데이터의 패턴이나 이상치, 변수 간의 상관 관계를 직관적으로 파악할 수 있다.
  - 히스토그램, 박스플롯, 산점도, 상자 그림, 히트맵 등의 기법을 사용한다.
- 비시각화
  - 통계적 기법을 사용하여 데이터를 수치적으로 분석하는 방식으로, 정확한 수치 값이 필요할 때 유용하며 데이터의 변수가 많아서 시각화로 파악하기 어려운 상황에서 사용할 수 있다.
  - 평균, 중앙값, 분산, 최빈값 등의 기초 통계랑, 상관 계수, 회귀 분석, 빈도표 등의 기법을 사용한다.

### EDA 유형
- 데이터가 Univariate인지 Multivariate인지, 시각화를 할지 비시각화를 할지에 따라 다음의 4가지 유형으로 구분된다.
  ![image.png](attachment:bc0cbd45-ad94-4462-996b-e15d6bc6a920.png)

## 데이터 확인

### 데이터 읽기/쓰기
- 데이터를 분석하기 위해 데이터를 불러오는 것이 "읽기"이고, 데이터를 생성하는 것이 "쓰기"에 해당한다.
- CSV, JSON, HTML, EXCEL 등의 데이터 파일 형식에 따라 데이터를 읽고 쓸때 사용하는 함수에 차이가 있으며, 주로 CSV와 EXCEL 형식의 데이터를 다룬다.
  - CSV는 comma separated value의 약자로, 데이터를 쉼표(,)로 구분한 텍스트 파일을 의미한다. 쉼표 뿐만 아니라 세미콜론(;), Tab, space(공백) 등의 다양한 방식으로 각 데이터들을 구분하기도 한다. 
  - EXCEL은 행과 열이 dataframe의 행, 열로 일대일 대응된다.

### 데이터셋 파악하기
- 데이터 프레임 확인: head(n), tail(n)을 통해 상위(하위) n개의 데이터들을 확인하여 각 구분에 대해 어떤 형식의 데이터가 있는지, 데이터의 특징을 간략하게 확인할 수 있다.
  
- 데이터 변수 확인: dataframe의 데이터에서 column값에 해당하는 값으로, 전체 데이터의 세부 구성을 확인할 수 있다.
  - 데이터는 카테고리롤 나누어진 "범주형" 데이터와 숫자로 표현되는 "수치형" 데이터로 구분된다.
    - 범주형 데이터에는 성별, 이름 등의 순서가 존재하지 않는 "명목형" 데이터와 승객 등급과 같이 순서가 존재하는 "순서형" 데이터가 해당된다.
    - 수치형 데이터에는 가족 수와 같이 정수 단위로 셀 수 있는 "이산형" 데이터와 요금, 키와 같이 정수가 아닌 연속적인 값을 가질 수 있는 "연속형" 데이터가 해당된다.

- 데이터 분포 확인: 데이터의 기본 구성에 대한 특징을 파악한 후, 변수들의 분포를 산포도, 박스 플롯, 히스토그램 등의 그래프로 시각화하고 이것을 통해 적절한 데이터 전처리를 수행한다. 

## 전처리

- 전처리란 데이터 모델링을 하기 위해 데이터를 적절한 방식으로 손질하는 과정이다. 데이터 전처리를 하지 않으면 데이터 간의 scale이 맞지 않아서 데이터 분석에 오류를 초래할 수 있다.
- 데이터 전처리에는 데이터 정제, 변환, 필터링, 통합 등이 해당된다. 

### 결측값 처리
- 결측값이란 데이터 수집 과정에서 누락된 데이터로 NaN의 null값을 의미한다.
- 결측값에 대해 별도의 처리를 하지 않으면 데이터 변수 간의 관계가 왜곡되어 오류를 발생시킬 수 있다.
  - 예를 들어, 데이터들의 평균을 계산할 때 NaN 값은 평균 연산에서 제외된다. [10, 20, NaN, 30]에 대해 평균을 구할 때, (10+20+30)/3을 하여 20이라는 평균이 계산된다. 그러나 NaN의 값을 0으로 전처리하면 [10, 20, 0, 30]에 대해 (10+20+0+30)/4를 하여 15라는 평균이 계산된다.

#### 결측값 확인
- 결측값은 info(), value_counts(dropna=False), isnull(), notnull()등의 pandas 함수를 사용하여 확인하고 replace()를 통해 0이나 ?등의 결측값을 NaN으로 변환할 수 있다.

#### 결측값 처리
- 결측값에 대해서 결측값을 삭제하거나 결측값을 다른 값으로 대체하는 연산을 수행할 수 있다.
  - 삭제
    - 전체 삭제: 결측값이 발생한 전체 행 또는 열을 삭제한다. 처리 과정은 간편하지만 데이터 손실이 발생할 수 있다. 
    - 부분 삭제: 분석이나 연산에서 결측값이 있는 부분만 제외하고 나머지 데이터로 분석을 진행한다. 각 분석에 사용된 데이터에 따른 샘플 수가 달라지기 때문에 관리 비용이 늘어난다.
  - 대체
    - 일괄 대체: ex)결측값들을 모든 변수들의 평균값으로 일괄적으로 대체한다. 
    - 유사 유형 대체: ex)결측값들을 유사한 유형의 평균값으로 대체한다. 

### 이상치 처리
이상치란 관측 데이터의 범위에서 많이 벗어난 값을 의미한다. 

#### 이상치 확인
- 통계: describe()함수를 사용하여 이상치를 확인한다.
- 시각화: 박스플롯 등으로 시각화하여 확인한다.
- Z-score: 해당 데이터가 평균으로부터 얼마나 벗어나 있는지를 나타낸 지표로, z값이 음수이면 평균 이하, 양수이면 평균 이상을 의미한다. z-score는 데이터가 정규분포를 따를 때 판단 기준으로 사용한다.
- Turkey Fences: 사부위 범위(IQR)을 기반으로 이상치를 확인한다.  

#### 이상치 제거
- 전체 삭제: 단순 오타나 설문의 비현실적인 응답에 대해 관측치를 삭제한다.
- 대체: 이상값을 평균 등의 값으로 대체하거나 결측값과 유사하게 다른 변수들로 이상치 예측 모델을 만들고, 해당 모델에서 예측한 값으로 이상치를 대체한다. 
- 변수화: 이상치에 대해 기준을 세우고, 해당 기준에 대해 YES-NO의 변수화를 통해 이상값을 삭제하지 않고 모델에 포함시킨다.
- 리샘플링: 이상값을 포함한 모델과 제외한 모델을 모두 만든 후, 각 모델에 대해 분석한다.

### feature engineering
기존의 데이터를 더 유용하게 만드는 작업으로 도메인 지식을 사용하여 해당 문제를 컴퓨터가 잘 이해하도록 처리하는 과정

#### feature engineering 방식
- label encoding / one-hot encoding
  - label encoding: n개의 레이블에 대해, 범주형 변수를 0~n-1 까지의 숫자로 변환
  - one-hot encoding: 범주형 변수를 0과 1의 이진 벡터로 변환
- 구간화: 연속 데이터를 그대로 사용하지 않고 일정한 구간으로 나눠서 분석한다. 
- 변환: 기존의 feature를 다른 feature로 변환하여 분석한다. ex)일자 정보->요일 정보
- 스케일링: 변수의 값의 범위를 일정 수준으로 맞춰준다.
  - 표준화: 평균을 0, 분산을 1로 변경
  - minmaxscaler: 모든 feature가 0과 1 사이에 위치하도록 조정

## 시각화

- 데이터를 그래프, 그림, 차트, 도표 등의 시각적이 정보로 표현하여 데이터의 패턴, 관계 등을 쉽게 파악한다.
- Matplotlib과 Seaborn을 사용하여 시각화한다.
- 데이터가 범주형인지 수치형인지 파악한 후, 데이터에서 결측값이나 이상치가 존재하는지 여부를 확인한다. 이후에 데이터의 특성을 잘 드러내는 시각화 방식을 고려한다.

#### 다양한 그래프
- boxplot: 사분위수와 이상치를 보여준다
- countplot: 범주형 변수의 빈도수를 확인할 수 있다.
- histplot: 도수분포표를 그래프로 나타낸 것으로, 수치형 변수의 구간별 빈도수를 보여준다.
- distplot, kdeplot: 히스토그램을 곡선으로 연결한 그래프
- barplot: 범주형 데이터값 x에 따른 수치형 데이터값 y의 평균값을 제공
- scatterplot(산점도): x축과 y축에 데이터 포인트를 분산하여 그린다. 흩어진 정도를 확인하여 변수 간의 패턴과 상관관계를 파악하는데 용이하다.
- regplot: 두 개의 연속 변수 사이의 산점도를 그리고 회귀선을 함께 나타낸다.
- catplot: 수치형 데이터와 범주형 데이터의 관계르 파악할 때 사용.
- pieplot: 전체 데이터에 대한 각 데이터의 비율을 표시한다.
- heatmap: 변수 간의 상관계수를 직관적으로 확인할 수 있다.
- violinplot: boxplot과 kernel 밀도 추정함수 그래프를 합쳐놓은 그래프이다.

sns.pairplot()을 사용하여 여러 변수들 간의 산점도를 한 번에 시각화할 수 있다.