## 0. 데이터 분석 프로세스

### 데이터 탐색(EDA)
- 다양한 관점에서 수집한 데이터의 특징을 파악하는 것
- 데이터의 특징을 파악하고 시각화하면서 방향성을 제시하는 단계

### 데이터 전처리
- 데이터를 적합한 형태로 다듬는 과정(이상치 제거, 결측치 처리 등)

### 데이터 모델링
- 유용한 정보를 추출하기 위해 모델을 구축하는 단계

## 1. EDA의 개념
- 데이터를 여러 방식으로 파악하는 모든 과정
- 시각화, 특이성 확인, 가설 검정 등
- Exploratory Data Analysis, 탐색과 이해가 기본이다.
- EDA 과정에서 문제 정의를 잘 못한다면 향후 큰 난항을 겪게 될 수 있음.

### (1) EDA 대상 (일변량/다변량)
- 하나의 변수? 여러 변수 간 관계?
- 일변량: 파악하려는 변수가 한 개.
  - 데이터 설명, 패턴 찾는 것이 목적
- 다변량: 파악하려는 변수가 여러 개.
  - 여러 변수 간 관계 파악
  - 동시에 보기 전에 개별 데이터를 파악하는 것이 용이하다.

### (2) EDA 종류 (시각화/비시각화)
- 시각적 파악? 수치적 파악?
- Graphic: 차트나 그림으로 확인하는 방법
- Non-Graphic: 그래픽보단 Summary Statistics로 확인하는 방법

### (3) EDA 유형
- Uni-Non Graphic: 데이터의 Distribution 확인
- Uni-Graphic: 데이터를 전체적으로 살펴보기
- Multi-Non Graphic: 둘 이상의 변수 간 관계를 확인
- Multi-Graphic: 주어진 둘 이상의 변수 간 관계를 전체적으로 살펴보기


## 2. 데이터 확인

### 데이터 읽기/쓰기

### (1) 절대경로와 상대경로
1. 절대경로
- root에서 목적 파일까지 전체 경로
2. 상대경로
- 현재 작업 중인 디렉토리 기준인 경로

### (2) 데이터 입출력
- 읽기: read_확장자
- 쓰기: to_확장자
- 주로 CSV, EXCEL을 많이 씀.

### (3) CSV와 EXCEL
1. CSV: Comma Separated Value. 쉼표로 구분하는 텍스트 파일
2. EXCEL: 행과 열이 데이터프레임의 행, 열로 일대일 대응함.
- 여러 시트 중 원하는 시트를 설정할 수 있음.
- 여러 시트를 불러올 땐 list로 받으면 됨.

모두 pandas를 통해 DataFrame 형식으로 읽어올 수 있음.

### 데이터셋 파악하기

### (1) 데이터 프레임 보기
- head(n): 상위 n개 데이터

### (2) 데이터 변수 확인
- 변수 = 데이터 프레임의 column = feature
- 데이터의 정보, 유형(질적/범주형, 양적/수치형), 자료형을 확인한다.
- 범주형(Categorical)
  - 명목형: 순서 상관 없는 경우
  - 순서형: 순서에 의미를 부여할 수 있는 경우
- 수치형(Numerical)
  - 이산형: 정수 단위 데이터
  - 연속형: 연속적인 값을 갖는 데이터

### (3) 데이터 분포 확인
- 단변수 분석: 원시 데이터의 분포를 그래프를 통해 분석하는 것
- 원시 데이터 분포의 확인을 통해 전처리 아이디어를 얻을 수 있음.

## 3. 전처리
- 데이터 품질을 높이고 분석 목적에 맞게 변형하는 일련의 과정
- 정제, 변환, 필터링, 통합

## 결측값 처리
- 결측값: 누락된 데이터
  - 변수 간 관계가 왜곡되고 모델 정확도가 낮아짐. 시각적 표현에 문제가 생길 수 있음.

### (1) 결측값 확인
- NaN, ?, 0: 0은 잘 살펴봐야 한다.
- info(): 요약 정보 출력
- value_counts(dropna=False): 결측값을 포함한 전체 데이터 확인 가능
- isnull(): 누락이면 T, 유효 데이터면 F
- notnull(): 유효 데이터면 T, 누락이면 F
- replace(): 0, ?인 결측값을 NaN으로 변환

### (2) 결측값 처리

1. 삭제: 데이터가 있는 행 또는 열을 삭제
- dropna():결측값이 포함된 레이블을 제거하는 메서드
  - axis
    - 0: 행 삭제, 레코드를 제거함(default).
    - 1: 열 삭제, 변수 자체를 제거함.
  - how
    - any: 하나라도 있으면 제거(default)
    - all: 모두  결측값이어야 제거
  - subset = ['column명']
    - axis=0: 행 삭제일 때만 적용할 수 있음.
  - inplace
    - False: 새로운 DataFrame으로 반환(default)
    - True: 원본 자체를 변경함.
- 삭제도 주의하여 해야 함.

2. 대체: 결측값을 다른 값으로 대체
- 대푯값(평균, 최빈)을 활용함
  - 일괄 대체: 대푯값으로 다 대체
  - 유사 유형 대체: 범주형 변수를 활용해 대체
  - fillna()

## 이상치 처리
- 이상치: 데이터 범위에서 많이 벗어난 값

### (1) 이상치 확인
1. describe(통계)로 확인
2. BoxPlot(시각화)로 확인
3. Z-score로 확인
- 평균=0과 표준편차=1로 정규화하여, 평균에서 얼마나 떨어져있는지 나타낸다.
- 평균에 가까울수록 0, 멀어질 수록 Z가 커진다.
- 보통 Z가 2~3을 넘어가면 이상치로 간주한다.
4. Tukey Fences로 확인: 사분위 범위 기반이다.
- Q1 - (1.5 * IQR) 미만
- Q3 + (1.5 * IQR) 초과
- 데이터 특성에 따라 1.5를 3.0로 하는 등 조절 가능함.
- IQR은 데이터 중간 50% 범위를 측정함.

### (2) 이상치 제거 및 처리
1. 전체 삭제
- Human error(오타 등) -> 관측치 삭제하면 됨
2. 다른 값으로 대체
- 관측치가 적은 경우 삭제보다는 대체가 신뢰성 측면에서 좋음.
- Human error여도 대체하거나, 다른 변수들을 사용하여 이상값을 예측하여 그 값으로 대체.
3. 변수화
- 이상치가 자연 발생한 경우, 이상값을 먼저 파악하는 게 중요함.
- 변수화하면 이상값을 삭제하지 않고 모델에 포함할 수 있다!!
4. 리샘플링
- 이상치를 분리해서 모델을 만드는 방법
- 이상치를 포함한 모델, 제외한 모델을 모두 만들고 각 모델에 대해 설명하기

## 피처 엔지니어링(변수 가공)
- 컴퓨터가 이해할 수 있도록 변수의 형태를 변형, 처리하는 과정
- feature = 변수 = column
- 기존의 데이터에 정보를 추가하는 일련의 과정.
- 기존 데이터를 보다 유용하게 쓸 수 있음.

1. 레이블인코딩, 원핫인코딩: 문자열을 숫자형으로 변경
- Label Encoding: 범주형 변수를 0부터 n-1까지
- one-hot encoding: 0,1로 변환
  - pd.get_dummies(df, columns=[리스트]): 명목변수를 0과 1로

2. 구간화(Binning): 연속적인 값을 일정 구간으로 구분
- 필요에 따라 도메인 지식을 최대한 활용해 수행하는 것이 좋다.
  - pd.cut(df['컬럼명'], bins=[기준 리스트], labels=[지정할 label])

3. 파생변수 생성: 기존 피처를 변환해 새로운 피처 생성
- 기존 데이터를 분석해 새로운 특성을 얻기 위함이다.
- 논리적 타당성과 기준으로 생성해야 함.

4. 스케일링: 변수의 값 범위를 일정한 수준으로 맞추기
- 숫자의 크기 차이로 결과 왜곡 방지하기 위함이다.
- 각 변수의 데이터 값을 동일한 기준으로 나눈 비율로 나타내는 정규화 작업
- 이상치 제거가 선행되어야 함!!

(1) 표준화: feature를 평균=0, 분산=1로 변경하여 같은 스케일을 갖게(정규성 가정)
(2) MinMaxScaler: feature가 0과 1 사이.
- 원하는 scaler를 변수에 저장하고, 기존 컬럼을 fit_transform 하면 된다.

(참고) 변수 변환
- 변수 단위 변경, 분포가 편향되어 있을 때 -> log, square root

## 4. 데이터 시각화
- 데이터 이해를 돕기 위해 그래픽 요소로 표현하는 과정
- 패턴, 관계, 추세 등을 쉽게 파악할 수 있음.
- Matplotlib, Seaborn을 사용함
- 시각화 전, 범주형/수치형과 결측치/이상치를 확인해야 함.

### 파라미터
- 파라미터=인자 형식으로 전달한다.
- 전하고자 하는 실제 값을 파라미터에 인자로 전달한다.
- hue: 범주형 변수를 넣어 설정한 기준으로 데이터를 구분하여 그래프에 표시해줌.

### 다양한 그래프 톺아보기
1. boxplot
- 사분위수 + 이상치
- showfliers=False를 통해 이상치를 표시하지 않을 수 있음.
2. countplot, histplot
- countplot: 범주형 변수의 빈도수
- histplot: 수치형 변수의 구간별 빈도수
3. displot, kdeplot: 히스토그램을 연속적인 곡선으로 연결한 그래프
4. barplot, pointplot
- barplot: 범주형 데이터 값 x에 따른 수치형 데이터 값 y의 평균값
- pointplot: 모양만 다르고 동일한 정보 제공
5. scatterplot(산점도 그래프), regplot(회귀선이 추가된 산점도래프)
- scatterplot: 두 연속형 변수 간 관계
- regplot: 두 연속 변수 사이 산점도와 회귀선을 함께 나타내는 그래프
6. catplot: 수치형 데이터와 범주형 데이터의 관계
7. pieplot: 부분과 전체 간 비율. 
8. heatmap: 변수 간 상관계수를 직관적으로 볼 수 있음.
- 상관계수: 두 수치형 변수 사이 상관관계의 정도를 수치적으로 나타낸 것. -1~1 사이의 값
9. violinplot: boxplot+커널밀도추정 함수
10. pairplot: 여러 그래프를 한번에 설정하기. 여러 변수 간 산점도를 한번에 볼 수 있다.
