# EDA & 전처리

## 0️⃣ 데이터 분석 프로세스

1. **데이터 수집**: 다양한 형식의 데이터를 수집
2. **데이터 탐색(EDA)**: 수집한 데이터의 특성과 패턴을 파악
3. **데이터 전처리**: 분석을 위해 데이터를 적절히 가공하고 정제
4. **데이터 모델링**: 유용한 정보 추출을 위한 모델 구축

> EDA에서 전처리까지가 데이터 분석 과정의 80%

## 1️⃣ EDA의 개념

EDA(Exploratory Data Analysis, 탐색적 데이터 분석)는 데이터를 시각화, 통계적 방법을 통해 파악하는 모든 과정

### EDA의 유형

1. **EDA 대상에 따른 분류**
   - **일변량(Univariate)**: 한 변수의 특성 파악
   - **다변량(Multi-variate)**: 여러 변수 간의 관계 파악

2. **EDA 방법에 따른 분류**
   - **시각화(Graphic)**: 차트나 그림을 이용한 방법
   - **비시각화(Non-Graphic)**: 통계량을 통한 수치적 방법

3. **EDA 유형 조합**
   - **일변량 비시각화**: 변수의 분포 확인
   - **일변량 시각화**: 데이터를 전체적으로 살펴봄
   - **다변량 비시각화**: 변수 간 관계 확인
   - **다변량 시각화**: 여러 변수 간 전체적 관계 파악

## 2️⃣ 데이터 확인

### 데이터 읽기/쓰기

#### 파일 경로
- **절대 경로**: 루트부터 시작하는 전체 경로 (예: `/Users/name/data.csv`)
- **상대 경로**: 현재 작업 디렉토리 기준 경로 (예: `./data.csv`)

### 데이터셋 파악하기

1. **데이터 프레임 보기**: `head()` 함수로 상위 데이터 확인
2. **변수 확인**:
   - **변수 정의 확인**: 각 변수가 무엇을 의미하는지
   - **변수 유형 확인**: 범주형과 수치형 구분
   - **변수 데이터 형식 확인**: 자료형 파악

#### 변수 유형 구분
- **범주형(Categorical)**
  - **명목형(Nominal)**: 순서가 없는 분류 데이터 (성별, 혈액형)
  - **순서형(Ordinal)**: 순서가 있는 분류 데이터 (등급)
- **수치형(Numerical)**
  - **이산형(Discrete)**: 셀 수 있는 값 (학생 수, 과목 수)
  - **연속형(Continuous)**: 연속적인 값 (키, 몸무게)

> 이산형과 연속형은 단순히 정수/소수 여부가 아닌, 값의 의미와 특성으로 구분

#### 데이터 분포 확인
단변수 분석으로 원시 데이터의 분포를 확인하여 전처리 방향을 결정

## 3️⃣ 전처리

데이터 품질을 높이기 위해 오류를 수정하고 분석 목적에 맞게 변형하는 과정

### 전처리 기술
- **데이터 정제(Cleansing)**: 결측값, 이상값 처리
- **데이터 변환(Transformation)**: 일관성 확보
- **데이터 필터링(Filtering)**: 오류 발견 및 보정
- **데이터 통합(Integration)**: 유사 데이터 연계

### 결측값 처리

1. **결측값 확인**
   - `info()`: 유효한 값 개수 확인
   - `value_counts(dropna=False)`: 결측값 포함 데이터 확인
   - `isnull()`, `notnull()`: 결측 여부 확인
   - `replace()`: 특정 값을 NaN으로 변환

2. **결측값 처리 방법**
   - **삭제**: `dropna()` 함수 사용
     - `axis=0/1`: 행/열 삭제
     - `how='any'/'all'`: 하나라도/모두 결측 시 삭제
     - `subset=['col']`: 특정 열 기준 삭제
     - `inplace=True/False`: 원본 변경 여부
   - **대체**: `fillna()` 함수 사용
     - 일괄 대체: 모든 변수 동일 값으로 대체
     - 유사 유형 대체: 범주에 따라 다른 값으로 대체

### 이상치 처리

1. **이상치 확인 방법**
   - **통계**: `describe()` 함수
   - **시각화**: 박스플롯
   - **Z-score**: 평균으로부터 얼마나 떨어져 있는지
   - **Tukey Fences**: IQR 기반 이상치 판단

2. **이상치 처리 방법**
   - **전체 삭제**: Human error에 의한 이상치
   - **대체**: 관측치가 적을 때 평균 등으로 대체
   - **변수화**: 자연 발생 이상치는 새 변수로 분류
   - **리샘플링**: 이상치를 분리해 별도 모델 구축

### 피처 엔지니어링 (변수 가공)

기존 변수를 가공하여 문제 해결에 적합한 형태로 변형하는 과정

1. **인코딩**
   - **레이블 인코딩**: 범주를 0부터 N-1까지 숫자로 변환
   - **원핫 인코딩**: 범주를 이진 벡터로 변환 (예: `pd.get_dummies()`)

2. **구간화(binning)**
   - 연속 데이터를 일정 구간으로 나누기 (예: `pd.cut()`)

3. **변환**
   - 기존 피처를 다른 피처로 변환 (예: 날짜에서 요일 추출)

4. **스케일링**
   - **StandardScaler**: 평균 0, 분산 1로 변환
   - **MinMaxScaler**: 0과 1 사이로 변환

## 4️⃣ 시각화

데이터를 그래프로 표현하여 패턴, 관계, 추세를 파악하는 과정

### 주요 그래프 종류

1. **boxplot(상자 수염 그림)**: 사분위수와 이상치 표현
2. **countplot, histplot**: 빈도수 확인 그래프
3. **displot, kdeplot**: 밀도 분포 그래프
4. **barplot, pointplot**: 범주에 따른 수치 평균값 비교
5. **scatterplot, regplot**: 두 변수 관계 시각화
6. **catplot**: 범주형-수치형 데이터 관계 시각화
7. **pieplot**: 부분과 전체 비율 표현
8. **heatmap**: 변수 간 상관관계 시각화
9. **violinplot**: 박스플롯과 커널밀도추정 결합
10. **pairplot**: 여러 변수 간 산점도 한번에 표현

### 시각화 파라미터

그래프 생성 시 다양한 파라미터로 원하는 시각화 구현:
- **data**: 시각화할 데이터프레임
- **x, y**: 축에 표시할 변수
- **hue**: 데이터를 구분할 범주형 변수
- **ci**: 신뢰구간 표시
- **annot**: 값 표시 여부

> 여러 그래프를 subplot으로 구성하여 한 화면에 다양한 시각화를 동시에 보여줄 수 있다