# **EDA&전처리 note**

데이터 분석은 보통 다음과 같은 순서로 진행된다
1. **데이터 수집**: 분석에 필요한 데이터를 확보하는 단계
2. **데이터 탐색(EDA)**: 데이터를 이해하고 문제점을 발견하는 과정
3. **데이터 전처리**: 분석에 적합하도록 데이터를 정리하고 손질하는 과정
4. **데이터 모델링**: 분석 목적에 맞는 모델을 만들고 평가하는 단계

## 1️⃣ EDA(탐색적 데이터 분석)의 개념

EDA: 데이터를 여러 관점에서 이해하고 분석하는 과정

### (1) EDA 대상
- **일변량(단일 변수 분석)**: 각 변수의 분포, 평균, 중앙값 등을 확인
    ➡️ 데이터를 설명하고 그 안에 존재하는 패턴을 찾는 것이 주요 목적.
- **다변량(두 개 이상 변수 분석)**: 변수 간의 관계, 상관관계, 패턴 탐색
    ➡️ 여러 변수들 간의 관계를 보는 것이 주요 목적.

### (2) EDA 종류
- **시각화 기반 EDA**: 그래프나 차트를 이용하여 데이터 특징을 확인
- **비시각화 EDA**: 통계량, 요약표, 상관계수 등 수치 기반으로 분석

### (3) EDA 유형
- **Uni-Non Graphic(일변량 비시각화) :** 주어진 데이터의 Distribution을 확인하는 것이 주목적.
- **Uni-Graphic(일변량 시각화)** : 주어진 데이터를 전체적으로 살펴보는 것이 주목적.
- **Multi-Non Graphic(다변량 비시각화)** : 주어진 둘 이상의 변수 간 관계를 확인하는 것이 주목적.
- **Multi-Graphic(다변량 시각화)** : 주어진 둘 이상의 변수 간 관계를 전체적으로 살펴보는 것이 주목적.


## 2️⃣ 데이터 확인

데이터 분석을 시작하기 전, 데이터의 구조와 특성을 파악해야 함

### 데이터 읽기/쓰기

### (1) 경로
- **절대경로**: 처음부터 목적지까지 전체적인 경로 지정  
- **상대경로**: 현재 작업 디렉토리를 기준으로 파일 위치 지정

### (2) 데이터 입출력
- CSV, Excel, JSON 등 다양한 포맷으로 데이터 읽기/쓰기 가능

### (3) CSV와 EXCEL
- **CSV 파일**: 데이터를 쉼표(,)로 구분하고 있는 텍스트 파일.
    - 데이터의 크기가 작고 압축이 용이하기 때문에 가장 널리 사용되는 데이터 형식
    - pd.read_csv("파일경로/파일이름.csv") 
- **EXCEL 파일**: 행과 열이 데이터프레임의 행, 열로 일대일 대응.
    - 여러 개의 시트로 구성된 데이터를 읽을 때 불러올 특정 시트 설정 가능
    - pd.read_excel('파일경로/파일이름.xlsx',sheet_name='불러올 시트')
- 두 형식 모두 pandas를 통해 DataFrame 형식으로 읽어올 수 있음.


### 데이터셋 파악하기
### (1) 데이터 프레임 보기 
**`df.head()`**: 데이터의 상위 5행 확인
    - head(n)에서 n 변경 가능
### (2) 데이터 변수 확인 
**`df.info()`**: 데이터 타입, 결측치 확인
- 데이터의 종류
    - **범주형**: 몇 개의 범주로 나누어진 데이터
        - **명목형**: 성별, 성공여부, 혈액형 등 순서와 상관없이 이름만 의미를 부여할 수 있는 경우
        - **순서형**: 범주형 데이터 중 어떤 기준에 따라 순서에 의미를 부여할 수 있는 경우
    - **수치형** : 숫자로 표현되는 데이터
        - **이산형**: 이산적인 값으로, 정수 단위로 떨어져 셀 수 있는 데이터 
        - **연속형**: 연속적인 값을 갖는 데이터로 신장, 체중 등 
### (3) 데이터 분포 확인
- 단변수 분석: 원시 데이터의 변수들의 분포를 그래프를 통해 단변수를 확인해 분석할 수 있는 방법
- 원시 데이터 분포의 확인을 통해 전처리 아이디어를 얻을 수 있음

## 3️⃣ 전처리
데이터 전처리: 데이터를 분석에 적합한 형태로 만드는 과정
### 결측값 처리
- 확인: 
    - `info()` :  데이터 프레임의 요약 정보를 출력 → 각 열에 속하는 유효한 값(NaN 값이 아닌 non-null)의 개수를 보여줌
    - `value_counts(dropna=False)` : 각 열의 결측값을 포함한 전체 데이터 확인 가능
    - `isnull()` : 누락 데이터면 True, 유효한 데이터면 False 반환
    **`df.isnull().sum()`** 의 형식으로 자주 사용!
    - `notnull()` : 유효 데이터면 True, 누락 데이터면 False 반환
    - `replace()` : 결측값이 NaN이 아니라 ‘0’ 이나 ‘?’ 등으로 입력되기도 하는데, 이때 replace를 활용하여 NaN으로 변환할 수 있음
- 처리 방법:
    - 제거: `dropna()`
    - 대체: 평균, 중앙값, 최빈값 등으로 채움
        -  `fillna()`
### 이상치 처리
이상치: 관측된 데이터의 범위에서 많이 벗어난 값
- 확인:
    - 통계를 통해 확인: `describe()`
    - 시각화를 통해 확인: BoxPlot
    - Z-score을 통해 확인
        - 데이터를 평균(0)과 표준편차(1)로 정규화하여, 평균으로부터 얼마나 떨어져있는지 나타냄
        - Z-score가 특정 기준값(일반적으로 2~3)을 넘어가는 데이터를 이상치로 간주
    - Tukey Fences을 통해 확인: 사분위 범위(IQR, Interquartile Range)를 기반으로, 두 가지 경우에 이상치라고 판단
        - Q1 - (1.5 * IQR) 미만
        - Q3 + (1.5 * IQR) 초과
- 처리: 전체 삭제, 다른 값으로 대체, 변수화, 리샘플링 등
### 피처 엔지니어링
해결하고자 하는 문제를 컴퓨터가 잘 이해할 수 있도록 피처(변수)들의 형태를 변형하거나 적절하게 처리하는 과정
- 레이블 인코딩: 범주형 변수를 숫자로 변환
- 원핫 인코딩: 범주형 변수를 0/1로 나눠 새로운 열 생성
- 구간화(Binning): 연속적인 값을 일정한 구간(Bin)으로 구분 
- 파생변수 생성: 기존의 피처를 변환해 새로운 피처 생성
- 스케일링: 서로 다른 변수의 값 범위를 일정한 수준으로 맞추는 작업

## 4️⃣ 데이터 시각화
데이터 시각화: 데이터에 대한 이해를 돕기 위해 그림, 도형 등 그래픽 요소들을 이용해 데이터를 묘사하고 표현하는 과정
1) **Matplotlib**
: Python 프로그래밍 언어 및 수학적 확장 NumPy 라이브러리를 활용한 플로팅(그래프를 그리기 위한) 라이브러리
2) **Seaborn**
: matplotlib을 기반으로 만들어져 통계 데이터 시각화에 최적화된 인기 라이브러리

- 시각화를 하기 전 데이터가 **범주형인지 수치형**인지 파악하고, **결측값 및 이상치가** 있는지 확인
- 데이터의 특성을 파악하고 난 뒤에는 어떤 그래프를 그려서 데이터를 바라볼지 고민해야 합니다.
    - 막대 그래프, 선 그래프, 파이 그래프, 산점도 그래프 등등 많은 종류의 그래프들이 존재
    - 데이터를 어떤 식으로 바라보고 싶은 지에 따라 사용하는 그래프가 모두 다름

### **파라미터**
컴퓨터 프로그래밍에서 **매개변수(parameter 파라미터)란** 프로그래밍된 함수의 **입력값**을 의미

### 그래프 톺아보기
1) boxplot(상자 수염 그림): 사분위수와 이상치를 보여주는 그래프
2) countplot, histplot: 
    - countplot: 범주형 변수의 빈도수를 확인하는 그래프
    - histplot: 도수분포표를 그래프로 나타낸 것으로, 수치형 변수의 구간별 빈도수를 보여줌
3) displot, kdeplot (커널밀도추정 그래프): 히스토그램을 연속적으로 곡선으로 연결한 그래프
4) barplot, pointplot: 
    - barplot: 범주형 데이터 값 x에 따른 수치형 데이터 값 y의 평균 값을 제공
    - pointplot: 막대 그래프와 모양만 다르고 동일한 정보를 제공합니다. 
5) scatterplot(산점도 그래프), regplot(회귀선이 추가된 산점도래프):
    scatterplot: 두 연속형 변수 간의 관계를 시각화하기 위해 사용되는 그래프
    regplot: 두개의 연속 변수 사이의 산점도를 그리고 회귀선을 함께 나타내는 그래프
6) catplot: 수치형 데이터와 범주형 데이터의 관계를 볼 때 주로 사용
7) pieplot: 데이터의 부분과 전체 간의 비율을 표현하는 그래프
8) heatmap: 변수간 상관계수를 직관적으로 볼 수 있는 그래프
9) violinplot: 박스 플롯과 커널밀도추정 함수 그래프를 합쳐 놓은 그래프
10) 여러 그래프 한번에 찍기, pairplot
- 각 그래프를 ax[i]에 할당하여 원하는 위치에 출력 가능