# 🧹 ADSP 정리 05 - 데이터 전처리 (Data Preprocessing)

## 1. 데이터 전처리란?

- 분석 및 모델링 전에 데이터를 정제하고 준비하는 과정
- 데이터 품질이 분석 결과와 모델 성능에 큰 영향을 미침
- 주요 작업:
  - 결측치 처리
  - 이상치 처리
  - 정규화 및 표준화
  - 범주형 변수 인코딩

In [1]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

# 예제 데이터 생성
np.random.seed(0)
df = pd.DataFrame({
    "age": np.random.randint(20, 60, 100),
    "income": np.random.normal(5000, 1500, 100),
    "gender": np.random.choice(["Male", "Female"], 100)
})

# 일부 결측치 삽입
df.loc[5:10, "income"] = np.nan

df.head()

Unnamed: 0,age,income,gender
0,20,4048.516859,Female
1,23,4455.888251,Female
2,23,3991.309328,Female
3,59,4460.670258,Female
4,29,3780.280577,Female


## 2. 결측치(Missing Values) 처리

- 분석 대상에서 결측치는 반드시 확인하고 처리해야 함
- 주요 방법:
  - 삭제: `dropna()`
  - 평균/중앙값으로 대체: `fillna()`

In [2]:
# 결측치 확인
print("결측치 개수:\n", df.isnull().sum())

# 평균으로 대체
df["income"] = df["income"].fillna(df["income"].mean())

# 확인
df.isnull().sum()

결측치 개수:
 age       0
income    6
gender    0
dtype: int64


age       0
income    0
gender    0
dtype: int64

## 3. 이상치(Outliers) 처리

- 평균에서 크게 벗어난 값은 분석 결과를 왜곡시킬 수 있음
- 일반적인 기준:
  - Z-score가 3 이상이면 이상치로 간주

In [3]:
from scipy.stats import zscore

# Z-score 계산
z = np.abs(zscore(df[["income"]]))

# 이상치 제거 (Z-score 3 이상인 행 제거)
df = df[(z < 3).all(axis=1)]

df.shape  # 제거 후 데이터 크기 확인

(100, 3)

## 4. 정규화 및 표준화

- 정규화: 값의 범위를 [0, 1]로 맞춤
- 표준화: 평균 0, 표준편차 1로 맞춤
- 스케일이 다른 변수 간 비교/학습을 위해 필요

In [4]:
from sklearn.preprocessing import StandardScaler, MinMaxScaler

# 표준화
scaler = StandardScaler()
df[["age", "income"]] = scaler.fit_transform(df[["age", "income"]])

df.describe()

Unnamed: 0,age,income
count,100.0,100.0
mean,-9.187096e-17,2.88658e-16
std,1.005038,1.005038
min,-1.500053,-1.820159
25%,-0.8077815,-0.8706544
50%,-0.03639368,6.443421e-16
75%,0.952565,0.7710833
max,1.585499,2.344945


## 5. 범주형 변수 인코딩 (Categorical Encoding)

- 머신러닝 모델은 숫자만 처리할 수 있으므로
  문자열로 된 범주형 변수는 숫자로 변환해야 함
- 방법:
  - Label Encoding: 순서가 있는 경우
  - One-Hot Encoding: 순서가 없는 범주 (ex. 성별, 지역)

In [5]:
# gender 변수 one-hot 인코딩
df = pd.get_dummies(df, columns=["gender"], drop_first=True)

df.head()

Unnamed: 0,age,income,gender_Male
0,-1.500053,-0.861694,False
1,-1.262702,-0.573087,False
2,-1.262702,-0.902223,False
3,1.585499,-0.569699,False
4,-0.788002,-1.051729,False


## ✅ 요약: 데이터 전처리 흐름 정리

1. **결측치 처리**  
   - 삭제 or 평균/중앙값/모델 기반 대체

2. **이상치 처리**  
   - Z-score, IQR 등으로 탐지 및 제거

3. **정규화 / 표준화**  
   - MinMaxScaler / StandardScaler 사용

4. **범주형 변수 인코딩**  
   - pd.get_dummies()로 One-hot Encoding

---

→ 전처리는 데이터 분석 및 모델링의 **기초 체력 훈련!**
→ 깨끗한 데이터가 좋은 결과를 만든다 💪