## 1. 데이터 전처리 & EDA 요약

   1. 데이터 전처리

- 정의: 원시 데이터를 분석/모델링 가능하게 가공하는 과정
- 목적
    - 결측치, 이상치 처리
    - 데이터 형식/타입 정리
    - 스케일 조정 (표준화, 정규화 등)
    - 범주형 변수 인코딩
👉 데이터 분석의 "청소 + 정리" 단계!

2. 데이터 불러오기 & 구조 확인


import pandas as pd

df = pd.read_csv("data.csv")

print(df.head())       # 데이터 앞부분
print(df.info())       # 컬럼 타입 + 결측치
print(df.describe())   # 기초 통계

3. 결측치 처리

df['col'].fillna(df['col'].mean(), inplace=True)
df['col'].fillna(df['col'].mode()[0], inplace=True)

- 제거: df.dropna()
- 대체: 평균/중앙값/최빈값

but, 무조건 제거하지 말고 데이터 의미를 먼저 생각해야 됨

4. 이상치(Outlier) 처리

#IQR 방식

Q1 = df['col'].quantile(0.25)
Q3 = df['col'].quantile(0.75)
IQR = Q3 - Q1
outlier = df[(df['col'] < Q1 - 1.5*IQR) | (df['col'] > Q3 + 1.5*IQR)]


#시각화 

import seaborn as sns
sns.boxplot(x=df['col'])


5. 중복값(Duplicates) 처리

df.duplicated().sum()   # 중복행 개수 확인
df = df.drop_duplicates()


6. 데이터 변환(Transformation)

스케일링
- 표준화: 평균=0, 표준편차=1
- 정규화: 0~1 범위로 조정

from sklearn.preprocessing import StandardScaler, MinMaxScaler

scaler = StandardScaler()
df[['c1','c2']] = scaler.fit_transform(df[['c1','c2']])

scaler = MinMaxScaler()
df[['c1','c2']] = scaler.fit_transform(df[['c1','c2']])


인코딩
- Label 인코딩 (순서형 변수)
from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
df['cat'] = le.fit_transform(df['cat'])

- one-hot 인코딩 (명목형 변수)
pd.get_dummies(df, columns=['cat'])


7. EDA (탐색적 데이터 분석)

# 기초 통계

df.describe()
df['col'].value_counts()


# 단변량 분석
- 히스토그램
  import matplotlib.pyplot as plt
df['col'].hist(bins=20)
plt.show()

- KDA Plot
  import seaborn as sns
sns.histplot(df['col'], kde=True)

- Boxplot
  sns.boxplot(x=df['col'])


# 전처리 + EDA 워크 플로우

1. 데이터 불러오기
2. 구조 & 기본 통계 확인
3. 결측치 처리
4. 이상치/중복값 처리
5. 단일 변수 분포 확인
6. 변수 간 관계 (scatter, heatmap, groupby)
7. 스케일링 / 인코딩
8. 최종 데이터셋 생성

# 주의할 점

- “무조건 dropna()” → 금물! 데이터 의미 반드시 고려
- 이상치는 단순 오류일 수도, 중요한 insight일 수도 있음
- 시각화는 “그림 보기”가 아니라 “데이터의 이야기 찾기” 과정
- 전처리 과정을 재현 가능하게 코드/노트로 기록할 것