# 🧠 One-Hot 인코딩이란?
범주형(Categorical) 데이터를 기계 학습 모델이 이해할 수 있도록
숫자형으로 바꾸는 대표적인 인코딩 방식입니다.

✅ 예시
🎯 원본 데이터
| Color |
| ----- |
| Red   |
| Green |
| Blue  |


⬇️ One-Hot 인코딩 결과
| Color\_Red | Color\_Green | Color\_Blue |
| ---------- | ------------ | ----------- |
| 1          | 0            | 0           |
| 0          | 1            | 0           |
| 0          | 0            | 1           |


✅ Python 코드 예제

```python
import pandas as pd

df = pd.DataFrame({'Color': ['Red', 'Green', 'Blue', 'Green']})

# One-hot 인코딩
df_encoded = pd.get_dummies(df)

print(df_encoded)
```

📌 출력 결과

```python
   Color_Blue  Color_Green  Color_Red
0           0            0          1
1           0            1          0
2           1            0          0
3           0            1          0
```

✅ drop_first=True 옵션
```python
pd.get_dummies(df, drop_first=True)
```

- 첫 번째 컬럼을 제거하여 더미 변수 함정(Dummy Variable Trap) 방지
- 예: Color_Red 컬럼 제거 → Color_Blue, Color_Green만 유지해도 정보 손실 없음

✅ 특징 비교
| 항목    | 설명                            |
| ----- | ----------------------------- |
| ✔️ 장점 | 직관적이고 모델 해석이 용이함              |
| ❌ 단점  | 범주 수가 많으면 **차원이 폭발** (차원의 저주) |


✅ 사용 시점
- 순서 없는 범주형 변수 (예: 직업, 지역, 성별 등)
- Logistic Regression, KNN, Tree 모델 등 범주형을 숫자로 바꿔야 할 때
- 신경망 입력에서 범주형을 수치로 표현할 때



⚠️ 주의 사항
- LabelEncoder는 **타겟(y)**에 사용하고,
- 입력 X의 범주형 변수에는 One-Hot Encoding을 사용해야 모델이 오해하지 않습니다.