## 라벨 인코딩(Label Encoding) vs. 원-핫 인코딩(One-Hot Encoding)

라벨 인코딩과 원-핫 인코딩 중 어느 것을 사용할지는 데이터의 **특성(Feature)이 가진 성격**과 **사용하려는 머신러닝 모델의 종류**에 따라 결정됩니다.

일반적으로 **원-핫 인코딩(One-Hot Encoding)**이 더 널리 권장됩니다. 하지만 각각의 장단점과 사용 사례를 이해하는 것이 중요합니다.

---

### 1. 라벨 인코딩 (Label Encoding)

| 특징 | 설명 |
| :--- | :--- |
| **정의** | 범주형 값을 단순한 정수형 숫자(0, 1, 2, ...)로 변환합니다. |
| **적용 결과** | `'남' = 0`, `'여' = 1` |
| **문제점** | **순서(Ordinality) 부여** | 숫자가 부여되면서 모델은 `'1' > '0'`처럼 숫자 사이에 **크기(순서) 관계**가 있다고 잘못 학습할 수 있습니다. |

####  권장되는 경우

라벨 인코딩은 오직 범주 간에 **실제 순서 관계(서열)**가 존재하는 경우에만 권장됩니다.

* **서열 데이터 (Ordinal Data):**
    * **예시:** 학점 (`'A', 'B', 'C'`), 만족도 (`'매우 불만', '보통', '매우 만족'`) 등 순서가 명확한 경우.
* **트리 기반 모델 (Tree-based Models)의 종속 변수 (Target Variable):**
    * **예시:** `Decision Tree`, `Random Forest`, `Gradient Boosting`. 이 모델들은 숫자 간의 거리(Distance) 개념을 사용하지 않기 때문에, 특성(Feature)이 아닌 **종속 변수(Target $y$)**에 적용할 때는 라벨 인코딩을 사용해도 무방하며, 때로는 메모리 효율성을 위해 더 선호됩니다.

---

### 2. 원-핫 인코딩 (One-Hot Encoding)

| 특징 | 설명 |
| :--- | :--- |
| **정의** | 각 범주를 독립적인 이진(Binary) 특성(컬럼)으로 변환합니다. |
| **적용 결과** | `'남' = [1, 0]`, `'여' = [0, 1]` |
| **장점** | **순서 관계 제거** | 모든 범주가 동등하게 취급되므로, 모델이 임의의 크기 관계를 학습하는 것을 방지합니다. |
| **문제점** | **차원의 저주** | 범주의 개수가 매우 많을 경우, 생성되는 특성의 개수가 폭발적으로 늘어나 메모리 사용량과 계산 복잡도가 증가합니다. |

####  권장되는 경우 (가장 일반적인 경우)

대부분의 경우 원-핫 인코딩이 더 안전하고 성능이 좋습니다.

* **명목 데이터 (Nominal Data):**
    * **예시:** 성별 (`'남', '여'`), 색상 (`'빨강', '파랑'`), 도시 이름 등 **순서가 없는** 범주. (가장 흔한 사용 사례)
* **거리 기반 모델 (Distance-based Models):**
    * **예시:** `Linear Regression`, `Logistic Regression`, `SVM`, `k-NN`. 이 모델들은 특성 간의 거리를 계산하기 때문에, 라벨 인코딩을 사용하면 왜곡된 결과를 초래할 수 있습니다.



---

### 3. 요약 및 최종 권장 사항

| 구분 | 라벨 인코딩 (Label Encoding) | 원-핫 인코딩 (One-Hot Encoding) |
| :--- | :--- | :--- |
| **적용 대상** | 순서가 있는 **서열 데이터** 또는 **타겟 변수($y$)** | 순서가 없는 **명목 데이터** (가장 일반적) |
| **적합한 모델** | 트리 기반 모델 | 선형 모델, 거리 기반 모델 등 대부분의 모델 |
| **주요 장점** | 메모리 효율성, 특성 개수 유지 | 데이터의 왜곡 방지 (순서 없음) |
| **최종 권장** | **특별한 이유(순서 또는 $y$)가 없다면 피하는 것이 좋음** | **명목형 특성(Feature $X$)에 가장 널리 권장됨** |

####  결론

특성(Feature $X$)을 인코딩할 때는 **범주 간에 순서 관계가 명확하게 존재하지 않는 한,** **원-핫 인코딩**을 사용하는 것이 모델 성능과 해석의 정확성 면에서 더 안전하고 권장됩니다.

In [None]:
import pandas as pd
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import StandardScaler, OneHotEncoder,OrdinalEncoder
import numpy as np

data = {
    '수치형_특징': [10, 20, 30, 40, 50],
    '범주형_특징': ['A', 'B', 'A', 'C', 'B'],
    '그대로_유지': [1, 0, 1, 0, 1]
}
df = pd.DataFrame(data)
df

Unnamed: 0,수치형_특징,범주형_특징,그대로_유지
0,10,A,1
1,20,B,0
2,30,A,1
3,40,C,0
4,50,B,1


In [None]:
preprocessor = ColumnTransformer(
    transformers=[
        # (이름, 변환기, 대상 컬럼 리스트)
        ('cat', OrdinalEncoder() , ['범주형_특징'])
    ],
    remainder='passthrough' # '그대로_유지' 컬럼은 변환 없이 그대로 통과
)
print(preprocessor)
X_transformed = preprocessor.fit_transform(df)
print(X_transformed)

   수치형_특징 범주형_특징  그대로_유지
0      10      A       1
1      20      B       0
2      30      A       1
3      40      C       0
4      50      B       1
   수치형_특징  그대로_유지  범주형_특징_A  범주형_특징_B  범주형_특징_C
0      10       1      True     False     False
1      20       0     False      True     False
2      30       1      True     False     False
3      40       0     False     False      True
4      50       1     False      True     False
ColumnTransformer(remainder='passthrough',
                  transformers=[('cat', OrdinalEncoder(), ['범주형_특징'])])
[[ 0. 10.  1.]
 [ 1. 20.  0.]
 [ 0. 30.  1.]
 [ 2. 40.  0.]
 [ 1. 50.  1.]]


In [None]:
import pandas as pd
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import StandardScaler, OneHotEncoder,OrdinalEncoder
import numpy as np

# 훈련 데이터 생성
data = {
    '수치형_특징': [10, 20, 30, 40, 50],
    '범주형_특징': ['A', 'B', 'A', 'C', 'B'],
    '그대로_유지': [1, 0, 1, 0, 1]
}
X = pd.DataFrame(data)

print("--- 원본 데이터 (X) ---")
print(X)
print("-----------------------")

# 1. 적용할 전처리 (변환기)와 대상 컬럼 정의
# 수치형 변환 정의 (StandardScaler)
numeric_features = ['수치형_특징']
numeric_transformer = StandardScaler()

categorical_features = ['범주형_특징']
categorical_transformer = OrdinalEncoder()

preprocessor = ColumnTransformer(
    transformers=[
        # (이름, 변환기, 대상 컬럼 리스트)
        ('num', numeric_transformer, numeric_features),
        ('cat', categorical_transformer, categorical_features)
    ],
    # 나머지(remainder) 컬럼 처리 방법 정의
    remainder='passthrough' # '그대로_유지' 컬럼은 변환 없이 그대로 통과
)

print("\n--- 정의된 ColumnTransformer 구조 ---")
print(preprocessor)
print("-----------------------------------")

# ColumnTransformer를 데이터에 적용
X_transformed = preprocessor.fit_transform(X)

print("\n--- 변환된 데이터 (X_transformed) ---")
print(X_transformed)
print("--------------------------------------")

--- 원본 데이터 (X) ---
   수치형_특징 범주형_특징  그대로_유지
0      10      A       1
1      20      B       0
2      30      A       1
3      40      C       0
4      50      B       1
-----------------------

--- 정의된 ColumnTransformer 구조 ---
ColumnTransformer(remainder='passthrough',
                  transformers=[('num', StandardScaler(), ['수치형_특징']),
                                ('cat', OrdinalEncoder(), ['범주형_특징'])])
-----------------------------------

--- 변환된 데이터 (X_transformed) ---
[[-1.41421356  0.          1.        ]
 [-0.70710678  1.          0.        ]
 [ 0.          0.          1.        ]
 [ 0.70710678  2.          0.        ]
 [ 1.41421356  1.          1.        ]]
--------------------------------------
