<a href="https://colab.research.google.com/github/Eungyum/scikit-learn_study/blob/main/4_2_%EB%B2%94%EC%A3%BC%ED%98%95_%EB%8D%B0%EC%9D%B4%ED%84%B0_%EB%8B%A4%EB%A3%A8%EA%B8%B0.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
import pandas as pd
df = pd.DataFrame([
    ['green', 'M', 10.1, 'class2'],
    ['red', 'L', 13.5, 'class1'],
    ['blue', 'XL', 15.3, 'class2']
])
df.columns = ['color', 'size', 'price', 'classlabel']
df

Unnamed: 0,color,size,price,classlabel
0,green,M,10.1,class2
1,red,L,13.5,class1
2,blue,XL,15.3,class2


# 순서가 있는 범주형 데이터
- 순서가 있는 특성 / M < L < XL < XXL ...

## 순서가 있는 변수를 정수로
- 학습 알고리즘을 위해 정수로 변환해야함.
- 자동으로 순서를 바꿔주는 함수는 없음.
- 맵핑함수 직접 만들어야함.

In [None]:
# 딕셔너리로 맵핑데이터 생성
size_mapping = {
    'XL':3,
    'L':2,
    'M':1}

# 맵핑
df['size'] = df['size'].map(size_mapping)

# 확인
df

Unnamed: 0,color,size,price,classlabel
0,green,1,10.1,class2
1,red,2,13.5,class1
2,blue,3,15.3,class2


# 순서가 없는 범주형 데이터
- 순서가 없는 특성 / '빨강', '노랑', '파랑', ...

## 순서가 없는 클래스 레이블을 정수로
- 클래스 레이블에 정수배열로 전달하는 것이 좋음
- 할당한 정수는 순서의 의미가 없어짐

In [None]:
import numpy as np

# 딕셔너리로 맵핑데이터 생성
class_mapping = {label:idx for idx, label in enumerate(np.unique(df[['classlabel']]))}

# 맵핑
df['classlabel'] = df['classlabel'].map(class_mapping)

# 확인
df

Unnamed: 0,color,size,price,classlabel
0,green,1,10.1,1
1,red,2,13.5,0
2,blue,3,15.3,1


## 정수로 변환된 클래스레이블을 다시 문자열로 변환하는 법

In [None]:
# 다시 문자열로 바꾸는 맵핑데이터
inv_class_mapping = {v: k for k, v in class_mapping.items()}

# 맵핑
df['classlabel'] = df['classlabel'].map(inv_class_mapping)

# 확인
df

Unnamed: 0,color,size,price,classlabel
0,green,1,10.1,class2
1,red,2,13.5,class1
2,blue,3,15.3,class2


# 사이킷런 LabelEncoder 사용

In [None]:
df = pd.DataFrame([
    ['green', 'M', 10.1, 'class2'],
    ['red', 'L', 13.5, 'class1'],
    ['blue', 'XL', 15.3, 'class2']])
df.columns = ['color', 'size', 'price', 'classlabel']

from sklearn.preprocessing import LabelEncoder

# LabelEncoder() 객체 생성
class_le = LabelEncoder()

# 맵핑 & 맵핑으로 생성된 어레이를 y에 저장
# fit_transform 메서드에는 반드시 1차원 배열만 넣어야함.
y = class_le.fit_transform(df['classlabel'].values)

df['classlabel'] = y
# 확인
df

Unnamed: 0,color,size,price,classlabel
0,green,M,10.1,1
1,red,L,13.5,0
2,blue,XL,15.3,1


In [None]:
# 다시 문자열로 바꾸는 맵핑데이터
df['classlabel'] = class_le.inverse_transform(y)
df

Unnamed: 0,color,size,price,classlabel
0,green,M,10.1,class2
1,red,L,13.5,class1
2,blue,XL,15.3,class2


# 원-핫 인코딩
- LabelEncoder()의 단점: 한 번에 열 1개만 가능함
- 원-핫 인코딩은 레이블 값들로 더미 특성의 열을 만든다.(통상적인 방법)

## 판다스에서(추천)

In [None]:
data = pd.DataFrame({
    'color': ['Red', 'Blue', 'Green', 'Red', 'Blue'],
    'size': ['S', 'M', 'L', 'XL', 'M'],
    'price': [15, 20, 25, 30, 35]
})

# get_dummies의 columns 속성에 지정한 컬럼만 원-핫 인코딩 실행
pd.get_dummies(data[['price','color','size']], columns=['size'])

Unnamed: 0,price,color,size_L,size_M,size_S,size_XL
0,15,Red,0,0,1,0
1,20,Blue,0,1,0,0
2,25,Green,1,0,0,0
3,30,Red,0,0,0,1
4,35,Blue,0,1,0,0


## 사이킷런에서

In [None]:
from sklearn.preprocessing import OneHotEncoder

# 샘플 데이터 생성
data = {
    'color': ['Red', 'Blue', 'Green', 'Red', 'Blue'],
    'size': ['S', 'M', 'L', 'XL', 'M'],
    'price': [15, 20, 25, 30, 35]
}

df = pd.DataFrame(data)

# OneHotEncoder 설정
encoder = OneHotEncoder(categories='auto',drop='first')

# 'color'와 'size' 열을 원-핫 인코딩
encoded_data = encoder.fit_transform(df[['color', 'size']])

# 원-핫 인코딩 결과를 DataFrame으로 변환하고 출력
encoded_df = pd.DataFrame(
    encoded_data.toarray(),
    columns=encoder.get_feature_names_out(['color', 'size'])
)

print(encoded_df)

   color_Green  color_Red  size_M  size_S  size_XL
0          0.0        1.0     0.0     1.0      0.0
1          0.0        0.0     1.0     0.0      0.0
2          1.0        0.0     0.0     0.0      0.0
3          0.0        1.0     0.0     0.0      1.0
4          0.0        0.0     1.0     0.0      0.0
