# 인코딩 정리

## 1. train과 test 데이터에서 범주형 컬럼의 카테고리가 같을 때
    - 원핫 or 레이블 둘 다 상관없음

In [None]:
import pandas as pd

In [None]:
train = pd.DataFrame({
    '과일': ['사과', '배', '포도'],
    '색상': ['빨강', '노랑', '보라'],
    '가격': [5000, 7000, 10000],
    'target': ['a', 'a', 'b']
})

test = pd.DataFrame({
    '과일': ['사과', '배', '포도'],
    '색상': ['빨강', '노랑', '보라'],
    '가격': [5000, 7000, 10000]
})

In [None]:
train.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   과일      3 non-null      object
 1   색상      3 non-null      object
 2   가격      3 non-null      int64 
 3   target  3 non-null      object
dtypes: int64(1), object(3)
memory usage: 224.0+ bytes


In [None]:
# target이 문자면 인코딩에 영향이 있음
target = train.pop('target')

# pop은 아래 코드와 같음
# target = train['target']
# train = train.drop('target', axis=1)

In [None]:
# 원-핫 인코딩
train_oh = pd.get_dummies(train)
test_oh = pd.get_dummies(test)

print(train_oh)
print(test_oh)

      가격  과일_배  과일_사과  과일_포도  색상_노랑  색상_보라  색상_빨강
0   5000     0      1      0      0      0      1
1   7000     1      0      0      1      0      0
2  10000     0      0      1      0      1      0
      가격  과일_배  과일_사과  과일_포도  색상_노랑  색상_보라  색상_빨강
0   5000     0      1      0      0      0      1
1   7000     1      0      0      1      0      0
2  10000     0      0      1      0      1      0


In [None]:
# 원-핫 인코딩 (특정 컬럼만 인코딩) 예) 과일은 원핫, 색상은 레이블
cols=['과일']
train_oh = pd.get_dummies(train, columns=cols)
test_oh = pd.get_dummies(test, columns=cols)

print(train_oh)
print(test_oh)

   색상     가격  과일_배  과일_사과  과일_포도
0  빨강   5000     0      1      0
1  노랑   7000     1      0      0
2  보라  10000     0      0      1
   색상     가격  과일_배  과일_사과  과일_포도
0  빨강   5000     0      1      0
1  노랑   7000     1      0      0
2  보라  10000     0      0      1


In [None]:
# 레이블 인코딩
from sklearn.preprocessing import LabelEncoder
cols = ['과일', '색상']

for col in cols:
    le = LabelEncoder()
    train[col] = le.fit_transform(train[col])
    test[col] = le.transform(test[col])

print(train)
print(test)

## 2. train 데이터의 범주형 컬럼이 test 데이터를 포함한다면
    - 레이블 인코딩, train+test 합쳐서 원핫 인코딩

In [None]:
train = pd.DataFrame({
    '과일': ['사과', '배', '포도'],
    '색상': ['빨강', '노랑', '보라'],
    '가격': [5000, 7000, 10000]
})

test = pd.DataFrame({
    '과일': ['배', '포도'],
    '색상': ['노랑', '보라'],
    '가격': [7000, 10000]
})

In [None]:
# 레이블 인코딩
from sklearn.preprocessing import LabelEncoder
cols = ['과일', '색상']

for col in cols:
    le = LabelEncoder()
    train[col] = le.fit_transform(train[col])
    test[col] = le.transform(test[col])

print(train)
print(test)

In [None]:
# 원-핫 인코딩
train = pd.DataFrame({
    '과일': ['사과', '배', '포도'],
    '색상': ['빨강', '노랑', '보라'],
    '가격': [5000, 7000, 10000]
})

test = pd.DataFrame({
    '과일': ['배', '포도'],
    '색상': ['노랑', '보라'],
    '가격': [7000, 10000]
})

df = pd.concat([train, test])
df = pd.get_dummies(df)

# 다시 분리
train = df.iloc[:len(train)]
test = df.iloc[len(train):]
print(train.shape, test.shape)

print(train)
print(test)

(3, 7) (2, 7)
      가격  과일_배  과일_사과  과일_포도  색상_노랑  색상_보라  색상_빨강
0   5000     0      1      0      0      0      1
1   7000     1      0      0      1      0      0
2  10000     0      0      1      0      1      0
      가격  과일_배  과일_사과  과일_포도  색상_노랑  색상_보라  색상_빨강
0   7000     1      0      0      1      0      0
1  10000     0      0      1      0      1      0


## 3. test 데이터의 범주형 컬럼이 train 데이터를 포함하거나 카테고리가 다르다면
- train+test 합쳐서 인코딩

In [None]:
train = pd.DataFrame({
    '과일': ['사과', '배', '포도'],
    '색상': ['빨강', '노랑', '보라'],
    '가격': [5000, 7000, 10000]
})

test = pd.DataFrame({
    '과일': ['딸기', '배', '포도'],
    '색상': ['빨강', '노랑', '보라'],
    '가격': [15000, 7000, 10000]
})

df = pd.concat([train, test])

# 원-핫 인코딩
df = pd.get_dummies(df)

# 다시 분리
train = df.iloc[:len(train)]
test = df.iloc[len(train):]

print(train)
print(test)

In [None]:
train = pd.DataFrame({
    '과일': ['사과', '배', '포도'],
    '색상': ['빨강', '노랑', '보라'],
    '가격': [5000, 7000, 10000]
})

test = pd.DataFrame({
    '과일': ['딸기', '배', '포도'],
    '색상': ['빨강', '노랑', '보라'],
    '가격': [15000, 7000, 10000]
})

df = pd.concat([train, test])

from sklearn.preprocessing import LabelEncoder
cols = ['과일', '색상']

for col in cols:
    le = LabelEncoder()
    df[col] = le.fit_transform(df[col])


# 다시 분리
train = df.iloc[:len(train)]
test = df.iloc[len(train):]

print(train)
print(test)

   과일  색상     가격
0   2   2   5000
1   1   0   7000
2   3   1  10000
   과일  색상     가격
0   0   2  15000
1   1   0   7000
2   3   1  10000



개인적인 의견
- 원핫 인코딩: 카테고리 10개 미만
- 레이블 인코딩: 카테고리 10개 이상