## **원핫인코딩**

원핫인코딩이란, 단어 집합의 크기를 벡터의 차원으로 하는 벡터 표현 방식입니다. 표현하고 싶은 단어의 인덱스에 1의 값을 부여하고, 다른 인덱스에는 0을 부여합니다. 

이를 사용함으로써, 라벨 인코딩의 한계(명목형이 순서형으로 인식되어 모델링 될 우려)를 해소할 수 있습니다.
하지만, 단어의 종류가 늘어날 수록, 공간(Features)이 계속 늘어나게 됩니다. 다른 말로는 벡터의 차원이 계속 늘어난다고 말할 수 있습니다.

따라서 원핫인코딩을 수행할지, 라벨인코딩을 수행할지, 다른 외 인코딩을 수행할지는 분석가의 판단이 필요합니다.

(인코딩의 종류와 설명은 github 블로그에 별도 작성해두도록 하겠습니다.)

오늘은 그 중에서도, 원핫인코딩의 간단한 수행 방법에 대해 알아보도록 하겠습니다.

추후에는, 파이프라인에 넣어 인코딩을 수행하는 간단한 기법도 있으니 이후 게시물을 참고해주세요.

## **1. 데이터 전처리**

원핫인코딩을 수행할 수 있을 정도로만, 매우 간단히 전처리를 수행해보겠습니다.

In [None]:
# 필요한 Lib Import

import pandas as pd
from category_encoders import OneHotEncoder

In [None]:
# 데이터 Load
df = pd.read_csv('https://ds-lecture-data.s3.ap-northeast-2.amazonaws.com/melbourne_house_prices/MELBOURNE_HOUSE_PRICES_LESS.csv')

# Cardinality가 높은 상위 4개 Features를 삭제
df.drop(columns=['Suburb','Address','SellerG','Date', 'CouncilArea'], inplace=True)

# 'Price'데이터에서, null값인 행 삭제
df.dropna(subset=['Price'], inplace=True)

# Duplicated rows 삭제
df.drop_duplicates(inplace=True)

# 데이터 확인
df=pd.DataFrame(df)
df

Unnamed: 0,Rooms,Type,Price,Method,Postcode,Regionname,Propertycount,Distance,CouncilArea
0,3,h,1490000.0,S,3067,Northern Metropolitan,4019,3.0,Yarra City Council
1,3,h,1220000.0,S,3067,Northern Metropolitan,4019,3.0,Yarra City Council
2,3,h,1420000.0,S,3067,Northern Metropolitan,4019,3.0,Yarra City Council
3,3,h,1515000.0,S,3040,Western Metropolitan,1543,7.5,Moonee Valley City Council
4,2,h,670000.0,S,3042,Western Metropolitan,3464,10.4,Moonee Valley City Council
...,...,...,...,...,...,...,...,...,...
63015,2,u,340000.0,SP,3199,South-Eastern Metropolitan,17055,38.0,Frankston City Council
63016,2,u,347700.0,SP,3199,South-Eastern Metropolitan,17055,38.0,Frankston City Council
63017,3,h,808000.0,S,3072,Northern Metropolitan,14577,8.4,Darebin City Council
63018,3,h,566000.0,S,3064,Northern Metropolitan,5833,20.6,Hume City Council


## **2. 원핫인코딩(One-Hot Encoding) 수행**

In [None]:
encoder = OneHotEncoder(use_cat_names = True)
df_encoding = encoder.fit_transform(df)

  elif pd.api.types.is_categorical(cols):


In [None]:
# 잘 수행되었는지 확인
df_encoding

Unnamed: 0,Rooms,Type_h,Type_t,Type_u,Price,Method_S,Method_SP,Method_VB,Method_PI,Method_SA,Postcode,Regionname_Northern Metropolitan,Regionname_Western Metropolitan,Regionname_Southern Metropolitan,Regionname_South-Eastern Metropolitan,Regionname_Eastern Metropolitan,Regionname_Northern Victoria,Regionname_Eastern Victoria,Regionname_Western Victoria,Propertycount,Distance
0,3,1,0,0,1490000.0,1,0,0,0,0,3067,1,0,0,0,0,0,0,0,4019,3.0
1,3,1,0,0,1220000.0,1,0,0,0,0,3067,1,0,0,0,0,0,0,0,4019,3.0
2,3,1,0,0,1420000.0,1,0,0,0,0,3067,1,0,0,0,0,0,0,0,4019,3.0
3,3,1,0,0,1515000.0,1,0,0,0,0,3040,0,1,0,0,0,0,0,0,1543,7.5
4,2,1,0,0,670000.0,1,0,0,0,0,3042,0,1,0,0,0,0,0,0,3464,10.4
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
63015,2,0,0,1,340000.0,0,1,0,0,0,3199,0,0,0,1,0,0,0,0,17055,38.0
63016,2,0,0,1,347700.0,0,1,0,0,0,3199,0,0,0,1,0,0,0,0,17055,38.0
63017,3,1,0,0,808000.0,1,0,0,0,0,3072,1,0,0,0,0,0,0,0,14577,8.4
63018,3,1,0,0,566000.0,1,0,0,0,0,3064,1,0,0,0,0,0,0,0,5833,20.6
