# One Hot Encoding

## #01. 범주형 속성의 처리방법
### 라벨 인코딩

문자열 값을 0부터 1씩 증가하는 값으로 변환

숫자의 차이가 모델에 영향을 주지 않는 트리계열 모델에 적용가능

숫자의 차이가 모델에 영향을 미치는 선형 계열 모델에는 사용ㅇ하지 않음

### 더미화 - 원 핫 인코딩
n개의 값을 갖는 피쳐를 n차원의 one-hot 백터로 표현되도록 변환

고유값들을 피처로 만들고 정답에 해당하는 열은 1로 나머지는 0으로 표시

숫자의 차이가 모델에 영향을 미치는 선형계열 모델에서 범주형 데이터 변환시 라벨 인코딩보다 원핫 인코딩을 사용

## #02. 작업준비
### 패키지 준비


In [3]:
import pandas as pd 
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import PolynomialFeatures
from sklearn.model_selection import train_test_split
from matplotlib import pyplot as plt
import seaborn as sb
from sklearn.preprocessing import LabelEncoder, OneHotEncoder
import sys
import os
sys.path.append(os.path.dirname(os.path.dirname(os.getcwd())))
import helper


## #03. 라벨 인코딩

### 원 데이터가 DataFrame 형식인 경우

In [4]:
df = pd.DataFrame({'item':['TV', '냉장고', '전자레인지', '컴퓨터', 'TV', '선풍기', '선풍기', '믹서', '믹서']})

df

Unnamed: 0,item
0,TV
1,냉장고
2,전자레인지
3,컴퓨터
4,TV
5,선풍기
6,선풍기
7,믹서
8,믹서


#### 라벨링 수행
리턴되는 객체는 넘파이 타입임

In [7]:
le = LabelEncoder()
fit = le.fit_transform(df['item'])

print(type(fit))
print(fit)

<class 'numpy.ndarray'>
[0 1 4 5 0 3 3 2 2]


#### 라벨링에 사용된 카테고리 값의 종류 확인

In [8]:
le.classes_

array(['TV', '냉장고', '믹서', '선풍기', '전자레인지', '컴퓨터'], dtype=object)

#### 라벨링 결과에 따른 실제 값 확인

In [13]:
origin = ['TV', '냉장고', '전자레인지', '컴퓨터', 'TV', '선풍기', '선풍기', '믹서', '믹서']

le = LabelEncoder()
fit= le.fit_transform(origin)

print(type(fit))
print(fit)
print(le.classes_)
print(le.inverse_transform(fit))

<class 'numpy.ndarray'>
[0 1 4 5 0 3 3 2 2]
['TV' '냉장고' '믹서' '선풍기' '전자레인지' '컴퓨터']
['TV' '냉장고' '전자레인지' '컴퓨터' 'TV' '선풍기' '선풍기' '믹서' '믹서']


## #04. One Hot Encoding
원 데이터가 DataFrame인 경우

In [14]:
encoder = OneHotEncoder(dtype='int64')
fit = encoder.fit_transform(df)
fit

<9x6 sparse matrix of type '<class 'numpy.int64'>'
	with 9 stored elements in Compressed Sparse Row format>

In [15]:
encoder.categories_

[array(['TV', '냉장고', '믹서', '선풍기', '전자레인지', '컴퓨터'], dtype=object)]

In [16]:
encoder.get_feature_names_out()

array(['item_TV', 'item_냉장고', 'item_믹서', 'item_선풍기', 'item_전자레인지',
       'item_컴퓨터'], dtype=object)

In [18]:
fit.toarray()

array([[1, 0, 0, 0, 0, 0],
       [0, 1, 0, 0, 0, 0],
       [0, 0, 0, 0, 1, 0],
       [0, 0, 0, 0, 0, 1],
       [1, 0, 0, 0, 0, 0],
       [0, 0, 0, 1, 0, 0],
       [0, 0, 0, 1, 0, 0],
       [0, 0, 1, 0, 0, 0],
       [0, 0, 1, 0, 0, 0]], dtype=int64)

In [20]:
one_hot_df = pd.DataFrame(fit.toarray(),columns=encoder.get_feature_names_out())
one_hot_df

Unnamed: 0,item_TV,item_냉장고,item_믹서,item_선풍기,item_전자레인지,item_컴퓨터
0,1,0,0,0,0,0
1,0,1,0,0,0,0
2,0,0,0,0,1,0
3,0,0,0,0,0,1
4,1,0,0,0,0,0
5,0,0,0,1,0,0
6,0,0,0,1,0,0
7,0,0,1,0,0,0
8,0,0,1,0,0,0
