# One Hot Encoding 
- 자연어 처리에도 사용한다
## 1. 범주형 속석(피쳐)의 처리 방법

### 1) 레이블 인코딩 (Label Encoding)
- 정의: 문자열(범주형) 값을 `0부터 1 씩 증가하는 값으로 변환(숫자형 카테고리)`
- 숫자의 차이가 모델에 영향을 주지 않는 `트리 계열 모델(의사결정나무, 랜덤포레스트)에 적용 가능`
- 숫자의 차이가 모델에 영향을 미치는 `선형 계열 모델(로지스틱회귀, SVM, 신경망)에는 사용하지 않음`

### 2) 더미화 - 원핫 인코딩 (One-Hot Encoding)
- 정의: N개의 값을 갖는 피쳐를 N차원의 One-Hot 백터로 표현되도록 변환
- 고유값들을 피쳐로 만들고 정답에 `해당하는 열은 1로 나머진 0으로 표시`
- 숫자의 차이가 모델에 영향을 미치는 선형 계열 모델(로지스틱회귀, SVM, 신경망)에서 `범주형 데이터 변환시` 라벨 인코딩보다 원핫 인코딩 사용

## 2. 작업 준비
패키지 가져오기

In [2]:
import numpy as np
from pandas import DataFrame
from sklearn.preprocessing import LabelEncoder, OneHotEncoder

## 3. 레이블 인코딩 (Label Encoding)
- 여태까지 pandas가 제공하는 기능을 사용할 때에는 원본이 항상 데이터프레임이어야 하였지만 scikit-learn이 제공하는 기능을 사용할 때에는 데이터프레임 외에 다른 형식의 데이터도 사용 가능하다 (리스트, 시리즈 등등)
### 1) 원 데이터가 DataFrame 형식인 경우

In [3]:
df = DataFrame({'item' : ['TV', '냉장고', '전자레인지', '컴퓨터', 'TV', '선풍기', '선풍기', '믹서', '믹서']})
df

Unnamed: 0,item
0,TV
1,냉장고
2,전자레인지
3,컴퓨터
4,TV
5,선풍기
6,선풍기
7,믹서
8,믹서


#### 라벨링 수행
- `객체1 = LabelEncoder()`
- `객체2 = 객체1.fit_transform(데이터프헤임['해당컬럼'])`
- 리턴되는 객체는 numpy 배열 (array) 타입이다

In [6]:
le = LabelEncoder()
my_fit = le.fit_transform(df['item'])

print(type(my_fit))
print(my_fit)

<class 'numpy.ndarray'>
[0 1 4 5 0 3 3 2 2]


#### 라벨링에 사용된 카테고리 값의 종류 확인
- `객체1.classes_`

In [7]:
le.classes_

array(['TV', '냉장고', '믹서', '선풍기', '전자레인지', '컴퓨터'], dtype=object)

#### 라벨링 결과에 따른 실제 값 확인
- `객체1.inverse_transform(객체2)`

In [8]:
le.inverse_transform(my_fit)

array(['TV', '냉장고', '전자레인지', '컴퓨터', 'TV', '선풍기', '선풍기', '믹서', '믹서'],
      dtype=object)

### 2) 원 데이터가 데이터프레임 이외의 형식인 경우

In [10]:
origin = ['TV', '냉장고', '전자레인지', '컴퓨터', 'TV', '선풍기', '선풍기', '믹서', '믹서']

le = LabelEncoder()
my_fit = le.fit_transform(origin)

print(type(my_fit))
print(my_fit)
print(le.classes_)
print(le.inverse_transform(my_fit))

<class 'numpy.ndarray'>
[0 1 4 5 0 3 3 2 2]
['TV' '냉장고' '믹서' '선풍기' '전자레인지' '컴퓨터']
['TV' '냉장고' '전자레인지' '컴퓨터' 'TV' '선풍기' '선풍기' '믹서' '믹서']


## 4. One Hot Encoding
- pandas.get_dummies()기능이 아닌 scikit-learn의 기능을 사용할 것
### 1) 원 데이터가 DataFrame인 경우

In [11]:
df = DataFrame({'item' : ['TV', '냉장고', '전자레인지', '컴퓨터', 'TV', '선풍기', '선풍기', '믹서', '믹서']})
df

Unnamed: 0,item
0,TV
1,냉장고
2,전자레인지
3,컴퓨터
4,TV
5,선풍기
6,선풍기
7,믹서
8,믹서


#### One Hot Encoding 수행
- `객체1 = OneHotEncoder(dtype='int64')`
- `객체2 = 객체1.fit_transform(데이터프레임)`
    - 데이터프레임에 컬럼이 하나만 경우에는 그냥 데이터프레임을 줘도 된다.

In [25]:
encoder = OneHotEncoder(dtype='int64')
my_fit = encoder.fit_transform(df)
# my_fit = encoder.fit_transform(df[['item']]) # 특정 컬럼을 더미화 할 때

my_fit

<9x6 sparse matrix of type '<class 'numpy.int64'>'
	with 9 stored elements in Compressed Sparse Row format>

#### 값의 종류 확인
- `객체1.categories_`

In [27]:
encoder.categories_

[array(['TV', '냉장고', '믹서', '선풍기', '전자레인지', '컴퓨터'], dtype=object)]

#### 생성된 피쳐의 이름 확인
- `객체1.get_feature_names_out()`

In [28]:
encoder.get_feature_names_out()

array(['item_TV', 'item_냉장고', 'item_믹서', 'item_선풍기', 'item_전자레인지',
       'item_컴퓨터'], dtype=object)

#### 변환 결과를 배열로 추출
- `객체2.toarray()`

In [30]:
my_fit.toarray()

array([[1, 0, 0, 0, 0, 0],
       [0, 1, 0, 0, 0, 0],
       [0, 0, 0, 0, 1, 0],
       [0, 0, 0, 0, 0, 1],
       [1, 0, 0, 0, 0, 0],
       [0, 0, 0, 1, 0, 0],
       [0, 0, 0, 1, 0, 0],
       [0, 0, 1, 0, 0, 0],
       [0, 0, 1, 0, 0, 0]])

In [31]:
one_hot_df = DataFrame(my_fit.toarray(), columns=encoder.get_feature_names_out())

one_hot_df

Unnamed: 0,item_TV,item_냉장고,item_믹서,item_선풍기,item_전자레인지,item_컴퓨터
0,1,0,0,0,0,0
1,0,1,0,0,0,0
2,0,0,0,0,1,0
3,0,0,0,0,0,1
4,1,0,0,0,0,0
5,0,0,0,1,0,0
6,0,0,0,1,0,0
7,0,0,1,0,0,0
8,0,0,1,0,0,0
