### 2021_10_21_3

## 데이터 표현 특성공학

### 연속형, 범주형 feature
* 연속형 feature : 데이터가 실수형
* 범주형 feature, 이산형 feature : 데이터가 정해진 값

### 특성 공학(feature engineering)
* 특정 애플리케이션의 가장 적합한 데이터 표현 찾기
* 올바른 데이터 표현은 지도학습 모델에서 적절한 매개변수를 선택하는 것보다 성능에 매우 중요하다.

### Label Encoding
* 범주형 문자를 숫자로 변경해 주는 것이다.
    * 국가명이 US, KR, UK, JPN 이면, 이를 0, 1, 2, 3과 같이 숫자로 변경해 준다.
* 파이썬 라이브러리 sklearn에서 LabelEncoder 함수를 사용한다.

### One Hot Encoding
* One Hot Encoding은 머신러닝 알고리즘에서 더 나은 예측을 위해 제공되는 하나의 과정이다.
* Label Encoding이 범주형 구분을 숫자로 변경하는 것이라면, One Hot Encoding은 아래와 같이 벡터의 요소로 변경하는 것이다.
    * KR -> (1, 0, 0, 0)
    * US -> (0, 1, 0, 0)
    * UK -> (0, 0, 1, 0)
    * CN -> (0, 0, 0, 1)
* One Hot Encoding은 다른말로 가변수(dummy variable)라고도 한다.
* 가변수는 범주형 변수를 0 또는 1 값을 하나 이상의 새로운 특성으로 변경한 값이다.

In [1]:
### 01. 데이터 준비
import pandas as pd
data = { "eng": ["b", "c", "a", "d"] }
df = pd.DataFrame(data)
print(type(df))
df

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,eng
0,b
1,c
2,a
3,d


In [2]:
from sklearn.preprocessing import LabelEncoder, OneHotEncoder

In [3]:
en_x = LabelEncoder()
df["라벨인코딩"] = en_x.fit_transform(df["eng"])
df

Unnamed: 0,eng,라벨인코딩
0,b,1
1,c,2
2,a,0
3,d,3


In [4]:
onehot = OneHotEncoder()
val = df['라벨인코딩'].values.reshape(-1,1)
type(val), val.shape

(numpy.ndarray, (4, 1))

In [5]:
y = onehot.fit_transform( val ).toarray()  
y

array([[0., 1., 0., 0.],
       [0., 0., 1., 0.],
       [1., 0., 0., 0.],
       [0., 0., 0., 1.]])

In [6]:
onehot_val = pd.DataFrame(y, dtype=int)
print(onehot_val)

df_new = pd.concat([df, onehot_val], axis=1)
df_new

   0  1  2  3
0  0  1  0  0
1  0  0  1  0
2  1  0  0  0
3  0  0  0  1


Unnamed: 0,eng,라벨인코딩,0,1,2,3
0,b,1,0,1,0,0
1,c,2,0,0,1,0
2,a,0,1,0,0,0
3,d,3,0,0,0,1


In [14]:
data = { "회사명": ["MS","Apple", "Google", "Google"]}
df1 = pd.DataFrame(data)
df2 = df1.copy()
df2

Unnamed: 0,회사명
0,MS
1,Apple
2,Google
3,Google


### Label Encoding

In [18]:
### LabelEncoder
encoder_x = LabelEncoder()
df1['lbl_en'] = encoder_x.fit_transform(df1['회사명'])
df1

Unnamed: 0,회사명,lbl_en
0,MS,2
1,Apple,0
2,Google,1
3,Google,1


### One Hot Encoding

In [19]:
onehot = OneHotEncoder()
y = onehot.fit_transform(df1['lbl_en'].values.reshape(-1,1) ).toarray()
print(y)

[[0. 0. 1.]
 [1. 0. 0.]
 [0. 1. 0.]
 [0. 1. 0.]]


In [20]:
# 변경된 값을 DataFrame형태로 변경
dx = pd.DataFrame(y, dtype=int)
df1_new = pd.concat([df1, dx], axis=1)
df1_new

Unnamed: 0,회사명,lbl_en,0,1,2
0,MS,2,0,0,1
1,Apple,0,1,0,0
2,Google,1,0,1,0
3,Google,1,0,1,0
