### feature engineering
* 특정 애플레이션의 가장 적합한 데이터 표현 찾기
* 올바른 데이터 표현은 지도학습 모델에서 적절한 매개변수를 선택하는 것보다 성능에 매우 중요를

### Label Encoding
* 머신러닝 알고리즘은 범주형 데이터에서 직접적으로 작동하지 않는다.
* 범주형 데이터는 숫자도 변경되어야 함.
    * 범주형 문자를 숫자로 변경해 주는 것.
* 파이썬 라이브러리 sklearn 에서 LabelEncoder의 함수를 사용

### One Hot Encoding
* One Hot Encoding은 머신러닝 알고리즘에서 더 나은 예측을 위해 제공되는 하나의 과정입니다.
* One-Hot Encoding은 범주형 변수를 바이너리벡터 (0, 1)로 표현한 것.
* 원핫인코딩을 다른말로 가변수

### 왜 필요할까?
* Label 인코딩의 오류
    * Label의 인코딩의 문제는 범주값이 높을수록 카테고리가 더 우수하다고 가정
        * 범주형 값에 의해 가장 가치 있는 모델은 값이 높은 값이 가치있다고 생각
        * 순서가 없을 경우, 문제가 될 수 있다.
        * 이 경우, 표현력이 있는 one-hot encoding 이용하면 더 정밀한 예측이 가능.

In [2]:
import pandas as pd

data = {'eng': ['b', 'c', 'a', 'd']}
df = pd.DataFrame(data)
print(type(df))
df

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,eng
0,b
1,c
2,a
3,d


In [3]:
from sklearn.preprocessing import LabelEncoder, OneHotEncoder

In [4]:
en_x = LabelEncoder()
df['eng_label'] = en_x.fit_transform(df['eng'])
df

Unnamed: 0,eng,eng_label
0,b,1
1,c,2
2,a,0
3,d,3


In [5]:
df['eng_label'].values.reshape(-1, 1)

array([[1],
       [2],
       [0],
       [3]])

In [6]:
onehot = OneHotEncoder()
val = df['eng_label'].values.reshape(-1, 1)
y = onehot.fit_transform(val).toarray()
y

array([[0., 1., 0., 0.],
       [0., 0., 1., 0.],
       [1., 0., 0., 0.],
       [0., 0., 0., 1.]])

In [7]:
onehot_val = pd.DataFrame(y, dtype=int)
onehot_val

Unnamed: 0,0,1,2,3
0,0,1,0,0
1,0,0,1,0
2,1,0,0,0
3,0,0,0,1


In [8]:
df_new = pd.concat([df, onehot_val], axis=1)
df_new

Unnamed: 0,eng,eng_label,0,1,2,3
0,b,1,0,1,0,0
1,c,2,0,0,1,0
2,a,0,1,0,0,0
3,d,3,0,0,0,1


In [9]:
data = { "회사명": ["MS","Apple", "Google", "Google"]}
df = pd.DataFrame(data)
df

Unnamed: 0,회사명
0,MS
1,Apple
2,Google
3,Google


In [11]:
df['company_label'] = LabelEncoder().fit_transform(df['회사명'])
df

Unnamed: 0,회사명,company_label
0,MS,2
1,Apple,0
2,Google,1
3,Google,1


In [17]:
values = df['company_label'].values.reshape(-1, 1)
values

array([[2],
       [0],
       [1],
       [1]])

In [18]:
y = OneHotEncoder().fit_transform(values).toarray()
y

array([[0., 0., 1.],
       [1., 0., 0.],
       [0., 1., 0.],
       [0., 1., 0.]])

In [19]:
onehot_val = pd.DataFrame(y, dtype=int)
onehot_val

Unnamed: 0,0,1,2
0,0,0,1
1,1,0,0
2,0,1,0
3,0,1,0


In [20]:
df_new = pd.concat([df, onehot_val], axis=1)
df_new

Unnamed: 0,회사명,company_label,0,1,2
0,MS,2,0,0,1
1,Apple,0,1,0,0
2,Google,1,0,1,0
3,Google,1,0,1,0


In [21]:
import pandas as pd
import os

In [22]:
demo_df = pd.DataFrame({"범주형_feature":['양말', '여우', '양말', '상자']})
display(demo_df)

Unnamed: 0,범주형_feature
0,양말
1,여우
2,양말
3,상자


In [23]:
onehot = pd.get_dummies(demo_df)
onehot

Unnamed: 0,범주형_feature_상자,범주형_feature_양말,범주형_feature_여우
0,0,1,0
1,0,0,1
2,0,1,0
3,1,0,0


In [24]:
df = pd.concat([demo_df, onehot], axis=1)
df

Unnamed: 0,범주형_feature,범주형_feature_상자,범주형_feature_양말,범주형_feature_여우
0,양말,0,1,0
1,여우,0,0,1
2,양말,0,1,0
3,상자,1,0,0


In [25]:
data = { "회사명": ["MS","Apple", "Google", "Google"]}
df = pd.DataFrame(data)
df

Unnamed: 0,회사명
0,MS
1,Apple
2,Google
3,Google


In [26]:
onehot = pd.get_dummies(df)
onehot

Unnamed: 0,회사명_Apple,회사명_Google,회사명_MS
0,0,0,1
1,1,0,0
2,0,1,0
3,0,1,0


In [27]:
df = pd.concat([df, onehot], axis=1)
df

Unnamed: 0,회사명,회사명_Apple,회사명_Google,회사명_MS
0,MS,0,0,1
1,Apple,1,0,0
2,Google,0,1,0
3,Google,0,1,0
