<div class="alert alert-block" style="border: 1px solid #455A64;background-color:#ECEFF1;">
본 자료 및 영상 컨텐츠는 저작권법 제25조 2항에 의해 보호를 받습니다. 본 컨텐츠 및 컨텐츠 일부 문구등을 외부에 공개, 게시하는 것을 금지합니다. 특히 자료에 대해서는 저작권법을 엄격하게 적용하겠습니다.
</div>

### 1. 원핫 인코딩 과 레이블 인코딩
- 일반적인 머신러닝 알고리즘은 숫자값을 기반으로 예측하므로, 문자열 값들을 숫자값으로 변환(인코딩) 해야 함
- 이를 인코딩이라고 하며, 기존의 feature engineering 에서도 이와 같은 과정을 진행한 것임
- 이와 별도로, 기본적으로 머신러닝 인코딩 방법은 크게, 원핫 인코딩과 레이블 인코딩 방법이 많이 사용됨
   - 레이블 인코딩: 문자열을 범주형 숫자값으로 변환
      - 기존의 feature engineering 이 이와 같은 작업을 진행한 것임
      - 일괄적으로 문자열을 레이블 인코딩해주는 함수도 사이킷런에서 제공함 ( LabelEncoder() )
      - 선형 회귀와 같이 숫자값에 의미를 부여하는 경우에는 레이블 인코딩이 결과 예측을 왜곡할 수 있음
         - 트리 관련 머신러닝 기법에서는 사용 가능
   - 원핫 인코딩
      - 각 문자열 범주마다 새로운 feature 를 만들고, 해당 범주에 해당하는 경우에만 1 값을 부여해주는 방식

In [31]:
import pickle

with open('titanic_step2_feature_add.pickle', 'rb') as pickle_filename:
    df = pickle.load(pickle_filename)

In [32]:
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Sex,Age,Fare,Cabin,Embarked,Initial,Family,Ticket_Initial2,Ticket_Num_Cut,HighChance,LowChance
0,1,0.0,3,0,3.0,0.0,0,0,0.0,2,0,3,0,0
1,2,1.0,1,1,4.0,3.0,1,1,2.0,2,1,3,2,0
2,3,1.0,3,1,3.0,0.0,0,0,1.0,1,2,9,0,0
3,4,1.0,1,1,4.0,2.0,1,0,2.0,2,3,5,2,0
4,5,0.0,3,0,4.0,0.0,0,0,0.0,1,3,9,0,2


In [33]:
df_label = df.copy()
df_onehot = df.copy()
ntrain = 891
train = df[:ntrain]
y_train = train[['Survived']].copy()

In [34]:
drop_features = ['PassengerId', 'Survived']
df_label = df_label.drop(drop_features, axis=1).copy()
df_label.head()

Unnamed: 0,Pclass,Sex,Age,Fare,Cabin,Embarked,Initial,Family,Ticket_Initial2,Ticket_Num_Cut,HighChance,LowChance
0,3,0,3.0,0.0,0,0,0.0,2,0,3,0,0
1,1,1,4.0,3.0,1,1,2.0,2,1,3,2,0
2,3,1,3.0,0.0,0,0,1.0,1,2,9,0,0
3,1,1,4.0,2.0,1,0,2.0,2,3,5,2,0
4,3,0,4.0,0.0,0,0,0.0,1,3,9,0,2


In [35]:
drop_features = ['PassengerId', 'Survived']
df_onehot = df_onehot.drop(drop_features, axis=1).copy()
df_onehot.head()

Unnamed: 0,Pclass,Sex,Age,Fare,Cabin,Embarked,Initial,Family,Ticket_Initial2,Ticket_Num_Cut,HighChance,LowChance
0,3,0,3.0,0.0,0,0,0.0,2,0,3,0,0
1,1,1,4.0,3.0,1,1,2.0,2,1,3,2,0
2,3,1,3.0,0.0,0,0,1.0,1,2,9,0,0
3,1,1,4.0,2.0,1,0,2.0,2,3,5,2,0
4,3,0,4.0,0.0,0,0,0.0,1,3,9,0,2


### 레이블 인코딩
- 레이블 인코딩 적용 방법을 이해하고, 일부 float 형 데이터를 변환하기 위해, 레이블 인코딩 적용

In [36]:
from sklearn.preprocessing import OneHotEncoder, LabelEncoder

In [37]:
df_label = df_label.apply(LabelEncoder().fit_transform)

In [38]:
df_label.head()

Unnamed: 0,Pclass,Sex,Age,Fare,Cabin,Embarked,Initial,Family,Ticket_Initial2,Ticket_Num_Cut,HighChance,LowChance
0,2,0,3,0,0,0,0,1,0,3,0,0
1,0,1,4,3,1,1,2,1,1,3,2,0
2,2,1,3,0,0,0,1,0,2,9,0,0
3,0,1,4,2,1,0,2,1,3,5,2,0
4,2,0,4,0,0,0,0,0,3,9,0,2


### 원핫 인코딩
- 원한 인코딩 적용 방법을 이해하고, 활용하기 위해, 원핫 인코딩 사용

> 범주가 많을 경우, 머신 러닝 계산 시간이 오래 걸리고, 불필요한 feature 로 예측 성능이 오히려 안좋아짐
> 각 feature 별 중요도를 계산해서, 예측 성능에 유의미한 feature 를 중심으로 하도록 만들어야 함

In [39]:
import pandas as pd

onehot_cols = df_label.columns.tolist()
df_onehot = pd.get_dummies(df_label, columns=onehot_cols)

df_onehot.head()

Unnamed: 0,Pclass_0,Pclass_1,Pclass_2,Sex_0,Sex_1,Age_0,Age_1,Age_2,Age_3,Age_4,...,HighChance_0,HighChance_1,HighChance_2,HighChance_3,HighChance_4,HighChance_5,HighChance_6,LowChance_0,LowChance_1,LowChance_2
0,0,0,1,1,0,0,0,0,1,0,...,1,0,0,0,0,0,0,1,0,0
1,1,0,0,0,1,0,0,0,0,1,...,0,0,1,0,0,0,0,1,0,0
2,0,0,1,0,1,0,0,0,1,0,...,1,0,0,0,0,0,0,1,0,0
3,1,0,0,0,1,0,0,0,0,1,...,0,0,1,0,0,0,0,1,0,0
4,0,0,1,1,0,0,0,0,0,1,...,1,0,0,0,0,0,0,0,0,1


### 원핫인코딩 데이터프레임 저장

In [40]:
import pickle
with open('titanic_step3_feature_encoding.pickle', 'wb') as pickle_filename:
    pickle.dump(df_onehot, pickle_filename)

In [41]:
import pickle
with open('titanic_step3_feature_encoding_y.pickle', 'wb') as pickle_filename:
    pickle.dump(y_train, pickle_filename)

<div class="alert alert-block" style="border: 1px solid #455A64;background-color:#ECEFF1;">
본 자료 및 영상 컨텐츠는 저작권법 제25조 2항에 의해 보호를 받습니다. 본 컨텐츠 및 컨텐츠 일부 문구등을 외부에 공개, 게시하는 것을 금지합니다. 특히 자료에 대해서는 저작권법을 엄격하게 적용하겠습니다.
</div>