# One-Hot-Encoding

* factor범주형 변수를 표현하는데 가장 널리 쓰이는 방법인 One-Hot-Encoding원-핫-인코딩은  
dummy variable가변수을 만들어 factor형 변수를 0 또는 1 의 값을 가진 하나 이상의 새로운 특성으로 바꿈  

* 따라서 특성당 0, 1의 값이 들어있기 때문에 binary classifier algorithm이진분류알고리즘 적용가능  
pandas의 get_dummies1 함수는 숫자 특성은 모두 연속형이라 생각해서 가변수를 만들지 않음  

* 대신 어떤 열이 연속형인지 범주형인지를 저장할 수 있는 scikit-learn의 OneHotEncoder를 사용할수 있고  
DataFrame에 있는 숫자로 된 열을 문자열로 바꿀 수도 있음  

## Set up

In [1]:
# To support both python 2 and python 3
from __future__ import division, print_function, unicode_literals

# Common imports
import numpy as np
import os

# to make this notebook's output stable across runs
np.random.seed(42)

# To plot pretty figures
%matplotlib inline
import matplotlib as mpl
import matplotlib.pyplot as plt
mpl.rc('axes', labelsize=14)
mpl.rc('xtick', labelsize=12)
mpl.rc('ytick', labelsize=12)

import warnings
warnings.filterwarnings(action="ignore")

## DataFrame 생성

In [2]:
import pandas as pd

# DataFrame 생성
df = pd.DataFrame({'숫자 특성': [0, 1, 2, 1],
                   'factor형 특성': ['핸드폰', '밀스', '핸드폰', '상자']})


df

Unnamed: 0,숫자 특성,factor형 특성
0,0,핸드폰
1,1,밀스
2,2,핸드폰
3,1,상자


## one-hot-encoding 적용

In [3]:
df_dummy = pd.get_dummies(df)
df_dummy

Unnamed: 0,숫자 특성,factor형 특성_밀스,factor형 특성_상자,factor형 특성_핸드폰
0,0,0,0,1
1,1,1,0,0
2,2,0,0,1
3,1,0,1,0


* **get_dummies**를 사용하면 문자열 특성만 인코딩되며 숫자 특성은 바뀌지 않음  

* series를 str형태로 변형후 get_dummies 적용
* get_dummies를 적용할 때 columns를 직접 입력  

### 방법 1
```python
df1 = df.copy() #  DataFrame 복사
df1['숫자 특성'] = df1['숫자 특성'].astype(str) # 타입변형

df1_dummies = pd.get_dummies(df1)
```

In [4]:
df1 = df.copy() #  DataFrame 복사
df1['숫자 특성'] = df1['숫자 특성'].astype(str) # 타입변형

df1_dummies = pd.get_dummies(df1)
df1_dummies

Unnamed: 0,숫자 특성_0,숫자 특성_1,숫자 특성_2,factor형 특성_밀스,factor형 특성_상자,factor형 특성_핸드폰
0,1,0,0,0,0,1
1,0,1,0,1,0,0
2,0,0,1,0,0,1
3,0,1,0,0,1,0


### 방법 2

```python
df2_dummies = pd.get_dummies(df, columns=['숫자 특성', 'factor형 특성']) # get_dummies 적용시 columns 지정
```

In [5]:
df2_dummies = pd.get_dummies(df, columns=['숫자 특성', 'factor형 특성'])
df2_dummies

Unnamed: 0,숫자 특성_0,숫자 특성_1,숫자 특성_2,factor형 특성_밀스,factor형 특성_상자,factor형 특성_핸드폰
0,1,0,0,0,0,1
1,0,1,0,1,0,0
2,0,0,1,0,0,1
3,0,1,0,0,1,0


## data loading(적용)

In [6]:
import pandas as pd

# data load
adult = pd.read_csv('./datasets/adult.csv', index_col=False) 

# 원하는 열만 추출
adult = adult[['age', 'workclass', 'education', 'gender', 'hours-per-week', 'occupation', 'income']]
adult.head()

Unnamed: 0,age,workclass,education,gender,hours-per-week,occupation,income
0,39,State-gov,Bachelors,Male,40,Adm-clerical,<=50K
1,50,Self-emp-not-inc,Bachelors,Male,13,Exec-managerial,<=50K
2,38,Private,HS-grad,Male,40,Handlers-cleaners,<=50K
3,53,Private,11th,Male,40,Handlers-cleaners,<=50K
4,28,Private,Bachelors,Female,40,Prof-specialty,<=50K


### 범주형 데이터 문자열 확인

pandas ==> value_counts 메소드로 유일한 값이 각각 몇 번 나타나는지 확인

In [7]:
print('columns names \n{}'.format(adult.columns)) # 열 출력
print('workclass의 갯수 \n{}'.format(adult.workclass.value_counts())) # ? 값 있음을 확인
print('education의 갯수 \n{}'.format(adult.education.value_counts())) 
print('gender의 갯수 \n{}'.format(adult.gender.value_counts()))
print('occupation의 갯수 \n{}'.format(adult.occupation.value_counts())) # ? 값 있음을 확인
print('income의 갯수 \n{}'.format(adult.income.value_counts()))

columns names 
Index(['age', 'workclass', 'education', 'gender', 'hours-per-week',
       'occupation', 'income'],
      dtype='object')
workclass의 갯수 
 Private             21717
 Self-emp-not-inc     2429
 Local-gov            2005
 ?                    1747
 State-gov            1246
 Self-emp-inc         1064
 Federal-gov           917
 Without-pay            13
 Never-worked            5
Name: workclass, dtype: int64
education의 갯수 
 HS-grad         10071
 Some-college     6972
 Bachelors        5125
 Masters          1643
 Assoc-voc        1315
 11th             1135
 Assoc-acdm       1015
 10th              894
 7th-8th           619
 Prof-school       541
 9th               491
 12th              404
 Doctorate         392
 5th-6th           323
 1st-4th           157
 Preschool          46
Name: education, dtype: int64
gender의 갯수 
 Male      20840
 Female    10303
Name: gender, dtype: int64
occupation의 갯수 
 Prof-specialty       3943
 Craft-repair         3919
 Exec-managerial   

### pandas의 get_dummies로 데이터 reshaping 

In [8]:
adult_dummies = pd.get_dummies(adult)
print('원본 특성:\n', list(adult.columns), '\n')
print('get_dummies 후의 특성 :\n', list(adult_dummies.columns))

원본 특성:
 ['age', 'workclass', 'education', 'gender', 'hours-per-week', 'occupation', 'income'] 

get_dummies 후의 특성 :
 ['age', 'hours-per-week', 'workclass_ ?', 'workclass_ Federal-gov', 'workclass_ Local-gov', 'workclass_ Never-worked', 'workclass_ Private', 'workclass_ Self-emp-inc', 'workclass_ Self-emp-not-inc', 'workclass_ State-gov', 'workclass_ Without-pay', 'education_ 10th', 'education_ 11th', 'education_ 12th', 'education_ 1st-4th', 'education_ 5th-6th', 'education_ 7th-8th', 'education_ 9th', 'education_ Assoc-acdm', 'education_ Assoc-voc', 'education_ Bachelors', 'education_ Doctorate', 'education_ HS-grad', 'education_ Masters', 'education_ Preschool', 'education_ Prof-school', 'education_ Some-college', 'gender_ Female', 'gender_ Male', 'occupation_ ?', 'occupation_ Adm-clerical', 'occupation_ Armed-Forces', 'occupation_ Craft-repair', 'occupation_ Exec-managerial', 'occupation_ Farming-fishing', 'occupation_ Handlers-cleaners', 'occupation_ Machine-op-inspct', 'occupation_

* 숫자형인 age, hours-per-week는 그대로지만 factor형 특성은 값마다 새로운 특성이 만들어짐  
* pandas의 values속성을 이용해 numpy 배열로 바꿀수 있음  
* target을 income으로 잡을 것이므로 income을 데이터에서 분리해야함

> numpy에서 np.arange(11)[0:10]은 인덱스가 10인 항목을 포함하지 않음  
그러나 pandas에서 범위 끝은 그 열을 포함함

In [9]:
import numpy as np
features = adult_dummies.loc[:, 'age':'occupation_ Transport-moving']
x = features.values # feature를 numpy배열로 변환
y = adult_dummies['income_ >50K'].values # 타겟데이터를 numpy 배열로 변환
print('x.shape: {}. y.shape: {}'.format(x.shape, y.shape)) # x.shape: (31143, 44), y.shape:(31143,)

x.shape: (31143, 44). y.shape: (31143,)


In [10]:
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split

x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.3, random_state=42)
logreg = LogisticRegression().fit(x_train, y_train)

print('테스트 점수 \n{:.3f}'.format(logreg.score(x_test, y_test)))

테스트 점수 
0.809


* adult 데이터셋에서는 factor형 변수가 문자열로 인코딩 되어있음  
* 철자 오류가 날 수 있지만 다른 한 편으로는 변수가 factor형이란 것을 확실하게 알 수가 있음  
* 하지만 저장 공간을 절약하거나 데이터 취합 방식에 따라 범주형 변수가 숫자로 인코딩 된 경우가 많음  
* 예를들어 adult 데이터셋에 있는 인구조사 데이터가 설문지를 이용해 모은 것이라고 가정하면 workclass에 대합 대답은 0, 1 ,2 등이 됨 ==> 이 열은 0~8까지의 숫자로 채워지게 되고 누군가 이 데이터셋을 보면 이 변수를 연속형으로 다뤄야할지 factor형으로 다뤄야할지 단번에 알아채기가 어려움.   
* 그러나 숫자가 workclass를 나타낸다고 알게되면 이  값은 이산적이므로 연속형 변수로 다루면 안된다는 것이 명확해짐