# 4. 머신러닝 프로세스1 - 범주변수의 변환

이번 장 부터는 특징변수(독립변수)가 범주형 변수일 때 이를 **원핫인코딩(one-hot_encoding)** 처리하는 작업을 진행하여 보겠습니다.  
앞선 머신러닝 프로세스에서 남여를 1과 2의 카테고리값으로 사용하던 부분을 남성의 여부, 여성의 여부 라는 두개의 컬럼으로 분리하여 사용하였는데. 이는 <u>범주형 변수의 값이 데이터의 크기 비교가 가능한 연속형 변수처럼 해석 될 여지가 있기 때문</u>입니다.  

때문에 **범주형 변수의 경우 각 케이스에 해당 여부를 1 또는 0으로 변경하여 나열하는 것이 원핫인코딩** 입니다. 그리고 <u>이때 범주형 변수를 카테고리별로 나누어 0,1을 담도록 분리된 변수들을 더미변수(dummy variable)</u> 라고 합니다.

[범주형 자료의 원핫 인코딩 예시]


|거주지 |>>| 거주지_서울 |거주지_경기 |거주지_지방|
|:--:|:--:|:--:|:--:|:--:|
|1(서울)|>>|1|0|0|
|2(경기)|>>|0|1|0|
|3(지방)|>>|0|0|1|


**더미(dummy)변수 생성방법**  
```python
import pandas as pd  
pd.get_dummies(X)
```


다만, 유의할 점은 데이터셋을 **훈련-테스트 데이터로 split 하기 전에 원핫인코딩을 적용하는 것이 편리하고 오류가 적다**는 점입니다. 가령 예를 들어 학습데이터에는 3가지 유형의 카테고리값이 모두 더비변수화 하였지만 테스트 데이터에는 2종류의 데이터 군만 존재하는 경우 변수 유실이 일어날 수 있기 때문입니다.

## 4.2 데이터 범주-연속-레이블로 나누기

In [7]:
# 유권자 선거행동 데이터셋
import pandas as pd
data = pd.read_csv('./extrafiles/vote.csv', encoding='utf-8')
data.head()

# 확인 결과 : gender, region 의 카테고리 벨류가 확인 되었습니다.
# 이때 범주형 데이터와 연속형 데이터를 각 분리 시키도록 합니다.
print(data.columns)
X1 = data[['gender', 'region']]
XY = data[['edu', 'income', 'age', 'score_gov',
       'score_progress', 'score_intention', 'vote', 'parties']]

Index(['gender', 'region', 'edu', 'income', 'age', 'score_gov',
       'score_progress', 'score_intention', 'vote', 'parties'],
      dtype='object')


## 4.2 범주형 변수의 One-Hot Encoding 변환

In [9]:
# gender, region 두개의 변수가 카테고리컬 데이터 입니다. 이를 인코딩 합니다.
X1['gender'] = X1['gender'].replace([1, 2], ['mail', 'female'])
X1['region'] = X1['region'].replace([1, 2, 3, 4, 5], ['Sudo', 'Chungcheung', 'Honam', 'Youngnam', 'Others'])
X1.head()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  X1['gender'] = X1['gender'].replace([1, 2], ['mail', 'female'])
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  X1['region'] = X1['region'].replace([1, 2, 3, 4, 5], ['Sudo', 'Chungcheung', 'Honam', 'Youngnam', 'Others'])


Unnamed: 0,gender,region
0,mail,Youngnam
1,mail,Others
2,mail,Honam
3,female,Sudo
4,mail,Sudo


In [10]:
# 분류형 데이터의 더비변수화
X1_dum = pd.get_dummies(X1)
X1_dum.head()

Unnamed: 0,gender_female,gender_mail,region_Chungcheung,region_Honam,region_Others,region_Sudo,region_Youngnam
0,0,1,0,0,0,0,1
1,0,1,0,0,1,0,0
2,0,1,0,1,0,0,0
3,1,0,0,0,0,1,0
4,0,1,0,0,0,1,0


## 4.3 자료 통합 및 저장 하기

In [11]:
# pd.concat 으로 두 데이터 셋을 하나로 합치기
Fvote = pd.concat([X1_dum, XY], axis=1) # axis=1 은 컬럼 방향으로 합친다는 의미. (반= 0)
Fvote.head()

Unnamed: 0,gender_female,gender_mail,region_Chungcheung,region_Honam,region_Others,region_Sudo,region_Youngnam,edu,income,age,score_gov,score_progress,score_intention,vote,parties
0,0,1,0,0,0,0,1,3,3,3,2,2,4.0,1,2
1,0,1,0,0,1,0,0,2,3,3,2,4,3.0,0,3
2,0,1,0,1,0,0,0,1,2,4,1,3,2.8,1,4
3,1,0,0,0,0,1,0,2,1,3,5,4,2.6,1,1
4,0,1,0,0,0,1,0,1,2,4,4,3,2.4,1,1


In [12]:
# 가공 데이터를 저장
Fvote.to_csv('./extrafiles/Fvote.csv', index=False, sep=',', encoding='utf-8')