# 연속형 특성과 범주형 특성
* 연속형 특성(continuous feature) : 실수 형태로 **측정된 데이터**
* 범주형 특성(categorical feature) : 다른 말로 **이산형 특성(discreate feature)** 라고도 함. 범주(카테고리)를 의미하는 데이터
  * 카테고리를 의미하는 데이터 이기 때문에 보통 **텍스트**나 **정수**로 이루어져 있다. 

|특성종류|특성형태|
|:--:|:--:|
|연속형 특성 예시|5.11123|
|범주형 특성 예시|청바지|

# 특성 공학을 이용한 데이터 표현의 중요성
* 데이터가 어떤 형태의 특성으로 구성되어 있는가 보다( 연속형인지, 범주형인지 ) **데이터를 어떻게 표현하는지**가 머신러닝 성능에 영향을 많이 준다.
* 스케일링 작업 같은 경우도 **데이터를 어떻게 표현하는지**에 대한 방법
* 특성간의 상호작용(**특성간의 곱**)이나 다항식을 추가 특성으로 넣는 것이 도움이 될때가 많다.
* 어떠한 어플리케이션에 적합한 데이터 표현을 찾는 것을 **특성 공학**이라고 한다.

## 범주형 변수

In [None]:
import pandas as pd

data = pd.read_csv("./adult.csv", encoding='utf-8')
data.head()

Unnamed: 0,age,workclass,education,gender,hours-per-week,occupation,income
0,39,State-gov,Bachelors,Male,40,Adm-clerical,<=50K
1,50,Self-emp-not-inc,Bachelors,Male,13,Exec-managerial,<=50K
2,38,Private,HS-grad,Male,40,Handlers-cleaners,<=50K
3,53,Private,11th,Male,40,Handlers-cleaners,<=50K
4,28,Private,Bachelors,Female,40,Prof-specialty,<=50K


기본적으로, 머신러닝 훈련에는 **텍스트**데이터는 들어갈 수가 없다.

## 원-핫 인코딩 ( 가변수 )
* 범주형 변수를 표현하는데 가장 널리 쓰이는 방법
* 원-아웃-오브 N 인코딩
* 가변수 dummy variable 이라고도 한다.

In [None]:
df_one_hot_encoding_workclass = pd.read_csv("./one-hot-encoding-example-workclass.csv", encoding='utf-8')
df_one_hot_encoding_workclass.set_index(keys='workclass', inplace=True)
df_one_hot_encoding_workclass.head()

Unnamed: 0_level_0,Government Employee,Private Employee,Self Employed,Self Employed Incorporated
workclass,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Government Employee,1,0,0,0
Private Employee,0,1,0,0
Self Employed,0,0,1,0
Self Employed Incorporated,0,0,0,1


## pandas에서 원-핫 인코딩 하기

In [None]:
data_dummies = pd.get_dummies(data)
data_dummies.head()

Unnamed: 0,age,hours-per-week,workclass_ Private,workclass_ Self-emp-not-inc,workclass_ State-gov,education_ 11th,education_ 9th,education_ Bachelors,education_ HS-grad,education_ Masters,education_ Some-college,gender_ Female,gender_ Male,occupation_ Adm-clerical,occupation_ Exec-managerial,occupation_ Handlers-cleaners,occupation_ Other-service,occupation_ Prof-specialty,income_ <=50K,income_ >50K
0,39,40,0,0,1,0,0,1,0,0,0,0,1,1,0,0,0,0,1,0
1,50,13,0,1,0,0,0,1,0,0,0,0,1,0,1,0,0,0,1,0
2,38,40,1,0,0,0,0,0,1,0,0,0,1,0,0,1,0,0,1,0
3,53,40,1,0,0,1,0,0,0,0,0,0,1,0,0,1,0,0,1,0
4,28,40,1,0,0,0,0,1,0,0,0,1,0,0,0,0,0,1,1,0


label로 생각해야할 데이터가 문자열 범주형 형태의 데이터라면 OrdinalEncoder를 사용하자.

OneHotEncoding은 feature에만 사용하자.