- 지금까지 데이터가 2차원 실수형 배열로 각 열이 데이터 포인트를 설명하는 연속형 특성(Continuous Feature)이라고 가정
- 하지만 많은 애플리케이션에서 이렇게 데이터가 수집되지는 않음
- 일반적인 특성의 전형적인 형태는 범주형 특성 (Categorical Feature)임
- 또한 이산형 특성 (Discrete Feature)이라고도 하는 이런 특성은 보통 숫자 값이 아님
- 범주형 특성과 연속적인 특성 사이의 차이는 분류와 회귀의 차이와 비슷하지만, 출력이 아닌 입력에 대한 것이란 점이 다름
- 앞서 본 연속형 특성의 예로는 픽셀 밝기와 붓꽃 측정값이 있음
- 범주형 특성의 예로는 제품의 브랜드, 색상, 판매분류 (책, 옷, 하드웨어) 등이 있음
- 이런 특성들은 모두 상품을 묘사하는 속성이지만 연속된 값으로 나타나지 않음
- 한 제품은 옷에 속하거나 책에 속하고, 책과 옷 사이에는 중간값이 없고 이 카테고리들 사이에는 순서가 없음 (책이 옷보다 크거나 작지 않고, 하드웨어는 책과 옷 사이에 있지 않음)
- 하지만 데이터가 어떤 형태의 특성으로 구성되어 있는가보다 데이터를 어떻게 표현하는가가 머신러닝 모델의 성능에 주는 영향이 더 큼
- 데이터의 스케일이 중요성은 데이터의 스케일을 조정하지 않으면(예컨데 단위 분산으로), 측정치가 센티미터냐 인치냐에 따라 차이가 생김
- 특성의 상호작용(특성 간의 곱)이나 일반적인 다항식을 추가 특성으로 넣는 것이 도움될 수 있음
- 특정 애플리케이션에 가장 적합한 데이터 표현을 찾는 것을 특성 공학 (Feature Engineering)이라 하며, 데이터 과학자와 머신러닝 기술자가 실제 문제를 풀기 위해 당면하는 주요 작업 중 하나임
- 올바른 데이터 표현은 지도 학습 모델에서 적절한 매개변수를 선택하는 것보다 성능에 더 큰 영향을 미침
- 범주형 특성의 보편적이고 중요한 사례를 살펴보고, 특정 모델에 잘 맞도록 특성을 변환하는 예를 살펴봄

# 1. Categorical Feature (범주형 특성)
- 예제에 사용할 데이터는 1994년 인구 조사 데이터베이스에서 추출한 미국 성인의 소득 데이터셋
- 이 adult 데이터셋을 사용해 어떤 근로자의 수입이 50,000달러를 초과하는지, 그 이하일지를 예측하려고 함
- 데이터셋에는 근로자 나이(age), 고용형태(workclass)(자영업(self-emp-not-inc), 사업체 근로자(private), 공공 근로자(state-gov)), 고육 수준(education), 성별(gender), 주당 근로시간(hours-per-week), 직업(occupation) 등의 특성이 있음
- 이 작업은 소득(income)이 <=50k와 >50k라는 두 클래스를 가진 분류 문제로 볼 수 있음
- 정확한 소득을 예측할 수도 있지만, 그러면 회귀 문제가 되지만 이는 훨씬 어렵기도 하고 5만 달러 기준만으로도 재미있는 문제
- 이 데이터셋에 있는 age와 hours-per-week는 우리가 다뤄본 연속형 특성
- 그런데 workclass, education, sex, occupation은 범주형 특성
- 이런 특성들은 어떤 범위가 아닌 고정된 목록 중 하나를 값으로 가지며, 정량적이 아니고 정성적인 속성

## 1-1. 원-핫-인코딩 (One-Hot_Encoding 가변수)
- 범주형 변수를 표현하는 데 가장 널리 쓰이는 방법은 원-핫-인코딩
- 이를 원-아웃-오브-엔 인코딩(one-out-of-N encoding) 혹은 가변수(dummy variable)ㅇ라고도 함
- 가변수는 범주형 변수를 0 또는 1 값을 가진 하나 이상의 새로운 특성으로 바꾼 것
- 0과 1로 표현된 변수는 선형 이진 분류 공식에 (그리고 scikit-learn에 있는 다른 모든 모델에) 적용할 수 있어서, 다음과 같이 개수에 상관없이 범주마다 하나의 특성으로 표현함
- workclass 특성에 "Government Employee", "Private Employee", "Self Employed", "Self Employed Incorportated"란 값이 있다고 가정
- 이 네 가지 값을 인코딩하기 위해 네 개의 새로운 특성 "Government Employee", "Private Employee", "Self Employed", "Self Employed Incorportated"를 만듦
- 어떤 사람의 workclass 값에 해당하는 특성은 1이 되고 나머지 세 특성은 0이 됨
- 즉 데이터 포인트마다 정확히 네 개의 새로운 특성 중 하나는 1이 됨
- 그래서 원-핫 또는 원-아웃-오브-엔 인코딩이라고 함
- 머신러닝 알고리즘에 이 데이터를 적용할 때는 원래 workclass 특성은 빼고 0과 1로 된 특성만을 사용
- 사용하는 원-핫 인코딩은 통계학에서 사용하는 더미 코딩(dummy coding)과 비슷하지만 완전히 같지는 않음
- 간편하게 하려고 각 범주를 각기 다른 이진 특성으로 바꾸었음
- 통계학에서는 k개의 값을 가진 범주형 특성을 k-1개의 특성으로 변환하는 것이 일반적(마지막 범주는 모든 열이 0으로 표현됨)
- 이렇게 하는 이유는 분석의 편리성 때문(더 기술적으로 말하면, 데이터 행렬의 랭크 부족(rank deficient) 형상을 피하기 위해서 임)
- pandas나 scikit-learn을 이욯하여 범주형 변수를 원-핫 인코딩으로 바꿀 수 있음

In [14]:
# pandas를 이용해 CVS 파일에서 데이터를 읽음
import os
import mglearn
import pandas as pd
# 이 파일은 열 이름을 나타내는 헤더가 없으므로 header=None으로 지정하고
# "names" 매개변수로 열 이름을 제공
# adult 데이터셋의 처음 다섯 개의 행
data = pd.read_csv(os.path.join(mglearn.datasets.DATA_PATH, "adult.data"), header=None, index_col=False, names=["age", "workclass", "fnlwgt", "education", "education-num", "matrial-status", "occupation", "relationship", "race", "gender", "capital-gain", "capital-loss", "hours-per-week", "native-country", "income"])
# 예제를 위해 몇 개의 열만 선택
data = data[["age", "workclass", "education", "gender", "hours-per-week", "occupation", "income"]]
data.head()

Unnamed: 0,age,workclass,education,gender,hours-per-week,occupation,income
0,39,State-gov,Bachelors,Male,40,Adm-clerical,<=50K
1,50,Self-emp-not-inc,Bachelors,Male,13,Exec-managerial,<=50K
2,38,Private,HS-grad,Male,40,Handlers-cleaners,<=50K
3,53,Private,11th,Male,40,Handlers-cleaners,<=50K
4,28,Private,Bachelors,Female,40,Prof-specialty,<=50K


### 문자열로 된 범주형 데이터 확인하기
- 데이터셋을 읽고 나면, 먼저 열에 어떤 의미 있는 범주형 데이터가 있는지 확인해보는 것이 좋음
- 사용자로부터 (ex) 웹사이트 방문자) 입력받은 데이터를 다룰 때는 정해진 범주 밖의 값이 있을 수 있고 철자나 대문자가 틀려서 데이터를 전처리해야 할 수 있음
- 예를 들어 사람에 따라 남성을 "male" 또는 "man"이라고 할 수 있으므로 두 입력값을 모두 같은 범주로 인식해야 함
- 열의 내용을 확인하는 좋은 방법은 pandas에서 (DateFrame의 열을 나타내는) Series에 있는 value_counts 메서드를 사용하여 유일한 값이 각각 몇 번 나타나는지 출력해보는 것

In [15]:
print(data.gender.value_counts())

gender
 Male      21790
 Female    10771
Name: count, dtype: int64


- 이 데이터셋의 gender는 정확히 두 가지 값, Male과 Female을 가지고 있어서 원-핫-인코딩으로 나타내기 좋은 형태
- 실제 애플리케이션에서는 모든 열을 살펴보고 그 값들을 확인해야 함
- pandas에서는 get_dummies 함수를 사용해 데이터를 매우 쉽게 인코딩할 수 있음
- get_dummies 함수는 객체 타입(문자열 같은)이나 범주형을 가진 열을 자동으로 변환해 줌

In [16]:
print("원본 특성:\n", list(data.columns), "\n")
data_dummies = pd.get_dummies(data)
print("get_dummies 후의 특성:\n", list(data_dummies.columns))

원본 특성:
 ['age', 'workclass', 'education', 'gender', 'hours-per-week', 'occupation', 'income'] 

get_dummies 후의 특성:
 ['age', 'hours-per-week', 'workclass_ ?', 'workclass_ Federal-gov', 'workclass_ Local-gov', 'workclass_ Never-worked', 'workclass_ Private', 'workclass_ Self-emp-inc', 'workclass_ Self-emp-not-inc', 'workclass_ State-gov', 'workclass_ Without-pay', 'education_ 10th', 'education_ 11th', 'education_ 12th', 'education_ 1st-4th', 'education_ 5th-6th', 'education_ 7th-8th', 'education_ 9th', 'education_ Assoc-acdm', 'education_ Assoc-voc', 'education_ Bachelors', 'education_ Doctorate', 'education_ HS-grad', 'education_ Masters', 'education_ Preschool', 'education_ Prof-school', 'education_ Some-college', 'gender_ Female', 'gender_ Male', 'occupation_ ?', 'occupation_ Adm-clerical', 'occupation_ Armed-Forces', 'occupation_ Craft-repair', 'occupation_ Exec-managerial', 'occupation_ Farming-fishing', 'occupation_ Handlers-cleaners', 'occupation_ Machine-op-inspct', 'occupation_ 

- 연속적 특성인 age와 hours-per-week는 그대로지만 범주형 특성은 값마다 새로운 특성으로 확장되었음

In [17]:
data_dummies.head()

Unnamed: 0,age,hours-per-week,workclass_ ?,workclass_ Federal-gov,workclass_ Local-gov,workclass_ Never-worked,workclass_ Private,workclass_ Self-emp-inc,workclass_ Self-emp-not-inc,workclass_ State-gov,...,occupation_ Machine-op-inspct,occupation_ Other-service,occupation_ Priv-house-serv,occupation_ Prof-specialty,occupation_ Protective-serv,occupation_ Sales,occupation_ Tech-support,occupation_ Transport-moving,income_ <=50K,income_ >50K
0,39,40,False,False,False,False,False,False,False,True,...,False,False,False,False,False,False,False,False,True,False
1,50,13,False,False,False,False,False,False,True,False,...,False,False,False,False,False,False,False,False,True,False
2,38,40,False,False,False,False,True,False,False,False,...,False,False,False,False,False,False,False,False,True,False
3,53,40,False,False,False,False,True,False,False,False,...,False,False,False,False,False,False,False,False,True,False
4,28,40,False,False,False,False,True,False,False,False,...,False,False,False,True,False,False,False,False,True,False


- data_dummies의 values 속성을 이용해 DataFrame을 NumPy 배열로 바꿀 수 있으며, 이를 이용해 머신러닝 모델을 학습시킴
- 모델을 학습시키기 전에 이 데이터로부터 (income으로 시작하는 두 열에 인코딩된) 타깃 값을 분리해야 함
- 출력값이나 출력값으로부터 유도된 변수를 특성 표현에 포함하는 것은 지도 학습 모델을 만들 때 특히 저지르기 쉬운 실수임
- pandas에서 열 인덱싱은 범위 끝을 포함하므로, 'age:'occupation_ Transport-moving'이라 하면 'occupation_ Transport-moving'을 포함
- 이와 달리 NumPy 배열의 슬라이싱은 마지막 범위를 포함하지 않음 (ex) np.arange(11)[0:10]은 인덱스 10인 항목을 포함하지 않음)

In [18]:
# 특성을 포함한 열, 즉 age부터 occupation_ Transport-moving까지 모든 열을 추출
# 이 범위에는 타깃을 뺀 모든 특성이 포함
features = data_dummies.loc[:, "age":"occupation_ Transport-moving"]
# NumPy 배열 추출
X = features.values
y = data_dummies["income_ >50K"].values
print("X.shape: {}  y.shape: {}".format(X.shape, y.shape))

X.shape: (32561, 44)  y.shape: (32561,)


In [19]:
# 이제 데이터가 scikit-learn에서 사용할 수 있는 형태가 되었으므로, 이전과 같은 방식을 사용할 수 있음
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)
logreg = LogisticRegression(max_iter=4000)
logreg.fit(X_train, y_train)
print("테스트 점수: {:.2f}".format(logreg.score(X_test, y_test)))

테스트 점수: 0.81


- 위 예에서 훈련 데이터와 테스트 데이터를 모두 담고 있는 DataFrame을 사용해 get_dummies를 호출
- 이는 훈련 세트와 테스트 세트에 범주형 값이 같은 방식으로 표현되어야 하기 때문
- 훈련 세트와 테스트 세트를 두 개의 서로 다른 DataFrame으로 가지고 있다고 가정
- workclass 특성의 "Private Employee" 값이 테스트 세트에 나타나지 않으면 pandas는 이 특성의 값이 세 개뿐이라 판단하고 세 개의 가변수 특성을 만듦
- 그러면 훈련 세트와 테스트 세트의 특성 개수가 달라지고 훈련 세트에서 학습된 모델을 테스트 세트에 적용할 수 없게 됨
- 더 심각하게 workclass 특성이 훈련 세트는 "Government Employee"와 "Private Employee"를 가지고 있고 테스트 세크는 "Self Employed"와 "Self Employed Incorporated"를 가지고 있다고 생각
- pandas는 양쪽 모두 두 개의 새로운 가변수 특성을 추가하게 되고, 결국 만들어진 두 DataFrame의 특성 갯수는 같을 것
- 그러나 가변수 특성 두 개는 훈련 세트와 테스트 세트에서 완전히 다른 의미를 가지고 있음
- 즉 훈련 세트에서 "Government Employee"를 나타내는 열은 테스트 세트에서는 "Self Employed"를 의미하게 됨
- 사실 매우 다른 의미의 두 열을 (위치가 같다는 이유로) 같은 것이라고 생각하기 때문에, 이런 데이터로 머신러닝 모델을 만들면 매우 나쁜 결과를 얻게 됨
- 이런 문제를 겪지 않으려면 훈련 데이터와 테스트 데이터 포인트를 모두 포함하는 DataFrame을 사용해 get_dummies 함수를 호출하든지, 각각 get_dummies를 호출한 후에 훈련 세트와 테스트 세트의 열 이름을 비교해서 같은 속성인지를 먼저 확인해야 함

## 1-2. 숫자로 표현된 범주형 특성
- adult 데이터셋에서는 범주형 변수가 문자열로 인코딩되어 있음
- 철자 오류가 날 수 있지만, 다른 한편으로는 변수가 범주형이란 것을 확실하게 알려줌
- 하지만 저장 공간을 절약하거나 데이터 취합 방식에 따라 범주형 변수가 숫자로 인코딩된 경우가 많음
- 예를 들어 adult 데이터셋에 있는 인구조사 데이터가 설문지를 이용해 모은 것이라 가정하면 workclass에 대한 대답은 0(첫 번째 체크박스), 1(두 번째 체크박스), 2(세 번째 체크박스) 등이 됨
- 그럼 이 열은 "Private" 같은 문자열이 아니라 0에서 8까지의 숫자로 채워지게 됨
- 누군가 이 데이터셋을 보면 이 변수를 연속형으로 다뤄야 할지 범주형으로 다뤄야 할지 단번에는 알아채기 어려움
- 그러나 숫자가 workclass를 나타낸다고 알게 되면, 이 값은 이산적이므로 연속형 변수로 다루면 안 된다는 것이 명확해짐
- 범주형 특성은 종종 숫자로 인코딩됨
- 특성의 값이 숫자라고 해서 연속형 특성으로 다뤄야 한다는 의미는 아님
- 숫자로 된 특성이 연속적인지 또는 이산적인지는 (그리고 원-핫-인코딩된 것인지는) 항상 명확하지는 않음
- 인코딩된 값 사이에 (workclass처럼) 어떤 순서도 없으면, 이 특성은 이산적이라고 생각해야 함
- 예컨대 별 다섯 개 만점으로 매긴 평점 데이터 같은 경우에 적절한 인코딩 방법은 풀려는 문제나 데이터, 그리고 어떤 머신러닝 알고리즘을 사용할지에 달렸음

In [20]:
# pandas의 get_dummies 함수는 숫자 특성은 모두 연속형이라고 생각해서 가변수를 만들지 않음
# 예를 들기 위해 각각 문자열과 숫자로 표현된 두 개의 범주형 특성을 가진 DataFrame 객체를 만듦
demo_df = pd.DataFrame({"숫자 특성": [0, 1, 2, 1], "범주형 특성": ["양말", "여우", "양말", "상자"]})
demo_df

Unnamed: 0,숫자 특성,범주형 특성
0,0,양말
1,1,여우
2,2,양말
3,1,상자


In [21]:
# get_dummies를 사용하면 문자열 특성만 인코딩되며 숫자 특성은 바뀌지 않음
pd.get_dummies(demo_df)

Unnamed: 0,숫자 특성,범주형 특성_상자,범주형 특성_양말,범주형 특성_여우
0,0,False,True,False
1,1,False,False,True
2,2,False,True,False
3,1,True,False,False


In [24]:
# '숫자 특성'도 가변수로 만들고 싶다면 columns 매개변수에 인코딩하고 싶은 열을 명시해야 함
# 그러면 두 특성을 모두 범주형으로 간주
demo_df["숫자 특성"] = demo_df["숫자 특성"].astype(str)
pd.get_dummies(demo_df, columns=["숫자 특성", "범주형 특성"])

Unnamed: 0,숫자 특성_0,숫자 특성_1,숫자 특성_2,범주형 특성_상자,범주형 특성_양말,범주형 특성_여우
0,True,False,False,False,True,False
1,False,True,False,False,False,True
2,False,False,True,False,True,False
3,False,True,False,True,False,False
