# chapter04 data expression and characteristic engineering

- 지금까지 우리는 데이터가 2차원 실수형 배열로 각 열이 포인트를 설명하는 **연속형 특성**이라고 가정했지만 많은 애플리케이션에서 이렇게 데이터가 수집되지 않습니다.

- 일반적인 특성의 전형적인 형태는 **범주형 특성** 또는 **이산형 특성**이라고도 하는 이런 특성은 보통 숫자 값이 아닙니다.

    - 범주형 특성과 연속적인 특성 사이의 차이는 분류와 회귀의 차이와 비슷하지만, 출력이 아닌 입력에 대한 것이란 점이 다릅니다.

    - 범주형 특성의 예로는 제품의 브랜드, 색상, 판매분류 등이 있습니다.

- 이런 특성들은 모두 상품을 묘사하는 속성이지만 연속된 값으로 나타나지 않습니다.

    - 한 제품은 옷에 속하거나 책에 속하는데 책과 옷 사이에는 중간값이 없고 이 카테고리들 사이에는 순서가 없습니다.

- 하지만 데이터가 어떤 형태의 특성으로 구성되어 있는가보다 데이터를 어떻게 표현하는가가 머신러닝 모델의 성능에 주는 영향이 더 큽니다.

    - 2장과 3장에서 데이터의 스케일이 중요하다는 것을 보았으며 다른 말로 하면 데이터의 스케일을 조정하지 않으면 측정치에 따라 차이가 생깁니다.

    - 또 2장에서 본 대로 특성의 상호작용이나 일반적인 다항식을 추가 특성으로 넣는 것이 도움될 수 있습니다.

- 특정 애플리케이션에 가장 적합한 데이터 표현을 찾는 것을 **특성 공학**이라고 하며 실제 문제를 풀기 위해 당면하는 주요 작업 중 하나입니다.

- 올바른 데이터 표현은 지도 학습 모델에서 적절한 매개변수를 선택하는 것보다 성능에 더 큰 영향을 미칩니다.

- 이번 장에는 먼저 범주형 특성의 보편적이고 중요한 사례를 살펴보고, 특정 모델에 잘 맞도록 특성을 변환하는 예를 보겠습니다.

## 4.1 범주형 변수

- 예제에 사용할 데이터는 1994년 인구 조사 데이터베이스에서 추출한 미국 성인의 소득 데이터셋입니다.

- 해당 데이터셋을 사용해 어떤 근로자의 수입이 50000달러를 초과하는지 아닌지 예측하려고 합니다.

    - 데이터셋에는 나이, 고용형태, 교육 수준, 성별, 주당 근로시간, 직업 등의 특성이 있습니다.

    - 이 작업은 소득을 두 클래스로 나누는 분류 문제로 볼 수 있거나 정확한 소득을 예측하는 회귀 문제가 될 수 있습니다만 여기에서는 분류 문제로 보겠습니다.

- 이 데이터셋에 있는 age와 hours-pre-week는 연속형 특성이지만 workclass, education, sex, occupation은 범주형 특성입니다.

    - 이런 특성들은 어떤 범위가 아닌 고정된 목록 중 하나를 값으로 가지는 정량적이 아닌 정성적인 속성입니다.

- 맨 먼저 이 데이터에 로지스틱 회귀 분류기를 학습시켜보겠습니다. 2장에서 배운 것처럼 로지스틱 회귀는 입력값 x에 가중치 w를 곱한 뒤 합친 값에 편향 b를 더해 출력값 y를 예측합니다.

    - 여기서 w와 b는 훈련 세트로부터 학습되는 계수이고 x는 입력 특성입니다.

    - 이 공식에 따르면 x는 숫자여야 하므로 'Masters', 'Bachelors'가 될 수 없습니다.

- 그러므로 로지스틱 회귀를 사용하기 위해 데이터를 다른 방식으로 표현해야 합니다. 이 문제는 다음 절에서 해결하며 설명하겠습니다.

### 4.1.1 원-핫-인코딩(가변수)

- 범주형 변수를 표현하는 데 가장 널리 쓰이는 방법은 **원-핫-인코딩**이라하며 **원-아웃-오브-엔-인코딩** 혹은 **가변수**라고도 합니다.

- 가변수는 범주형 변수를 0 또는 1 값을 가진 하나 이상의 새로운 특성으로 바꾼 것입니다.

    - 0과 1로 표현된 변수는 선형 이진 분류 공식과 scikit-learn의 다른 모든 모델에 적용할 수 있어서 계수에 상관없이 범주마다 하나의 특성으로 표현합니다.

- 예를 들어 workclass 특성에 'Goverment Employee', 'Private Employee', 'Self Employed', 'Self Employed Incorporated'란 값이 있다고 가정하겠습니다.

    - 이 네 가지 값을 인코딩하기 위해 네 개의 새로운 특성(각 특성은 원래 특성에 대응합니다.)을 만듭니다.

    - 그렇다면 어떤 사람의 workclass 값에 해당하는 특성이 1이 되고 나머지 세 특성은 0이 됩니다.

- 즉, 데이터 포인트마다 정확히 N개의 새로운 특성 중 하나는 1이 되는데 그래서 원-핫 또는 원-아웃-오브-엔-인코딩이라고 합니다.

    - 이렇게 인코딩된 특성은 머신러닝 알고리즘에 적용할 때 원래 특성을 대체하여 0과 1로 된 특성을 사용하게 됩니다.

#### Note

> 우리가 사용하는 원-핫 인코딩은 통계학에서 사용하는 더미 코딩과 비슷하지만 완전히 같지는 않습니다.
>
> 간편하게 하려고 각 범주를 각기 다른 이진 특성으로 바꾸었는데 통계학에서는 k개의 값을 가진 범주형 특성은 k-1개의 특성으로 변환하는 것이 일반적입니다.
>
> 이렇게 분석하는 이유는 분석의 편리성 때문으로 기술적으로는 데이터 행렬의 랭크 부족 현상을 피하기 위해서 입니다.

- pandas나 scikit-learn을 이용해서 범주형 변수를 원-핫 인코딩으로 바꿀 수 있습니다.

- 우선 pandas로 처리하는 방법을 알아보기 위해 CSV 파일에서 데이터를 읽겠습니다.

In [1]:
import pandas as pd
import mglearn
import os

data = pd.read_csv(
    os.path.join(mglearn.datasets.DATA_PATH, 'adult.data'), header=None, index_col=False,
    names=[
        'age', 'workclass', 'fnlwgt', 'education', 'education-num',
        'marital-status', 'occupation', 'relationship', 'race', 'gender',
        'capital-gain', 'capital-loss', 'hours-per-week', 'native-country', 'income'
    ]
)

# 예제를 위해 몇 개의 열만 선택하겠습니다.
data = data[['age', 'workclass', 'education', 'occupation', 'gender', 'hours-per-week', 'income']]
data.head()

Unnamed: 0,age,workclass,education,occupation,gender,hours-per-week,income
0,39,State-gov,Bachelors,Adm-clerical,Male,40,<=50K
1,50,Self-emp-not-inc,Bachelors,Exec-managerial,Male,13,<=50K
2,38,Private,HS-grad,Handlers-cleaners,Male,40,<=50K
3,53,Private,11th,Handlers-cleaners,Male,40,<=50K
4,28,Private,Bachelors,Prof-specialty,Female,40,<=50K


#### 범주형 데이터 문자열 확인하기

- 이처럼 데이터셋을 읽고 나면, 먼저 열에 어떤 의미 있는 범주형 데이터가 있는지 확인해보는 것이 중요합니다.

- 사용자로부터 입력받은 데이터를 다룰 때는 정해진 범주 밖의 값이 있을 수 있고 철자나 대소문자가 틀려서 데이터를 전처리해야 할 수 있습니다.

    - 예를 들어 사람에 따라 남성을 'male'이나 'man'으로 쓸 수 있기에 두 입력값을 모두 같은 범주로 인식해야 합니다.

- 열의 내용을 확인하는 좋은 방법은 pandas에서 DataFrame의 열을 나타내는 Series의 value_counts 메서드를 사용하여 유일한 값이 각각 몇 번 나타나는지 출력하는 것입니다.

In [2]:
print(data.gender.value_counts())

Male      21790
 Female    10771
Name: gender, dtype: int64


- 이 데이터셋의 gender는 정확히 male과 female이라는 두 가지 값을 가지고 있어 원-핫-인코딩으로 나타내기 좋은 형태입니다.

    - 실제 애플리케이션에서는 모든 열을 살펴보고 그 값들을 확인해야 하지만 여기서는 그냥 넘어가겠습니다.

- pandas에서는 get_dummies 함수를 사용해 데이터를 매우 쉽게 인코딩할 수 있습니다.

    - get_dummies는 객체 타입이나 범주형을 가진 열을 자동으로 변환해줍니다.

In [3]:
print('원본 특성:\n', list(data.columns), '\n')

data_dummies = pd.get_dummies(data)
print('get_dummies 후의 특성:\n', list(data_dummies.columns))

원본 특성:
 ['age', 'workclass', 'education', 'occupation', 'gender', 'hours-per-week', 'income'] 

get_dummies 후의 특성:
 ['age', 'hours-per-week', 'workclass_ ?', 'workclass_ Federal-gov', 'workclass_ Local-gov', 'workclass_ Never-worked', 'workclass_ Private', 'workclass_ Self-emp-inc', 'workclass_ Self-emp-not-inc', 'workclass_ State-gov', 'workclass_ Without-pay', 'education_ 10th', 'education_ 11th', 'education_ 12th', 'education_ 1st-4th', 'education_ 5th-6th', 'education_ 7th-8th', 'education_ 9th', 'education_ Assoc-acdm', 'education_ Assoc-voc', 'education_ Bachelors', 'education_ Doctorate', 'education_ HS-grad', 'education_ Masters', 'education_ Preschool', 'education_ Prof-school', 'education_ Some-college', 'occupation_ ?', 'occupation_ Adm-clerical', 'occupation_ Armed-Forces', 'occupation_ Craft-repair', 'occupation_ Exec-managerial', 'occupation_ Farming-fishing', 'occupation_ Handlers-cleaners', 'occupation_ Machine-op-inspct', 'occupation_ Other-service', 'occupation_ Priv-

- 연속형 특성인 age와 hours-per-week는 그대로지만 범주형 특성은 값마다 새로운 특성으로 확장되었습니다.

In [4]:
data_dummies.head()

Unnamed: 0,age,hours-per-week,workclass_ ?,workclass_ Federal-gov,workclass_ Local-gov,workclass_ Never-worked,workclass_ Private,workclass_ Self-emp-inc,workclass_ Self-emp-not-inc,workclass_ State-gov,...,occupation_ Priv-house-serv,occupation_ Prof-specialty,occupation_ Protective-serv,occupation_ Sales,occupation_ Tech-support,occupation_ Transport-moving,gender_ Female,gender_ Male,income_ <=50K,income_ >50K
0,39,40,0,0,0,0,0,0,0,1,...,0,0,0,0,0,0,0,1,1,0
1,50,13,0,0,0,0,0,0,1,0,...,0,0,0,0,0,0,0,1,1,0
2,38,40,0,0,0,0,1,0,0,0,...,0,0,0,0,0,0,0,1,1,0
3,53,40,0,0,0,0,1,0,0,0,...,0,0,0,0,0,0,0,1,1,0
4,28,40,0,0,0,0,1,0,0,0,...,0,1,0,0,0,0,1,0,1,0


- data_dummies의 values 속성을 이용해 DataFrame을 NumPy 배열로 바꿀 수 있으며 이를 이용해 머신러닝 모델을 학습시킵니다.

- 모델을 학습시키 전에 이 데이터로 부터 income에 관한 두 열의 타깃값을 분리해야 합니다.

    - 출력값이나 출력값으로부터 유도된 변수를 특성 표현에 포함하는 것은 지도 학습 모델을 만들 때 특히 저지르기 쉬운 실수입니다.

#### CAUTION

> pandas에서 열 인덱싱은 범위 끝을 포함합니다.
>
> 그래서 'age':'occupation\_ Transport-moving'이라 하면 'occupation\_ Transport-moving'을 포함합니다.
>
> 하지만 NumPy 배열의 슬라이싱은 마지막 범위를 포함하지 않습니다.

- 여기서는 특성을 포함한 열, 즉 age부터 occupation_ Transport-moving까지 모든 열을 추출합니다. 이 범위에는 타깃을 뺀 모든 특성이 포함됩니다.

In [5]:
features = data_dummies.loc[:, 'age':'occupation_ Transport-moving']

# NumPy 배열을 추출합니다.
X, y = features.values, data_dummies['income_ >50K'].values
print('X.shape:', X.shape, 'y.shape:', y.shape)

X.shape: (32561, 42) y.shape: (32561,)


- 이제 데이터가 scikit-learn에서 사용할 수 있는 형태가 되었으므로, 이전과 같은 방식을 사용할 수 있습니다.

In [6]:
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)
logreg = LogisticRegression()
logreg.fit(X_train, y_train)
print(f'테스트 점수: {logreg.score(X_test, y_test):.2f}')

테스트 점수: 0.80


#### CAUTION

> 이 예에서 훈련 데이터와 테스트 데이터를 모두 담고 있는 DataFrame을 사용해 get_dummies를 호출했습니다.
>
> 이는 훈련 세트와 테스트 세트의 범주형 값이 같은 방식으로 표현되어야 하기 때문입니다.
>
> 예를 들어 훈련 세트와 테스트 세트를 두 개의 서로 다른 DataFrame으로 가지고 있다고 가정해보겠습니다.
>
> workclass 특성의 'Private Employee' 값이 테스트 세트에 나타나지 않으면 pandas는 이 특성의 값이 세 개뿐이라 판단하고 세 개의 가변수 특성을 만듭니다.
>
> 그러면 훈련 세트와 테스트 세트의 특성 개수가 달라지고 훈련 세트에서 학습된 모델을 테스트 세트에 적용할 수 없게 됩니다.
>
> 더 심각하게 훈련 세트와 테스트 세트가 아예 상반된 값만 가지고 있다고 생각해보면 pandas는 양쪽 모두 두 개의 새로운 가변수 특성을 추가하게 되어 만들어진 두 DataFrame의 특성 개수는 같아질 것입니다.
>
> 그러나 가변수 특성 두 개는 훈련 세트와 테스트 세트에서 완전히 다른 의미를 가지게 됩니다.
>
> 따라서 사실 매우 다른 의미의 두 열을 같을 것이라고 생각하기 때문에, 이런 데이터로 머신러닝 모델을 만들면 매우 나쁜 결과를 얻게 됩니다.
>
> 이런 문제를 겪지 않으려면 훈련 데이터와 테스트 데이터 포인트를 모두 포함하는 DataFrame을 사용해 get_dummies를 호출하든지 각각 get_dummies를 호출한 후에 훈련 세트와 테스트 세트의 열 이름을 비교해서 같은 속성인지 파악해야 합니다.

### 4.1.2 숫자로 표현된 범주형 특성

- adult 데이터셋에는 범주형 변수가 문자열로 인코딩되어 있습니다.

    - 이들은 철자 오류가 날 수 있지만 한편으로 변수가 범주형이라는 것을 확실하게 알려줍니다.

- 하지만 저장 공간을 절약하거나 데이터 취합 방식에 따라 범주형 변수가 숫자고 인코딩된 경우가 많습니다.

    - 예를 들어 adult 데이터셋에 있는 인구조사 데이터가 설문지를 이용해 모은 것이라 가정할 때 workclass에 대한 대답이 0, 1, 2로 각 체크박스에 대응하게 됩니다.

    - 그렇다면 이 열은 'Private'와 같은 문자열이 아니라 0에서 8까지의 숫자로 채워지게 되는데 이런 경우 이 데이터셋의 이 변수를 연속형으로 다뤄야 할지 범주형으로 다뤄야 할지 알아채기 어렵습니다.

    - 그러나 숫자가 workclass를 나타낸다고 알게 되면, 이 값은 이산적이므로 연속형 변수로 다루면 안된다는 것이 명확해집니다.

#### CAUTION

> 범주형 특성은 종종 숫자고 인코딩됩니다.
>
> 특성의 값이 숫자라고 해서 연속형 특성으로 다뤄야 한다는 의미는 아닙니다.
>
> 숫자로 된 특성이 연속적인지 또는 이산적인지는 항상 명확하지 않습니다.
>
> 인코딩 된 값 사이에 어떤 순서도 없으면 이 특성은 이산적이라고 생각해야 합니다.
>
> 예를 들어 별 다섯개 만점으로 매긴 평점 데이터의 경우 적절한 인코딩 방법은 풀려는 문제나 데이터 그리고 사용하는 머신러닝 알고리즘에 달렸습니다.

- pandas의 get_dummies 함수는 숫자 특성은 모두 연속형이라고 생각해서 가변수를 만들지 않습니다.

    - 이를 확인하기 위해 각각 문자열과 숫자로 표현된 두 개의 범주형 특성을 가진 DataFrame 객체를 만들어보겠습니다.

In [7]:
# 숫자 특성과 범주형 문자열 특성을 가진 DataFrame을 만듭니다.
demo_df = pd.DataFrame({'numberic attribute': [0, 1, 2, 1], 'categorical attribute': ['socks', 'fox', 'socks', 'box']})
demo_df

Unnamed: 0,numberic attribute,categorical attribute
0,0,socks
1,1,fox
2,2,socks
3,1,box


- 위 데이터에 get_dummies를 사용하면 문자열 특성만 인코딩되며 숫자 특성은 바뀌지 않습니다.

In [8]:
pd.get_dummies(demo_df)

Unnamed: 0,numberic attribute,categorical attribute_box,categorical attribute_fox,categorical attribute_socks
0,0,0,0,1
1,1,0,1,0
2,2,0,0,1
3,1,1,0,0


- 만약 숫자 특성도 가변수로 만들고 싶다면 columns 매개변수에 인코딩하고 싶은 열을 명시해야 합니다.

In [9]:
demo_df['numberic attribute'] = demo_df['numberic attribute'].astype(str)
pd.get_dummies(demo_df, columns=['numberic attribute', 'categorical attribute'])

Unnamed: 0,numberic attribute_0,numberic attribute_1,numberic attribute_2,categorical attribute_box,categorical attribute_fox,categorical attribute_socks
0,1,0,0,0,0,1
1,0,1,0,0,1,0
2,0,0,1,0,0,1
3,0,1,0,1,0,0


## 4.2 OneHotEncoder와 ColumnTransformer: scikit-learn으로 범주형 변수 다루기

- 이전에 언급한 것처럼 scikit-learn은 원-핫-인코딩을 수행할 수 있습니다.

- scikit-learn은 훈련 세트와 테스트 세트를 같은 방식으로 다루기 쉬운 것이 장점으로 원-핫-인코딩은 OneHotEncoder 클래스에 구현되어 있습니다.

    - OneHotEncoder는 모든 열에 인코딩을 수행합니다.

In [10]:
from sklearn.preprocessing import OneHotEncoder

# spare=False로 설정하면 OneHotEncoder가 희소 행렬이 아닌 Numpy 배열을 반환합니다.
ohe = OneHotEncoder(sparse=False)
print(ohe.fit_transform(demo_df))

[[1. 0. 0. 0. 0. 1.]
 [0. 1. 0. 0. 1. 0.]
 [0. 0. 1. 0. 0. 1.]
 [0. 1. 0. 1. 0. 0.]]


- 문자열 특성과 정수 특성이 모두 변환되었습니다.

- scikit-learn의 출력은 DataFrame이 아니기 때문에 열 이름이 없습니다. 따라서 변환된 특성의 원본 범주형 변수 이름은 get_features_names 메서드를 사용합니다.

In [11]:
print(ohe.get_feature_names())

['x0_0' 'x0_1' 'x0_2' 'x1_box' 'x1_fox' 'x1_socks']


- 위 결과에 따르면 처음 세 개의 열은 첫 번째 원본 특성(x0)의 값 0, 1, 2에 해당하고 마지막 세 개의 열은 두 번째 원본 특성(x1)의 값 '상자', '여우', '양말'에 해당합니다.

- 대부분의 애플리케이션에서 일부 특성은 범주형이고 일부는 연속형입니다. OneHotEncoder는 모든 특성을 범주형이라고 가정하기 때문에 바로 적용할 수는 없습니다.

- 따라서 이를 해결하기 위해 ColumnTransformer 클래스가 필요합니다.

    - 이 클래스는 입력 데이터에 있는 열마다 다른 변환을 적용할 수 있습니다.

    - 연속형 특성과 범주형 특성은 매우 다른 종류의 전처리 과정이 필요하기 때문에 이 클래스가 매우 유용합니다.

In [12]:
# 앞서 보았던 adult 데이터셋입니다.
data.head()

Unnamed: 0,age,workclass,education,occupation,gender,hours-per-week,income
0,39,State-gov,Bachelors,Adm-clerical,Male,40,<=50K
1,50,Self-emp-not-inc,Bachelors,Exec-managerial,Male,13,<=50K
2,38,Private,HS-grad,Handlers-cleaners,Male,40,<=50K
3,53,Private,11th,Handlers-cleaners,Male,40,<=50K
4,28,Private,Bachelors,Prof-specialty,Female,40,<=50K


- 이 데이터셋에 선형 모델을 적용하여 소득을 예측하려면 범주형 변수에 원-핫-인코딩을 적용하는 것 외에 연속형 변수인 age와 hours-per-week의 스케일도 조정해야 합니다.

- 여기에서 ColumnTransformer가 필요합니다.

    - 각 열의 변환은 이름, 변환기 객체, 이 변환이 적용될 열을 지정합니다. 열은 열 이름이나 정수 인덱스, Boolean Mask로 선택할 수 있습니다.

- 해당 열에 변환이 적용된 후 그 결과가 합쳐집니다. 앞선 예에서 열 이름을 사용하면 다음과 같습니다.

In [14]:
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import StandardScaler

ct = ColumnTransformer([
    ('scaling', StandardScaler(), ['age', 'hours-per-week']),
    ('onehot', OneHotEncoder(sparse=False), ['workclass', 'education', 'gender', 'occupation'])
])

- 다른 scikit-learn 변환기와 동일하게 ColumnTransformer 객체는 fit, transform 메서드를 사용할 수 있습니다.

- 이제 이전처럼 선형 모델을 만들되 이번에는 연속형 변수의 스케일을 조정하겠습니다.

    - train_test_split 함수에 Numpy 배열이 아닌 특성을 포함하고 있는 DataFrame을 전달할 수 있습니다.

    - ColumnTransformer에 필요하므로 열 이름은 보존해야 합니다.

In [15]:
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split

# income을 제외한 모든 열을 추출합니다.
data_features = data.drop('income', axis=1)

# DataFrame과 imcome을 분할합니다.
X_train, X_test, y_train, y_test = train_test_split(data_features, data.income, random_state=0)

ct.fit(X_train)
X_train_trans = ct.transform(X_train)
print(X_train_trans.shape)

(24420, 44)


- pd.get_dummies를 사용한 것과 마찬가지로 44개의 특성이 만들어졌으며 여기서는 연속형 특성을 스케일 조정했다는 차이만 있습니다.

- 이제 이를 기반으로 LogisticRegression 모델을 만들 수 있습니다.

In [17]:
logreg = LogisticRegression()
logreg.fit(X_train_trans, y_train)

X_test_trans = ct.transform(X_test)
print(f'테스트 점수: {logreg.score(X_test_trans, y_test):.2f}')

테스트 점수: 0.81


- 이 경우에 데이터의 스케일이 영향을 미치지 못했습니다.

- 하나의 변환기로 모든 전처리 단계를 캡슐화하면 장점이 더 있습니다. 이에 대한 설명은 나중에 이어가겠습니다.

- ColumnTransformer 안의 단계에 접근하면 named_transformers_ 속성을 사용합니다.

In [18]:
ct.named_transformers_

{'scaling': StandardScaler(copy=True, with_mean=True, with_std=True),
 'onehot': OneHotEncoder(categories='auto', drop=None, dtype=<class 'numpy.float64'>,
               handle_unknown='error', sparse=False)}