데이터 표현과 특성공학
- 보통은 데이터가 2차원 실수형 배열로 각 열이 데이터 포인트를 설명하는 연속형 특성이라 생각
- 하지만 일반 특성의 전형적 형태는 범주형특성(이산형)이 많다. 
- 범주형 특성은 상품의 속성이 포함되어 있지만 연속된 값으로 나타나지 않는다. 
- 이때 특정 애플리케이션에 가장 적합한 데이터 표현을 찾는 것을 특성공학이라 한다. 
- 올바른 데이터 표현은 지도 학습 모델에서 적절한 매개변수를 선택하는 것보다 성능에 큰 영향을 미친다. 

1. 범주형 변수 
    - 예제로 1994년 미국의 성인 소득 데이터셋 이용
    - 어떤 근로자가 50,000달러 초과하는 수입을 얻는지 예측
    - 대부분이 범주형 변수로 나타난다. 
    
    1) 원핫 인코딩(가변수)
        - 범주형 변수 표현시 가장 많이 쓰이는 방법(가변수라고도 한다. )
        - 범주형 변수를 0 또는 1 값을 가진 하나 이상의 새로운 특성으로 바꾼것이다. 
        - 0과 1로 표현된 변수는 선형 이진 분류 공식에 적용 가능하다. 

In [3]:
import os 
import pandas as pd
import mglearn

data = pd.read_csv(os.path.join(mglearn.datasets.DATA_PATH,'adult.data'),header=None, index_col = False, 
                  names=['age','workclass','fnlwgt','education','education-num','marital-status','occupation','relationship','race','gender',
                         'capital-gain','capital-loss','hours-per-week','native-country','income'])

#예제를 위해 열 간소화
data = data[['age','workclass','education','gender','hours-per-week','occupation','income']]
display(data.head())

Unnamed: 0,age,workclass,education,gender,hours-per-week,occupation,income
0,39,State-gov,Bachelors,Male,40,Adm-clerical,<=50K
1,50,Self-emp-not-inc,Bachelors,Male,13,Exec-managerial,<=50K
2,38,Private,HS-grad,Male,40,Handlers-cleaners,<=50K
3,53,Private,11th,Male,40,Handlers-cleaners,<=50K
4,28,Private,Bachelors,Female,40,Prof-specialty,<=50K


범주형 데이터 문자열 확인하기

- 정해진 범주 밖의 값인지, 대소문자가 틀린 것인지, 동음이의어를 같은 범주로 인식하는 것 등을 해야하낟.
- 열의 내용 확인의 가장 좋은 방법은 pandas에서 Series의 value_counts를 이용하여 유일값이 몇번 나타나는지 출력해보는 것이 좋다. 

In [4]:
print(data.gender.value_counts())

 Male      21790
 Female    10771
Name: gender, dtype: int64


- 이 데이터셋의 gender 특성은 명확히 2가지로 구분되므로 원핫 인코딩하기 좋은 형태이다. 
- pandas의 get_dummies함수를 이용헤 쉽게 인코딩 ( 객체타입이나, 범주형을 자동으로 변환 )

In [5]:
print('원본 특성\n',list(data.columns),"\n")

data_dummies = pd.get_dummies(data)

print('변환 후 특성 : \n',list(data_dummies.columns))

원본 특성
 ['age', 'workclass', 'education', 'gender', 'hours-per-week', 'occupation', 'income'] 

변환 후 특성 : 
 ['age', 'hours-per-week', 'workclass_ ?', 'workclass_ Federal-gov', 'workclass_ Local-gov', 'workclass_ Never-worked', 'workclass_ Private', 'workclass_ Self-emp-inc', 'workclass_ Self-emp-not-inc', 'workclass_ State-gov', 'workclass_ Without-pay', 'education_ 10th', 'education_ 11th', 'education_ 12th', 'education_ 1st-4th', 'education_ 5th-6th', 'education_ 7th-8th', 'education_ 9th', 'education_ Assoc-acdm', 'education_ Assoc-voc', 'education_ Bachelors', 'education_ Doctorate', 'education_ HS-grad', 'education_ Masters', 'education_ Preschool', 'education_ Prof-school', 'education_ Some-college', 'gender_ Female', 'gender_ Male', 'occupation_ ?', 'occupation_ Adm-clerical', 'occupation_ Armed-Forces', 'occupation_ Craft-repair', 'occupation_ Exec-managerial', 'occupation_ Farming-fishing', 'occupation_ Handlers-cleaners', 'occupation_ Machine-op-inspct', 'occupation_ Other-ser

- 연속형 특성인 age, hours-per-week는 그대로지만 범주형 특성은 값마다 새로운 특성으로 확장되었다.

In [7]:
display(data_dummies.head())

Unnamed: 0,age,hours-per-week,workclass_ ?,workclass_ Federal-gov,workclass_ Local-gov,workclass_ Never-worked,workclass_ Private,workclass_ Self-emp-inc,workclass_ Self-emp-not-inc,workclass_ State-gov,...,occupation_ Machine-op-inspct,occupation_ Other-service,occupation_ Priv-house-serv,occupation_ Prof-specialty,occupation_ Protective-serv,occupation_ Sales,occupation_ Tech-support,occupation_ Transport-moving,income_ <=50K,income_ >50K
0,39,40,0,0,0,0,0,0,0,1,...,0,0,0,0,0,0,0,0,1,0
1,50,13,0,0,0,0,0,0,1,0,...,0,0,0,0,0,0,0,0,1,0
2,38,40,0,0,0,0,1,0,0,0,...,0,0,0,0,0,0,0,0,1,0
3,53,40,0,0,0,0,1,0,0,0,...,0,0,0,0,0,0,0,0,1,0
4,28,40,0,0,0,0,1,0,0,0,...,0,0,0,1,0,0,0,0,1,0


- data_dummies의 values 속성을 이용해 DF -> Numpy 배열로 바꿀 수 있으며 이를 이용해 머신러닝 모델을 학습시킨다. 
- 모델 학습전 타겟값 분리 필요 ( 이 데이터 셋에서는 income으로 시작하는 두 열 )

In [11]:
#age부터 occupation_Transport-moving까지 추출

features = data_dummies.loc[:,'age':'occupation_ Transport-moving']

#Numpy 배열 추출
X = features.values
y = data_dummies['income_ >50K'].values

In [13]:
print('X.shape:{} y.shape:{}'.format(X.shape, y.shape))
#데이터가 머신러닝에 이용가능한 형태이므로 이전과 같은 방식 이용가능 

X.shape:(32561, 44) y.shape:(32561,)


In [14]:
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y , random_state = 0)
logreg = LogisticRegression()
logreg.fit(X_train, y_train)
print('테스트 점수 :', logreg.score(X_test, y_test))

테스트 점수 : 0.8087458543176514




       2)숫자로 표현된 범주형 특성
           - 숫자로 표현된 특성은 연속형인지 범주형인지 확인이 필요하다. 
           - pandas의 dummies 함수는 숫자 특성은 모두 연속형이라 가정하지 않는다. 

In [17]:
#숫자 특성, 범주 문자열 특성 가진 DF 생성

test_df = pd.DataFrame({'숫자 특성':[0,1,2,1],
                       '범주형 특성':['가','나','라','마']})

display(test_df)

Unnamed: 0,숫자 특성,범주형 특성
0,0,가
1,1,나
2,2,라
3,1,마


In [19]:
display(pd.get_dummies(test_df))

Unnamed: 0,숫자 특성,범주형 특성_가,범주형 특성_나,범주형 특성_라,범주형 특성_마
0,0,1,0,0,0
1,1,0,1,0,0
2,2,0,0,1,0
3,1,0,0,0,1


In [20]:
#숫자 특성도 가변수로 만들고 싶다면 columns 매개변수에 인코딩하고 싶은 열 명시
test_df['숫자 특성']= test_df['숫자 특성'].astype(str)
display(pd.get_dummies(test_df, columns=['숫자 특성','범주형 특성']))

Unnamed: 0,숫자 특성_0,숫자 특성_1,숫자 특성_2,범주형 특성_가,범주형 특성_나,범주형 특성_라,범주형 특성_마
0,1,0,0,1,0,0,0
1,0,1,0,0,1,0,0
2,0,0,1,0,0,1,0
3,0,1,0,0,0,0,1


    2.원핫 인코더와 ColumnTransformer : scikit-learn으로 범주형 변수 다루기 
        - scikit-learn으로 원핫 인코더 구현 가능하며, 모든 열에 인코딩 가능하다. 

In [21]:
from sklearn.preprocessing import OneHotEncoder
#sparse=False로 설정하면 희소행렬이 아닌 넘파이 배열 반환

ohe = OneHotEncoder(sparse = False)
print(ohe.fit_transform(test_df))

[[1. 0. 0. 1. 0. 0. 0.]
 [0. 1. 0. 0. 1. 0. 0.]
 [0. 0. 1. 0. 0. 1. 0.]
 [0. 1. 0. 0. 0. 0. 1.]]


In [22]:
#DF형태가 아니라 열이름이 없어 변환 특성에 해당되는 원본 범주형 변수 이름 얻으려면 get_feature_names 이용
print(ohe.get_feature_names())

['x0_0' 'x0_1' 'x0_2' 'x1_가' 'x1_나' 'x1_라' 'x1_마']


- 일부 애플리케이션은 보통 일부는 범주형이고 일부는 연속형 데이터이다.
- 원핫 인코딩은 모든 특성을 범주형이라 가정하기 때문에 바로 적용 어렵다. 
- 이때 ColumnTransformer를 이용하면 입력 데이터 열마다 다른 변환 적용이 가능하다. 

In [23]:
display(data.head())

Unnamed: 0,age,workclass,education,gender,hours-per-week,occupation,income
0,39,State-gov,Bachelors,Male,40,Adm-clerical,<=50K
1,50,Self-emp-not-inc,Bachelors,Male,13,Exec-managerial,<=50K
2,38,Private,HS-grad,Male,40,Handlers-cleaners,<=50K
3,53,Private,11th,Male,40,Handlers-cleaners,<=50K
4,28,Private,Bachelors,Female,40,Prof-specialty,<=50K


- adult 데이터셋에 선형 모델 적용하여 소득 예측하려면 범주형 변수에 원핫 인코딩 뿐 아니라 

  연속형 변수의 스케일도 조정해야 한다. 
  
- ColumnTransformer를 이용하며 각 열 변환은 이름, 객체, 적용될 열 지정한다.

  (열은 이름이나, 정수 인덱스, 불리언 마스크로 선택가능 )

In [26]:
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import StandardScaler

ct = ColumnTransformer([('scaling',StandardScaler(),['age','hours-per-week']), ('onehot',OneHotEncoder(sparse=False),['workclass','education','gender','occupation'])])

- 다른 scikit-learn의 변환기와 동일하게 fit , transform 메서도 이용가능 
- 이제 데이터 스플릿 함수에 넘파이 배열이 아닌 특성포함한 DF 전달 가능.

In [30]:
#income 제외 열 추출
data_features = data.drop('income',axis=1)

#df와 income 분할
X_train, X_test, y_train, y_test = train_test_split(data_features, data.income, random_state=0)

ct.fit(X_train)
X_train_trans=ct.transform(X_train)
print(X_train_trans.shape)

(24420, 44)


- get_dummies와 마찬가지로 44개의 특성이 만들어 졌다. ( 연속형 특성 스케일 조정만 다르다. )

In [31]:
logreg = LogisticRegression()
logreg.fit(X_train_trans, y_train)

X_test_trans = ct.transform(X_test)
print('테스트점수', logreg.score(X_test_trans, y_test))

테스트점수 0.8088686893502027




- 연속형 변수 스케일 조정이 영향을 미치지 못했다. 
- 하지만 하나의 변환기로 모든 전처리 단계로 캡슐화하면 추가적인 장점이 있다. 

In [33]:
# named_transformers_를 이용하여 ColumnTransformer 안의 단계에 접근

ct.named_transformers_.onehot

OneHotEncoder(categorical_features=None, categories=None, drop=None,
              dtype=<class 'numpy.float64'>, handle_unknown='error',
              n_values=None, sparse=False)

    3)make_column_transformer로 간편한 ColumnTransformer 생성
    
        -ColumnTransformer의 생성시 각 단계의 이름을 지정해야 하여 번거롭다.
        
        -클래스 이름을 기반으로 각 단계에 이름을 붙이는 make_column_transformer이용하면 편하다

In [36]:
from sklearn.compose import make_column_transformer

ct=make_column_transformer(
    (['age','hours-per-week'],StandardScaler()),
    (['workclass','education','gender','occupation'],OneHotEncoder(sparse=False)))

ct.fit(X_train)
X_train_trans=ct.transform(X_train)
print(X_train_trans.shape)
#다만 0.20 버전에서는 변환된 출력 열에 대응하는 입력열을 찾지 못한다.
#같은 결과 출력

(24420, 44)


