In [1]:
import pandas as pd
import numpy as np
from IPython.display import display
import matplotlib.pyplot as plt
import mglearn



In [2]:
from matplotlib import font_manager,rc, rcParams
import platform

if platform.system() == 'Windows':
    path = 'c:/windows/Fonts/malgun.ttf'
    font_name = font_manager.FontProperties(fname=path).get_name()
    rc('font',family = font_name)
elif platform.system() == 'Darwin':
    rc('font',family = 'AppleGothic')
else:
    print('Check your OS system')

rcParams['axes.unicode_minus'] = False

%matplotlib inline

# 데이터 표현과 특성 공학
특정 애플리케이션에 가장 적합한 데이터 표현을 찾는 것을 '특성 공학(feature engineering)'이라 한다.<br>
올바른 데이터 표현은 지도 학습에서 적절한 매개변수를 선택하는 것보다 성능에 더 큰 영향을 미친다.

# 범주형 변수
https://archive.ics.uci.edu/ml/datasets/Adult 의 데이터셋

### 잠시 데이터 가공

In [22]:
A = pd.read_csv('adult.data',header=None)
B = A.iloc[:,[0,1,3,9,12,6,14]]

In [23]:
B.columns = ['age','workclass','education','gender','hours-per-week','occupation','income']

In [26]:
B.to_csv('adult.csv',index=False)

In [27]:
adult = pd.read_csv('adult.csv')

In [29]:
adult.head(10)

Unnamed: 0,age,workclass,education,gender,hours-per-week,occupation,income
0,39,State-gov,Bachelors,Male,40,Adm-clerical,<=50K
1,50,Self-emp-not-inc,Bachelors,Male,13,Exec-managerial,<=50K
2,38,Private,HS-grad,Male,40,Handlers-cleaners,<=50K
3,53,Private,11th,Male,40,Handlers-cleaners,<=50K
4,28,Private,Bachelors,Female,40,Prof-specialty,<=50K
5,37,Private,Masters,Female,40,Exec-managerial,<=50K
6,49,Private,9th,Female,16,Other-service,<=50K
7,52,Self-emp-not-inc,HS-grad,Male,45,Exec-managerial,>50K
8,31,Private,Masters,Female,50,Prof-specialty,>50K
9,42,Private,Bachelors,Male,40,Exec-managerial,>50K


## 원-핫-인코딩
범주형 변수를 처리하는데 있어서 가장 널리 쓰이는 방법. '원-아웃-오브-엔 인코딩' 혹은 '가변수'라고도 한다.

데이터셋을 읽고나면, 열에 어떤 의미있는 범주형 데이터가 있는지 확인하는 것이 좋다. 철자나 대소문자가 틀려 데이터를 전처리해야하는 경우가 있는데 예를 들어 남성을 man 또는 male로 표기할 수 있으므로 두 입력값을 모두 같은 변수로 인식해야한다.

In [30]:
adult.gender.value_counts()

 Male      21790
 Female    10771
Name: gender, dtype: int64

정확히 두 가지 값이 있으므로 원-핫-인코딩을 하기에 좋은 형태이다.<br>
실제 애플리케이션에서는 모든 열을 살펴보고 그 값들을 확인해야하나 여기서는 패쓰

pandas에서는 get_dummies 함수를 이용해 매우 쉽게 인코딩할 수 있다.

In [31]:
print('원본 특성 :\n',list(adult.columns),'\n')
adult_dummies = pd.get_dummies(adult)
print('get_dummies 후의 특성 : \n',list(adult_dummies.columns))

원본 특성 :
 ['age', 'workclass', 'education', 'gender', 'hours-per-week', 'occupation', 'income'] 

get_dummies 후의 특성 : 
 ['age', 'hours-per-week', 'workclass_ ?', 'workclass_ Federal-gov', 'workclass_ Local-gov', 'workclass_ Never-worked', 'workclass_ Private', 'workclass_ Self-emp-inc', 'workclass_ Self-emp-not-inc', 'workclass_ State-gov', 'workclass_ Without-pay', 'education_ 10th', 'education_ 11th', 'education_ 12th', 'education_ 1st-4th', 'education_ 5th-6th', 'education_ 7th-8th', 'education_ 9th', 'education_ Assoc-acdm', 'education_ Assoc-voc', 'education_ Bachelors', 'education_ Doctorate', 'education_ HS-grad', 'education_ Masters', 'education_ Preschool', 'education_ Prof-school', 'education_ Some-college', 'gender_ Female', 'gender_ Male', 'occupation_ ?', 'occupation_ Adm-clerical', 'occupation_ Armed-Forces', 'occupation_ Craft-repair', 'occupation_ Exec-managerial', 'occupation_ Farming-fishing', 'occupation_ Handlers-cleaners', 'occupation_ Machine-op-inspct', 'occupatio

In [34]:
display(adult_dummies.head())

Unnamed: 0,age,hours-per-week,workclass_ ?,workclass_ Federal-gov,workclass_ Local-gov,workclass_ Never-worked,workclass_ Private,workclass_ Self-emp-inc,workclass_ Self-emp-not-inc,workclass_ State-gov,...,occupation_ Machine-op-inspct,occupation_ Other-service,occupation_ Priv-house-serv,occupation_ Prof-specialty,occupation_ Protective-serv,occupation_ Sales,occupation_ Tech-support,occupation_ Transport-moving,income_ <=50K,income_ >50K
0,39,40,0,0,0,0,0,0,0,1,...,0,0,0,0,0,0,0,0,1,0
1,50,13,0,0,0,0,0,0,1,0,...,0,0,0,0,0,0,0,0,1,0
2,38,40,0,0,0,0,1,0,0,0,...,0,0,0,0,0,0,0,0,1,0
3,53,40,0,0,0,0,1,0,0,0,...,0,0,0,0,0,0,0,0,1,0
4,28,40,0,0,0,0,1,0,0,0,...,0,0,0,1,0,0,0,0,1,0


모델을 학습시키기 전에 이 데이터로부터 income으로 시작하는 타깃값을 분리해야한다.<br>
출력값이나 출력값으로부터 유도된 변수를 특성 표현에 포함하는 것은 지도 학습 모델을 만들 때 저지르기 쉬운 실수이다.

In [38]:
# numpy 배열의 슬라이싱은 마지막을 포함하지 않으나 pandas의 슬라이싱은 끝을 포함한다.
features = adult_dummies.loc[:,'age':'occupation_ Transport-moving']

X = features.values
y = adult_dummies['income_ >50K'].values

In [39]:
print(X.shape,y.shape)

(32561, 44) (32561,)


In [40]:
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
X_train,X_test,y_train,y_test = train_test_split(X,y,random_state=0)
logreg = LogisticRegression()
logreg.fit(X_train,y_train)

logreg.score(X_test,y_test)

STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression


0.8067804937968308

pandas의 get_dummies 함수는 숫자 특성을 모두 연속형이라고 생각해 가변수를 만들지 않는다.

In [41]:
demo_df = pd.DataFrame({'숫자 특성':[0,1,2,1],
                       '범주형 특성':['양말','여우','양말','상자']})
display(demo_df)

Unnamed: 0,숫자 특성,범주형 특성
0,0,양말
1,1,여우
2,2,양말
3,1,상자


In [42]:
pd.get_dummies(demo_df)

Unnamed: 0,숫자 특성,범주형 특성_상자,범주형 특성_양말,범주형 특성_여우
0,0,0,1,0
1,1,0,0,1
2,2,0,1,0
3,1,1,0,0


숫자 특성까지 가변수화하고 싶다면 columns 매개변수에 인코딩하고 싶은 열을 명시해야한다. 그러면 두 특성을 모두 범부형으로 간주한다.

In [45]:
demo_df['숫자 특성'] = demo_df['숫자 특성'].astype(str)
pd.get_dummies(demo_df)

Unnamed: 0,숫자 특성_0,숫자 특성_1,숫자 특성_2,범주형 특성_상자,범주형 특성_양말,범주형 특성_여우
0,1,0,0,0,1,0
1,0,1,0,0,0,1
2,0,0,1,0,1,0
3,0,1,0,1,0,0
