In [3]:
# ch4-2.py
import pandas as pd
import numpy as np

import warnings
warnings.filterwarnings(module='sklearn*', action='ignore', category=DeprecationWarning)

In [4]:
# 데이터로드 (ch4-2(붓꽃데이터).csv : 데이터 원본 파일)
# encoding : 윈도우즈 환경에서의 한글 처리
# engine : python 3.6에서 한글이 포함된 파일이름 사용
rawData_org = pd.read_csv('datasets/국민건강정보/NHIS_OPEN_GJ_2017.csv', encoding='CP949', engine='python')

In [5]:
# 원본데이터의 튜플 수와 컬럼수 출력
rawData_org.shape

(1000000, 34)

In [6]:
# 의사결정트리에 사용할 속성리스트
feature_columns_to_use = ['성별코드', '연령대코드(5세단위)', '신장(5Cm단위)', '체중(5Kg 단위)', '허리둘레', '시력(좌)', '시력(우)',
                    '청력(좌)', '청력(우)', '수축기혈압', '이완기혈압', '식전혈당(공복혈당)', '트리글리세라이드', 'HDL콜레스테롤',
                    'LDL콜레스테롤', '요단백', '혈청크레아티닌', '(혈청지오티)AST', '(혈청지오티)ALT', '감마지티피', '흡연상태', '음주여부']

rawData = rawData_org[feature_columns_to_use]

In [7]:
# 속성값이 NULL인 튜플 제외
rawData = rawData.dropna()

# 인덱스 재설정
rawData.reset_index(inplace=True, drop=True)

# 원본데이터의 튜플 수와 컬럼수 출력
rawData.shape

(990910, 22)

In [8]:
import random as rd  # 샘플링을 위한 random 패키지 임포트

# 1) 샘플링을 통한 수량 축소
# 원본데이터 중 50,000개를 튜플만 샘플링
# len() : 데이터프레임의 크기를 구하는 함수
sample_idx = rd.sample(range(0, len(rawData)), 50000)

# 인덱스 값 정렬(오름차순)
sample_idx.sort()

sample_idx

[8,
 58,
 134,
 181,
 219,
 242,
 244,
 249,
 258,
 281,
 286,
 294,
 302,
 324,
 350,
 360,
 381,
 387,
 390,
 392,
 401,
 423,
 450,
 475,
 484,
 516,
 523,
 526,
 563,
 564,
 590,
 610,
 619,
 643,
 667,
 702,
 711,
 713,
 720,
 774,
 803,
 814,
 816,
 839,
 869,
 883,
 889,
 898,
 924,
 929,
 958,
 960,
 978,
 996,
 1035,
 1068,
 1074,
 1087,
 1092,
 1140,
 1146,
 1161,
 1171,
 1175,
 1189,
 1199,
 1220,
 1223,
 1239,
 1248,
 1252,
 1320,
 1332,
 1335,
 1341,
 1365,
 1378,
 1440,
 1535,
 1539,
 1549,
 1590,
 1614,
 1642,
 1668,
 1695,
 1708,
 1734,
 1746,
 1768,
 1780,
 1784,
 1841,
 1848,
 1860,
 1881,
 1895,
 1908,
 1981,
 1986,
 1991,
 1998,
 2002,
 2040,
 2061,
 2179,
 2188,
 2219,
 2234,
 2241,
 2243,
 2290,
 2355,
 2398,
 2399,
 2411,
 2414,
 2446,
 2452,
 2473,
 2488,
 2500,
 2503,
 2506,
 2552,
 2553,
 2661,
 2663,
 2677,
 2679,
 2717,
 2737,
 2750,
 2766,
 2798,
 2807,
 2811,
 2832,
 2835,
 2843,
 2852,
 2870,
 2873,
 2877,
 2915,
 2944,
 3053,
 3100,
 3104,
 3118,
 3121,


In [9]:
# 샘플링 된 인덱스로 구성된 샘플 데이터프레임 생성
rawData_sample = rawData.loc[sample_idx]

rawData_sample.reset_index(inplace=True, drop=True) #  인덱스 재설정

# 첫 10개의 행만 출력
rawData_sample.head(10)

Unnamed: 0,성별코드,연령대코드(5세단위),신장(5Cm단위),체중(5Kg 단위),허리둘레,시력(좌),시력(우),청력(좌),청력(우),수축기혈압,...,트리글리세라이드,HDL콜레스테롤,LDL콜레스테롤,요단백,혈청크레아티닌,(혈청지오티)AST,(혈청지오티)ALT,감마지티피,흡연상태,음주여부
0,1,8,170.0,80.0,93.0,0.7,0.9,1.0,1.0,115.0,...,185.0,32.0,89.0,1.0,1.0,31.0,29.0,51.0,2.0,0.0
1,1,9,175.0,80.0,84.0,1.2,1.0,1.0,1.0,130.0,...,97.0,52.0,127.0,1.0,1.1,29.0,22.0,25.0,2.0,1.0
2,1,6,175.0,60.0,68.0,0.8,0.7,1.0,1.0,124.0,...,79.0,44.0,119.0,1.0,1.1,23.0,32.0,19.0,1.0,1.0
3,1,9,160.0,55.0,69.0,1.2,1.0,1.0,1.0,100.0,...,125.0,45.0,133.0,1.0,1.0,18.0,16.0,26.0,3.0,0.0
4,2,10,150.0,50.0,72.0,1.5,1.5,1.0,1.0,130.0,...,86.0,68.0,108.0,1.0,0.7,16.0,10.0,9.0,1.0,1.0
5,1,10,170.0,90.0,94.0,1.5,1.2,1.0,1.0,132.0,...,225.0,37.0,132.0,1.0,0.9,34.0,52.0,76.0,3.0,1.0
6,1,14,160.0,55.0,83.0,1.2,1.2,1.0,1.0,118.0,...,50.0,62.0,103.0,1.0,0.8,29.0,21.0,14.0,1.0,1.0
7,1,10,170.0,75.0,84.0,0.8,1.2,1.0,1.0,126.0,...,223.0,38.0,103.0,1.0,1.0,24.0,24.0,26.0,1.0,0.0
8,2,11,155.0,55.0,70.0,1.2,1.0,1.0,1.0,117.0,...,67.0,83.0,63.0,1.0,0.5,57.0,79.0,22.0,1.0,0.0
9,2,11,155.0,55.0,71.0,1.0,0.9,1.0,1.0,130.0,...,46.0,68.0,83.0,1.0,0.8,25.0,32.0,19.0,1.0,0.0


In [10]:
rawData_sample.shape

(50000, 22)

In [11]:
# nonnumeric 속성을 categrical 데이터로 변환
nonnumeric_columns = ['성별코드','음주여부']

from sklearn.preprocessing import LabelEncoder

le = LabelEncoder()
for feature in nonnumeric_columns:
    rawData_sample[feature] = le.fit_transform(rawData_sample[feature])   

In [12]:
# 소스 데이터프레임에서 분류(classification)을 위한 속성 집합
X = rawData_sample.loc[:, feature_columns_to_use[:-1]]  
y = rawData_sample.loc[:, '음주여부']  # 분류 클래스(class)

from sklearn.model_selection import train_test_split  # 분석모형 선택에 관련된 모듈
    
# 자동으로 데이터셋을 트레이닝셋과 테스트셋으로 분리해주는 함수로
# 트레이닝셋과 데이터셋의 비율을 7:3으로 세팅함
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=0)

In [13]:
# RMSLE 계산하는 사용자정의 함수
from sklearn.metrics import make_scorer

def rmsle(predicted_values, actual_values) :
    # 넘파이로 배열 형태로 변환
    predicted_values = np.array(predicted_values)
    actual_values = np.array(actual_values)
    
    # 예측값과 실제값에 1을 더하고 로그를 씌움
    log_predict = np.log(predicted_values + 1)
    log_actual = np.log(actual_values + 1)
    
    # 위에서 계산한 예측값에서 실제값을 빼주고 제곱을 함
    difference = log_predict - log_actual
    # difference = (log_predict - log_actual) ** 2
    difference = np.square(difference)
    
    # 평균값 구함
    mean_difference = difference.mean()
    
    # 다시 루트를 씌움
    score = np.sqrt(mean_difference)
    
    return score

rmsle_scorer = make_scorer(rmsle)
rmsle_scorer

make_scorer(rmsle)

In [14]:
# Scikit-Learn 패키지 : 머신 러닝 교육 및 실무를 위한 패키지로 샘플 데이터셋,
# 다양한 기계학습 기법에 대한 함수 등을 포함하고 있음
import xgboost as xgb # xgboost 기법에 관련된 모듈

gbm = xgb.XGBClassifier(max_depth=4, n_estimators=300, learning_rate=0.05)

gbm

XGBClassifier(base_score=None, booster=None, colsample_bylevel=None,
              colsample_bynode=None, colsample_bytree=None, gamma=None,
              gpu_id=None, importance_type='gain', interaction_constraints=None,
              learning_rate=0.05, max_delta_step=None, max_depth=4,
              min_child_weight=None, missing=nan, monotone_constraints=None,
              n_estimators=300, n_jobs=None, num_parallel_tree=None,
              random_state=None, reg_alpha=None, reg_lambda=None,
              scale_pos_weight=None, subsample=None, tree_method=None,
              validate_parameters=None, verbosity=None)

In [15]:
# KFold 교차검증
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score

k_fold = KFold(n_splits=10, shuffle=True, random_state=0)

# 트레이닝셋에 대한 KFold 교차검증 수
%time score = cross_val_score(gbm, X_train, y_train, cv=k_fold, scoring=rmsle_scorer)
score = score.mean()

# 0에 근접할수록 좋은 데이터
print("Score= {0:.5f}".format(score))



Wall time: 1min 6s
Score= 0.35792


In [16]:
# fit() : 트레이닝 데이터셋을 대상으로 의사결정트리 학습 진행
gbm.fit(X_train, y_train)

# tree.predict() 함수를 활용하여 의사결정트리를 대상으로 테스트셋을 예측
y_pred_tr = gbm.predict(X_test)



In [17]:
# 점수 출력
print("Train Set Score1 : {:.2f}".format(gbm.score(X_train, y_train)))
print("Test Set Score1 : {:.2f}".format(gbm.score(X_test, y_test)))

Train Set Score1 : 0.76
Test Set Score1 : 0.74


In [18]:
from sklearn.metrics import accuracy_score  # 분류 정확도(classification accuracy)를 계산하는 모듈

# accuracy_score() 함수를 활용하여 테스트셋 의 실제 클래스와 예측된 클래스 간 정확도 측정
print('Accuracy: %.2f' % accuracy_score(y_test, y_pred_tr))

Accuracy: 0.74


In [19]:
# 속성(feature) 별 중요도를 저장하는 데이터프레임 생성 
sel_feature = pd.DataFrame({'중요도' : gbm.feature_importances_}, index = feature_columns_to_use[:-1])

# 중요도의 내림차순으로 정렬
sel_feature.sort_values(by='중요도', ascending=False)

Unnamed: 0,중요도
성별코드,0.397211
흡연상태,0.271551
연령대코드(5세단위),0.092248
신장(5Cm단위),0.051273
감마지티피,0.045715
HDL콜레스테롤,0.024908
(혈청지오티)ALT,0.013449
체중(5Kg 단위),0.010106
LDL콜레스테롤,0.009905
혈청크레아티닌,0.00961


In [20]:
######## 예) 여기서 10개만 자른다