In [2]:
import pandas as pd

wine_df = pd.read_csv('./csv/wine.csv', encoding='CP949')

wine_df

Unnamed: 0,alcohol,sugar,pH,class
0,9.4,1.9,3.51,0
1,9.8,2.6,3.20,0
2,9.8,2.3,3.26,0
3,9.8,1.9,3.16,0
4,9.4,1.9,3.51,0
...,...,...,...,...
6492,11.2,1.6,3.27,1
6493,9.6,8.0,3.15,1
6494,9.4,1.2,2.99,1
6495,12.8,1.1,3.34,1


In [3]:
wine_df.columns

Index(['alcohol', 'sugar', 'pH', 'class'], dtype='object')

In [4]:
# 컬럼명 변경
wine_df.rename(columns={
    'alcohol' : '도수', 
    'sugar' : '당도', 
    'pH' : '산도',
    'class' : '타겟'}, inplace=True)

wine_df.columns

Index(['도수', '당도', '산도', '타겟'], dtype='object')

### 피처와 레이블

In [6]:
data = wine_df[['도수', '당도', '산도']]
target = wine_df['타겟']

print(data)
print(target)

        도수   당도    산도
0      9.4  1.9  3.51
1      9.8  2.6  3.20
2      9.8  2.3  3.26
3      9.8  1.9  3.16
4      9.4  1.9  3.51
...    ...  ...   ...
6492  11.2  1.6  3.27
6493   9.6  8.0  3.15
6494   9.4  1.2  2.99
6495  12.8  1.1  3.34
6496  11.8  0.8  3.26

[6497 rows x 3 columns]
0       0
1       0
2       0
3       0
4       0
       ..
6492    1
6493    1
6494    1
6495    1
6496    1
Name: 타겟, Length: 6497, dtype: int64


### 데이터 분리

In [7]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(data, target, test_size=0.3, random_state=42)

In [8]:
print('X 테스트 데이터 : ')
print(X_test)
print('y 테스트 데이터 : ')
print(list(y_test))

X 테스트 데이터 : 
        도수     당도    산도
3103  12.2  12.80  3.26
1419   9.9   2.20  3.27
4761  12.0   7.40  3.18
4690   9.5  11.20  3.12
4032   8.9  13.90  3.11
...    ...    ...   ...
4294  11.3   9.65  3.28
3757  10.6   1.30  3.52
5954  12.7   2.50  3.22
4418  11.4   2.00  3.44
6182   9.3   7.90  2.86

[1950 rows x 3 columns]
y 테스트 데이터 : 
[1, 0, 1, 1, 1, 0, 1, 1, 0, 1, 1, 1, 1, 0, 0, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 1, 0, 1, 0, 1, 0, 0, 1, 1, 1, 0, 1, 1, 0, 1, 1, 0, 0, 1, 0, 0, 1, 0, 1, 1, 0, 1, 1, 1, 1, 1, 0, 1, 1, 1, 0, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 0, 1, 0, 1, 0, 0, 0, 1, 0, 1, 1, 1, 0, 1, 0, 1, 1, 0, 0, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 0, 1, 0, 1, 1, 1, 1, 0, 1, 0, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 1, 0, 1, 0, 1, 1, 0, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 0, 1, 1, 1, 1, 1, 1, 

In [9]:
# 피처, 레이블 데이터 분포 비율

train_cnt = y_train.count()
test_cnt = y_test.count()
print('학습 세트 Shape:{0}, 테스트 세트 Shape:{1}'.format(X_train.shape, X_test.shape))

print(' 학습 세트 레이블 값 분포 비율')
print(y_train.value_counts()/train_cnt)
print('\n 테스트 세트 레이블 값 분포 비율')
print(y_test.value_counts()/train_cnt)

학습 세트 Shape:(4547, 3), 테스트 세트 Shape:(1950, 3)
 학습 세트 레이블 값 분포 비율
1    0.758742
0    0.241258
Name: 타겟, dtype: float64

 테스트 세트 레이블 값 분포 비율
1    0.318452
0    0.110402
Name: 타겟, dtype: float64


### 최적화 전 모델 정확도

In [10]:
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import GradientBoostingClassifier
from xgboost import XGBClassifier
from sklearn.metrics import accuracy_score, roc_auc_score
import numpy as np
import time
import warnings
warnings.filterwarnings('ignore')

lr_clf = LogisticRegression()
dt_clf = DecisionTreeClassifier(random_state=42)
rf_clf = RandomForestClassifier(random_state=42, n_jobs=-1)
gb_clf = GradientBoostingClassifier(random_state=42)
xgb_wrapper = XGBClassifier(n_estimators=300, learning_rate=0.1, max_depth=3)

In [11]:
# LogisticRegression 학습/예측/평가
lr_clf_time = time.time()
lr_clf.fit(X_train, y_train)
lr_pred = lr_clf.predict(X_test)

print('LogisticRegression 정확도: {0:.4f}'.format(accuracy_score(y_test, lr_pred)))
print('LogisticRegression roc_auc: {:0.3f}'.format(roc_auc_score(y_test, lr_pred)))
print('LogisticRegression 수행 시간: {0:.1f} 초'.format(time.time()-lr_clf_time))

LogisticRegression 정확도: 0.7723
LogisticRegression roc_auc: 0.635
LogisticRegression 수행 시간: 0.1 초


In [12]:
# DecisionTreeClassifier 학습/예측/평가
dt_clf_time = time.time()
dt_clf.fit(X_train, y_train)
dt_pred = dt_clf.predict(X_test)

print('\nDecisionTreeClassifier 정확도: {0:.4f}'.format(accuracy_score(y_test, dt_pred)))
print('DecisionTreeClassifier roc_auc: {:0.3f}'.format(roc_auc_score(y_test, dt_pred)))
print('DecisionTree 수행 시간: {0:.1f} 초'.format(time.time()-dt_clf_time))


DecisionTreeClassifier 정확도: 0.8600
DecisionTreeClassifier roc_auc: 0.819
DecisionTree 수행 시간: 0.0 초


In [13]:
# RandomForestClassifier 학습/예측/평가
rf_clf_time = time.time()
rf_clf.fit(X_train, y_train)
rf_pred = rf_clf.predict(X_test)

print('\nRandomForestClassifier 정확도: {0:.4f}'.format(accuracy_score(y_test, rf_pred)))
print('RandomForestClassifier roc_auc: {:0.3f}'.format(roc_auc_score(y_test, rf_pred)))
print('RandomForest 수행 시간: {0:.1f} 초'.format(time.time()-rf_clf_time))


RandomForestClassifier 정확도: 0.8851
RandomForestClassifier roc_auc: 0.851
RandomForest 수행 시간: 0.9 초


In [14]:
# GBM 학습/예측/평가
gb_clf_time = time.time()
gb_clf.fit(X_train, y_train)
gb_pred = gb_clf.predict(X_test)

print('\nGBM 정확도: {0:.4f}'.format(accuracy_score(y_test, gb_pred)))
print('GBM roc_auc: {:0.3f}'.format(roc_auc_score(y_test, gb_pred)))
print('GBM 수행 시간: {0:.1f} 초'.format(time.time()-gb_clf_time))


GBM 정확도: 0.8564
GBM roc_auc: 0.808
GBM 수행 시간: 1.2 초


In [15]:
# XGBClassifier 학습/예측/평가
xgb_wrapper_time = time.time()
xgb_wrapper.fit(X_train, y_train)
xgb_pred = xgb_wrapper.predict(X_test)

print('\nXGBC 정확도: {0:.4f}'.format(accuracy_score(y_test, xgb_pred)))
print('XGBC roc_auc: {:0.3f}'.format(roc_auc_score(y_test, xgb_pred)))
print('XGBC 수행 시간: {0:.1f} 초'.format(time.time()-xgb_wrapper_time))


XGBC 정확도: 0.8621
XGBC roc_auc: 0.823
XGBC 수행 시간: 1.1 초


- 언더피팅인 LogisticRegression은 편향이 적고 분산이 높은 DecisionTreeClassifier 또는 RandomForestClassifier로 극복 가능
- 오버피팅인 모델들은 학습 데이터에서 검증 데이터를 분리해서 극복 가능

## 검증 데이터 분리 및 최적 하이퍼 파라미터 탐색

### KFold

In [16]:
from sklearn.model_selection import KFold
import numpy as np

def exec_kfold(clf, folds=5):
    # 폴드 세트를 5개인 KFold객체 생성
    kfold = KFold(n_splits=folds)
    scores = []
    
    # KFold 교차 검증
    for iter_count, (train_index, test_index) in enumerate(kfold.split(data)):
        X_train, X_test = data.values[train_index], data.values[test_index]
        y_train, y_test = target.values[train_index], target.values[test_index]
        
        clf.fit(X_train, y_train)
        predictions = clf.predict(X_test)
        accuracy = accuracy_score(y_test, predictions)
        scores.append(accuracy)
        print("교차 검증 {0} 정확도: {1:.4f}".format(iter_count, accuracy))
        
    mean_score = np.mean(scores)
    print("평균 정확도: {0:.4f}".format(mean_score))

In [17]:
# Logisticregression KFold
exec_kfold(lr_clf, folds=5)

교차 검증 0 정확도: 0.0062
교차 검증 1 정확도: 0.7900
교차 검증 2 정확도: 0.8022
교차 검증 3 정확도: 0.8938
교차 검증 4 정확도: 0.9338
평균 정확도: 0.6852


In [18]:
# DecisionTree KFold
exec_kfold(dt_clf, folds=5)

교차 검증 0 정확도: 0.2608
교차 검증 1 정확도: 0.8077
교차 검증 2 정확도: 0.8283
교차 검증 3 정확도: 0.8368
교차 검증 4 정확도: 0.8830
평균 정확도: 0.7233


In [19]:
# RandomForest KFold
exec_kfold(rf_clf, folds=5)

교차 검증 0 정확도: 0.2492
교차 검증 1 정확도: 0.8546
교차 검증 2 정확도: 0.8737
교차 검증 3 정확도: 0.8999
교차 검증 4 정확도: 0.9230
평균 정확도: 0.7601


In [20]:
# GBM KFold
exec_kfold(gb_clf, folds=5)

교차 검증 0 정확도: 0.3085
교차 검증 1 정확도: 0.8431
교차 검증 2 정확도: 0.8838
교차 검증 3 정확도: 0.9061
교차 검증 4 정확도: 0.9215
평균 정확도: 0.7726


In [21]:
# XGBC KFold
exec_kfold(xgb_wrapper, folds=5)

교차 검증 0 정확도: 0.2877
교차 검증 1 정확도: 0.8446
교차 검증 2 정확도: 0.8791
교차 검증 3 정확도: 0.9038
교차 검증 4 정확도: 0.9246
평균 정확도: 0.7680


In [22]:
from sklearn.model_selection import KFold

kfold = KFold(n_splits=5)
n_iter=0
cv_accuracy=[]

# 학습 데이터세트의 인덱스는 수가 많아서 생략
for train_index, test_index in kfold.split(data, target):
    n_iter += 1
    
    # 학습 및 검증 레이블 데이터 분포
    label_train = target.iloc[train_index]
    label_test = target.iloc[test_index]
    print('학습 레이블 데이터 분포:\n', label_train.value_counts())
    print('검증 레이블 데이터 분포:\n', label_test.value_counts())

학습 레이블 데이터 분포:
 1    4898
0     299
Name: 타겟, dtype: int64
검증 레이블 데이터 분포:
 0    1300
Name: 타겟, dtype: int64
학습 레이블 데이터 분포:
 1    3897
0    1300
Name: 타겟, dtype: int64
검증 레이블 데이터 분포:
 1    1001
0     299
Name: 타겟, dtype: int64
학습 레이블 데이터 분포:
 1    3599
0    1599
Name: 타겟, dtype: int64
검증 레이블 데이터 분포:
 1    1299
Name: 타겟, dtype: int64
학습 레이블 데이터 분포:
 1    3599
0    1599
Name: 타겟, dtype: int64
검증 레이블 데이터 분포:
 1    1299
Name: 타겟, dtype: int64
학습 레이블 데이터 분포:
 1    3599
0    1599
Name: 타겟, dtype: int64
검증 레이블 데이터 분포:
 1    1299
Name: 타겟, dtype: int64


In [23]:
# DecisionTree KFold
cv_accuracy = []
kfold=KFold(n_splits=5)
n_iter = 0

# 학습 데이터세트의 인덱스는 수가 많아서 생략
for train_index, test_index in kfold.split(data):
    X_train, X_test = data.iloc[train_index], data.iloc[test_index]
    y_train, y_test = target.iloc[train_index], target.iloc[test_index]
    
    # DecisionTree 학습 및 예측
    dt_clf.fit(X_train, y_train)
    pred = dt_clf.predict(X_test)
    n_iter += 1
    
    # 정확도 예측
    accuracy = np.round(accuracy_score(y_test, pred), 4)
    train_size = X_train.shape[0]
    test_size = X_test.shape[0]
    print('\n#{0} 교차 검증 정확도 :{1}, 학습 데이터 크기: {2}, 검증데이터 크기: {3}'.format(n_iter, accuracy, train_size, test_size))
    print('#{0} 검증 세트 인덱스:{1}'.format(n_iter, test_index))
    
    # 학습 및 검증 레이블 데이터 분포
    label_train = target.iloc[train_index]
    label_test = target.iloc[test_index]
    print('학습 레이블 데이터 분포:\n', label_train.value_counts())
    print('검증 레이블 데이터 분포:\n', label_test.value_counts())
    cv_accuracy.append(accuracy)
    
print('\n## 평균 검증 정확도:', np.mean(cv_accuracy))


#1 교차 검증 정확도 :0.2608, 학습 데이터 크기: 5197, 검증데이터 크기: 1300
#1 검증 세트 인덱스:[   0    1    2 ... 1297 1298 1299]
학습 레이블 데이터 분포:
 1    4898
0     299
Name: 타겟, dtype: int64
검증 레이블 데이터 분포:
 0    1300
Name: 타겟, dtype: int64

#2 교차 검증 정확도 :0.8077, 학습 데이터 크기: 5197, 검증데이터 크기: 1300
#2 검증 세트 인덱스:[1300 1301 1302 ... 2597 2598 2599]
학습 레이블 데이터 분포:
 1    3897
0    1300
Name: 타겟, dtype: int64
검증 레이블 데이터 분포:
 1    1001
0     299
Name: 타겟, dtype: int64

#3 교차 검증 정확도 :0.8283, 학습 데이터 크기: 5198, 검증데이터 크기: 1299
#3 검증 세트 인덱스:[2600 2601 2602 ... 3896 3897 3898]
학습 레이블 데이터 분포:
 1    3599
0    1599
Name: 타겟, dtype: int64
검증 레이블 데이터 분포:
 1    1299
Name: 타겟, dtype: int64

#4 교차 검증 정확도 :0.8368, 학습 데이터 크기: 5198, 검증데이터 크기: 1299
#4 검증 세트 인덱스:[3899 3900 3901 ... 5195 5196 5197]
학습 레이블 데이터 분포:
 1    3599
0    1599
Name: 타겟, dtype: int64
검증 레이블 데이터 분포:
 1    1299
Name: 타겟, dtype: int64

#5 교차 검증 정확도 :0.883, 학습 데이터 크기: 5198, 검증데이터 크기: 1299
#5 검증 세트 인덱스:[5198 5199 5200 ... 6494 6495 6496]
학습 레이블 데이터 분포:
 1    3599
0    1599
Nam