In [15]:
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, precision_score, recall_score
from sklearn.model_selection import KFold, StratifiedKFold
from sklearn.metrics import classification_report
import numpy as np
import pandas as pd

iris=load_iris()
iris_data=iris.data
label=iris.target

iris_df=pd.DataFrame(data=iris_data,columns=iris.feature_names)
iris_df['target']=label

iris_df

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,2
146,6.3,2.5,5.0,1.9,2
147,6.5,3.0,5.2,2.0,2
148,6.2,3.4,5.4,2.3,2


## average 종류
### micro
- 전체의 값들의 평균
- 각 샘플에 동일한 가중치를 적용하려는 경우 유용

In [16]:
skf_iris=StratifiedKFold(n_splits=3)
result_clf = DecisionTreeClassifier(random_state=100)
n_iter=0

cv_accuracy=[]
cv_precision=[]
cv_recall=[]

for train_idx, test_idx in skf_iris.split(iris_data, label):
    X_train, X_test = iris_data[train_idx], iris_data[test_idx]
    y_train, y_test = label[train_idx], label[test_idx]
    
    #학습을 진행
    result_clf.fit(X_train, y_train)
    #예측
    pred = result_clf.predict(X_test)
    
    #정확도 관련해서 측정
    n_iter +=1 
    accuracy = np.round(accuracy_score(y_test, pred),3)
    precision = np.round(precision_score(y_test,pred, average='micro'),3)
    recall = np.round(recall_score(y_test, pred, average='micro'),3)
    print('\n{} 교차검증 정확도 : {}, 교차검증 precision :{}, 교차검증 recall :{}'.format(n_iter, accuracy, precision, recall))
    cv_accuracy.append(accuracy)
    cv_precision.append(precision)
    cv_recall.append(recall)
    
print('\n')
print('\n 평균 검증 정확도', np.mean(cv_accuracy), np.mean(cv_precision), np.mean(cv_recall))


1 교차검증 정확도 : 0.98, 교차검증 precision :0.98, 교차검증 recall :0.98

2 교차검증 정확도 : 0.92, 교차검증 precision :0.92, 교차검증 recall :0.92

3 교차검증 정확도 : 0.96, 교차검증 precision :0.96, 교차검증 recall :0.96



 평균 검증 정확도 0.9533333333333333 0.9533333333333333 0.9533333333333333


### macro
- 평균들의 평균, 클래스 별 결과를 통합시킨 후 클래스의 개수로 나누기
- 전체 성능을 평가하기 위해 모든 클래스에 동일한 가중치를 부여

In [17]:
skf_iris=StratifiedKFold(n_splits=3)
result_clf = DecisionTreeClassifier(random_state=100)
n_iter=0

cv_accuracy=[]
cv_precision=[]
cv_recall=[]

for train_idx, test_idx in skf_iris.split(iris_data, label):
    X_train, X_test = iris_data[train_idx], iris_data[test_idx]
    y_train, y_test = label[train_idx], label[test_idx]
    
    #학습을 진행
    result_clf.fit(X_train, y_train)
    #예측
    pred = result_clf.predict(X_test)
    
    #정확도 관련해서 측정
    n_iter +=1 
    accuracy = np.round(accuracy_score(y_test, pred),3)
    precision = np.round(precision_score(y_test,pred, average='macro'),3)
    recall = np.round(recall_score(y_test, pred, average='macro'),3)
    print('\n{} 교차검증 정확도 : {}, 교차검증 precision :{}, 교차검증 recall :{}'.format(n_iter, accuracy, precision, recall))
    cv_accuracy.append(accuracy)
    cv_precision.append(precision)
    cv_recall.append(recall)
    
print('\n')
print('\n 평균 검증 정확도', np.mean(cv_accuracy), np.mean(cv_precision), np.mean(cv_recall))


1 교차검증 정확도 : 0.98, 교차검증 precision :0.981, 교차검증 recall :0.979

2 교차검증 정확도 : 0.92, 교차검증 precision :0.919, 교차검증 recall :0.919

3 교차검증 정확도 : 0.96, 교차검증 precision :0.961, 교차검증 recall :0.961



 평균 검증 정확도 0.9533333333333333 0.9536666666666666 0.953


### weighted
- 실제 인스턴스 수에 따라 각 클래스의 점수에 가중치를 부여하여 계산
- 클래스 불균형을 다룰 때 유용

In [18]:
skf_iris=StratifiedKFold(n_splits=3)
result_clf = DecisionTreeClassifier(random_state=100)
n_iter=0

cv_accuracy=[]
cv_precision=[]
cv_recall=[]

for train_idx, test_idx in skf_iris.split(iris_data, label):
    X_train, X_test = iris_data[train_idx], iris_data[test_idx]
    y_train, y_test = label[train_idx], label[test_idx]
    
    #학습을 진행
    result_clf.fit(X_train, y_train)
    #예측
    pred = result_clf.predict(X_test)
    
    #정확도 관련해서 측정
    n_iter +=1 
    accuracy = np.round(accuracy_score(y_test, pred),3)
    precision = np.round(precision_score(y_test,pred, average='weighted'),3)
    recall = np.round(recall_score(y_test, pred, average='weighted'),3)
    print('\n{} 교차검증 정확도 : {}, 교차검증 precision :{}, 교차검증 recall :{}'.format(n_iter, accuracy, precision, recall))
    cv_accuracy.append(accuracy)
    cv_precision.append(precision)
    cv_recall.append(recall)
    
print('\n')
print('\n 평균 검증 정확도', np.mean(cv_accuracy), np.mean(cv_precision), np.mean(cv_recall))


1 교차검증 정확도 : 0.98, 교차검증 precision :0.981, 교차검증 recall :0.98

2 교차검증 정확도 : 0.92, 교차검증 precision :0.92, 교차검증 recall :0.92

3 교차검증 정확도 : 0.96, 교차검증 precision :0.96, 교차검증 recall :0.96



 평균 검증 정확도 0.9533333333333333 0.9536666666666666 0.9533333333333333
