In [None]:
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score
from sklearn.model_selection import KFold
from sklearn.model_selection import StratifiedKFold
from sklearn.metrics import classification_report
import numpy as np
import pandas as pd

다중 클래스 분류 문제에서는 클래스별 성능을 평가하는 방법으로 Micro, Macro, Weighted average가 있다

## micro
- 클래스별로 성능 지표를 계산하기 전에 모든 클래스를 하나의 클래스로 간주하고 전체적인 성능 지표를 개선
- 각 샘플이나 예측에 동일한 가중치를 부여하고자 할 때 사용
- 클래스별 데이터 수가 다르더라도 모든 클래스의 성능을 동일하게 고려하기 때문에 클래스별 데이터 수 차이 많이 나는 문제에서 유리

### micro average 계산과정
1. 전체 데이터셋에서 TP, FP, FN, TN 계산
2. 성능지표(Precision, Recall,...)를 전체 데이터셋에 대해 계산

## macro
- 클래스별 성능 지표를 계산한 후 평균을 내는 방식
- 데이터셋이 균등하게 분포되어 있을 때 적합
- 모든 클래스에 동일한 가중치를 부여하여 분류기의 전반적인 성능 평가

### macro average 계산 과정
1. 각 클래스별 TP,FP,FN,TN 계산
2. 성능 지표(Precision, Recall, ...)를 클래스별로 계산
3. 클래스별로 계산된 지표들을 모두 더한 후 클래스 수로 나눔

## weighted
- 각 클래스마다 독립적으로 성능 지표를 계산하고, 이에 대해 각 클래스에 속하는 관측치 개수를 가중치로 이용하여 계산

## 코드

In [None]:
# iris data 불러오기
fold_iris = load_iris()
features = fold_iris.data # iris data(X)
label= fold_iris.target   # iris target(y)

# 모델 설정
result_skfold = StratifiedKFold(n_splits=3)
result_clf = DecisionTreeClassifier(random_state=100)
n_iter = 0 # 3번 진행 예정이니 0 먼저 지정

print("StratifiedKfold를 한 경우의 각 average값 변화 \n")
average = ['micro', 'macro', 'weighted']
for avg in average:
  # 결과 저장 리스트 생성
  cv_accuracy=[]    # accuracy 결과 저장 리스트
  cv_precision=[]   # precision 결과 저장 리스트
  cv_recall=[]      # recall 결과 저장 리스트
  
  print("평균을 {}로 했을 때".format(avg))
  for train_idx, test_idx in result_skfold.split(features, label):
      
      # train/test data 분리
      X_train, X_test = features[train_idx], features[test_idx]
      y_train, y_test = label[train_idx], label[test_idx]
    
      # 학습 진행 및 예측
      result_clf.fit(X_train, y_train)
      pred = result_clf.predict(X_test)
    
      #정확도 관련해서 측정
      n_iter +=1 
      accuracy = np.round(accuracy_score(y_test, pred),3)
      precision = np.round(precision_score(y_test,pred, average=avg),3)
      recall = np.round(recall_score(y_test, pred, average=avg),3)
      print('{}번째 교차검증 정확도 : {}, 교차검증 precision :{}, 교차검증 recall :{}'.format(n_iter, accuracy, precision, recall))
      cv_accuracy.append(accuracy)
      cv_precision.append(precision)
      cv_recall.append(recall)
  n_iter=0

  print('평균 검증 정확도', np.mean(cv_accuracy), np.mean(cv_precision), np.mean(cv_recall),'\n')

StratifiedKfold를 한 경우의 각 average값 변화 

평균을 micro로 했을 때
1번째 교차검증 정확도 : 0.98, 교차검증 precision :0.98, 교차검증 recall :0.98
2번째 교차검증 정확도 : 0.92, 교차검증 precision :0.92, 교차검증 recall :0.92
3번째 교차검증 정확도 : 0.96, 교차검증 precision :0.96, 교차검증 recall :0.96
평균 검증 정확도 0.9533333333333333 0.9533333333333333 0.9533333333333333 

평균을 macro로 했을 때
1번째 교차검증 정확도 : 0.98, 교차검증 precision :0.981, 교차검증 recall :0.979
2번째 교차검증 정확도 : 0.92, 교차검증 precision :0.919, 교차검증 recall :0.919
3번째 교차검증 정확도 : 0.96, 교차검증 precision :0.961, 교차검증 recall :0.961
평균 검증 정확도 0.9533333333333333 0.9536666666666666 0.953 

평균을 weighted로 했을 때
1번째 교차검증 정확도 : 0.98, 교차검증 precision :0.981, 교차검증 recall :0.98
2번째 교차검증 정확도 : 0.92, 교차검증 precision :0.92, 교차검증 recall :0.92
3번째 교차검증 정확도 : 0.96, 교차검증 precision :0.96, 교차검증 recall :0.96
평균 검증 정확도 0.9533333333333333 0.9536666666666666 0.9533333333333333 

