### 분류의 성능 평가 지표
- 정확도(Accuracy)
- 오차행렬(Confusion Matrix)
- 정밀도(Precision)
- 재현율(Recall)
- F1 스코어
- ROC AUC

#### 위에 언급된 분류의 성능지표는 이진/멀티 분류 모두 적용되지만 특히 이진분류에서 더욱 중요하게 강조하는 지표이다.

### 정확도
- 정확도는 직관적으로 모델 예측 성능을 나타내는 평가지표.
- 데이터의 구성에 따라 ML모델의 성능을 왜곡할 수 있기 때문에 정확도 수치 하나만 가지고 성능을 평가하지는 않는다.
- ML알고리즘을 적용한 후 예측 정확도가 80%대 였지만 탑승객이 남자인 경우보다 여자인 경우에 생존확률이 높았기 때문에 무조건 성별이 여자인 경우 생존으로, 남자인 경우 사망으로 예측 결과를 예측해도 이와 비슷한 수치가 나올 수 잇다.
- 사이킷런의 BaseEstimator 클래스를 상속받아 아무런 학습 하지 않고 성별에 따라 생존자를 예측하는 단순한 Classifier를 생성한다.
- 사이킷런은 BaseEstimator를 상속받으면 Customized 형태의 Estimator를 개발자가 생성할 수 있다.
- 단순히 Sex 피처가 1이면 0, 그렇지않으면 1로 예측하는 매우 단순한 Classifier.

In [1]:
from sklearn.base import BaseEstimator

class MyDummyClassifier(BaseEstimator):
    # fit() 메소드는 아무것도 학습하지 않는다.
    def fit(self, X, y=None):
        pass
    # predict() 메소드는 단순히 Sex 피처가 1이면 0, 그렇지 않으면 1로 예측
    def predict(self, X):
        pred = np.zeros( (X.shape[0], 1))
        for i in range(X.shape[0]):
            if X['Sex'].iloc[i] == 1:
                pred[i] = 0
            else:
                pred[i] = 1
        return pred
    

- 생성된 MyDummyClassifier를 이용하여 타이타닉 생존자 예측을 수행해본다.


In [2]:
# Null 처리 함수
def fillna(df):
    df['Age'].fillna(df['Age'].mean(),inplace=True)
    df['Cabin'].fillna('N', inplace=True)
    df['Embarked'].fillna('N', inplace=True)
    df['Fare'].fillna(0, inplace=True)
    return df

# 불필요한 속성삭제
def drop_features(df):
    df.drop(['PassengerId','Name','Ticket'], axis=1, inplace=True)
    return df

# 레이블 인코딩
def format_features(df):
    from sklearn.preprocessing import LabelEncoder
    df['Cabin'] = df['Cabin'].str[:1]
    features = ['Cabin', 'Sex', 'Embarked']
    for feature in features:
        le = LabelEncoder()
        le = le.fit(df[feature])
        df[feature] = le.transform(df[feature])
    return df

# 앞에서 설정한 데이터 전처리 함수 호출
def transform_features(df):
    df = fillna(df)
    df = drop_features(df)
    df = format_features(df)
    return df



In [3]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

titanic_df = pd.read_csv("../ch02/train.csv")
y_titanic_df = titanic_df['Survived']
X_titanic_df = titanic_df.drop('Survived',axis=1)
X_titanic_df = transform_features(X_titanic_df)
X_train, X_test, y_train, y_test = train_test_split(X_titanic_df, y_titanic_df, test_size=0.2, random_state=42)



In [4]:
import numpy as np
myclf = MyDummyClassifier()
myclf.fit(X_train, y_train)

mypredictions = myclf.predict(X_test)
print('Dummy Classifier의 정확도는 : {:.4f}'.format(accuracy_score(y_test, mypredictions)))

Dummy Classifier의 정확도는 : 0.7821


- 이렇게 단순한 알고리즘으로 예측해도 78%로 꽤 높은 수치가 나온다.
- 그러므로 정확도를 평가지표로 사용할 때는 신중해야한다.
- 특히 imbalanced 레이블 값 분포에서 ML모델의 성능을 판단할 때 적합한 평가지표가 아니다
- 예를들어 100개의 데이터에 90개의 레이블이 0, 10개만 1이라고 하면 무조건 0으로 예측결과를 반환하는  ML 모델의 경우 정확도가 90%가 된다.
- 예제코드로 확인해 본다.


In [5]:
from sklearn.datasets import load_digits
from sklearn.model_selection import train_test_split
from sklearn.base import BaseEstimator
from sklearn.metrics import accuracy_score
import numpy as np
import pandas as pd

class MyFakeClassifier(BaseEstimator):
    def fit(self, X, y):
        pass
    
    # 입력값으로 들어오는걸 모두 0으로 만들어 반환
    def predict(self, X):
        return np.zeros( (len(X), 1), dtype=bool)
    
digits = load_digits()

y = (digits.target == 7).astype(int)
X_train, X_test, y_train, y_test = train_test_split( digits.data, y, random_state=42)

In [6]:
print('레이블 테스트 세트 크기 :', y_test.shape)
print('테스트 세트 레이블 0과 1의 분포도')
print(pd.Series(y_test).value_counts())

fakeclf = MyFakeClassifier()
fakeclf.fit(X_train, y_train)
fakepred = fakeclf.predict(X_test)
print('모든 예측을 0으로 하여도 정확도는 : {:.3f}'.format(accuracy_score(y_test, fakepred)))

레이블 테스트 세트 크기 : (450,)
테스트 세트 레이블 0과 1의 분포도
0    409
1     41
dtype: int64
모든 예측을 0으로 하여도 정확도는 : 0.909


- 단순히 모두 0 값으로 반환함에도 불구하고 450개의 테스트 데이터 세트에 수행한 예측 정확도는 90%를 넘는다.
- 이처럼 정확도 평가 지표는 불균형한 레이블 데이터 세트에서는 성능 수치로 사용돼서는 안된다.
- 이런 한계점을 극복하기 위해 여러가지 분류지표와 함께 적용한다.
- True/False, Positive/Negative의 오차행렬이 있다.


### 오차행렬  
TN FP  
FN FP  

- 행이 실제 클래스 열이 예측 클래스


- TN : 예측값을 Negative값 0 으로 예측했고 실제 값 역시 Negative 값 0
- FP : 예측값을 Positive값 1 로 예측했는데 실제 값은 Negative 값 0
- FN : 예측값을 Negative값 0 으로 예측했는데 실제 값은 Positive 값 1
- TP : 예측값을 Positive값 1 로 예측했는데 실제 값 역시 Positive 값 1  





#### 위의 MyFakeClassifier의 예측 성능 지표를 오차 행렬로 표현해 본다.


In [7]:
from sklearn.metrics import confusion_matrix

confusion_matrix(y_test, fakepred)

array([[409,   0],
       [ 41,   0]])

- TN은 409
- FP는 0
- FN은 41
- TP는 0


### 정밀도와 재현율
- 정밀도 : TP / (FP+TP)
        예측을 Positive로 한 대상 중에 예측과 실제 값이 Positive로 일치한 데이터의 비율
        Positive 예측 성능을 더욱 정밀하게 측정하기 위한 평가 지표로 양성 예측도라고도 함
- 재현율 : TP / (FN+TP)
        실제 값이 Positive인 대상 중에 예측과 실제 값이 Positive로 일치한 데이터의 비율
        민감도 또는 TPR(True Positive Rate) 라고도 불림
- 재현율이 중요 지표인 경우는 실제 Positive 양성 데이터를 Negative로 잘못 판단하게 되면 업무상 큰 영향이 발생하는 경우
        ex) 실제 Positive인 암 환자를 Positive 양성이 아닌 Negative 음성으로 잘못 판단 했을 경우 
        보험사기와 같은 금융 사기 적발 모델도 재현율이 중요하다. 실제 금융거래 사기인 positive 건을 negative로 잘못 판단하게 되면 회사에 미치는 손해가 크다.
- 보통은 재현율이 정밀도보다 상대적으로 중요한 업무가 많지만 정밀도가 더 중요한 지표인 경우도 있다.
        ex) 스팸메일 여부를 판단하는 모델의 경우 실제 Positive인 스팸 메일을 Negative인 일반 메일로 분류해도 사용자가 불편함을 느끼는 정도지만 그 반대일 경우 메일을 아예 받지 못하게 돼 업무에 차질이 생긴다
        
- 재현율 : 실제 Positive 양성인 데이터 예측을 Negative로 잘못 판단하게 되면 업무상 큰 영향이 발생할 때
- 정밀도 : 실제 Negative 음성인 데이터 예측을 Positive 양성으로 잘못 판단하게 되면 업무상 큰 영향이 발생할 때
- 가장 좋은 성능 평가는 재현율과 정밀도 모두 높은 수치를 얻는 것.
- 사이킷런은 정밀도 계산을 위해 precision_score()를, 재현율 계산을 위해 recall_score()를 API로 제공


In [8]:
# 평가하는 API를 한 번에 호출하는 get_clf_eval() 함수를 작성.
from sklearn.metrics import accuracy_score, precision_score, recall_score, confusion_matrix

def get_clf_eval(y_test, pred):
    confusion = confusion_matrix(y_test, pred)
    accuracy = accuracy_score(y_test, pred)
    precision = precision_score(y_test, pred)
    recall = recall_score(y_test, pred)
    print('오차 행렬')
    print(confusion)
    print("정확도 : {:.4f}, 정밀도 : {:.4f}, 재현율 : {:.4f}".format(accuracy, precision, recall))

In [9]:
# 로지스틱 회귀 기반으로 타이타닉 생존자를 예측하고 평가를 수행
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression

# 원본 데이터를 재로딩, 데이터 가공, 학습 데이터/테스트 데이터 분할
titanic_df = pd.read_csv('../ch02/train.csv')
y_titanic_df = titanic_df['Survived']
X_titanic_df = titanic_df.drop('Survived', axis=1)
X_titanic_df = transform_features(X_titanic_df)

X_train, X_test, y_train, y_test = train_test_split(X_titanic_df, y_titanic_df, test_size=0.2, random_state=11)
lr_clf = LogisticRegression()

lr_clf.fit(X_train, y_train)
pred = lr_clf.predict(X_test)
get_clf_eval(y_test, pred)

오차 행렬
[[108  10]
 [ 14  47]]
정확도 : 0.8659, 정밀도 : 0.8246, 재현율 : 0.7705




### 정밀도/재현율 트레이드 오프
- 정밀도 재현율 어느 한 쪽을 강제로 높이면 다른 하나의 수치는 떨어지기 쉽다. 이를 정밀도 재현율의 트레이드 오프(Trade-off)라고 부른다.
- 사이킷런은 개별 데이터별로 예측 확률을 반환하는 메서드인 predict_proba() 를 제공한다.


In [10]:
pred_proba = lr_clf.predict_proba(X_test)
pred = lr_clf.predict(X_test)
print("pred_proba()결과 shape : {}".format(pred_proba.shape))
print("pred_proba array에서 앞 3개만 샘플로 추출 \n:", pred_proba[:3])

# 예측 확률 array와 예측 결괏값 array를 병합(concatenate)해 예측 확률과 결괏값을 한눈에 확인
pred_proba_result = np.concatenate([pred_proba, pred.reshape(-1, 1)], axis=1)
print('두 개의 class 중에서 더 큰 확률을 클래스 값으로 예측\n', pred_proba_result[:3])

pred_proba()결과 shape : (179, 2)
pred_proba array에서 앞 3개만 샘플로 추출 
: [[0.44935227 0.55064773]
 [0.86335512 0.13664488]
 [0.86429645 0.13570355]]
두 개의 class 중에서 더 큰 확률을 클래스 값으로 예측
 [[0.44935227 0.55064773 1.        ]
 [0.86335512 0.13664488 0.        ]
 [0.86429645 0.13570355 0.        ]]


- predict() 메서드는 predict_proba() 메서드에 기반해 생성된 API 이다.
- 이를 이해하는 것은 사이킷런이 어떻게 정밀도/재현율 트레이드오프를 구현했는지를 이해하는 데 도움을 준다.
- 사이킷런은 분류 결정 임곗값을 조정해 정밀도와 재현율의 성능 수치를 상호 보완적으로 조정할 수 있다.

In [13]:
from sklearn.preprocessing import Binarizer

# Binarizer의 threshold 설정값.
custom_threshold = 0.5

# predict_proba() 반환 값의 두 번째 칼럼, 즉 Positive 클래스 칼럼 하나만 추출해 Binarizer를 적용
pred_proba_1 = pred_proba[:,1].reshape(-1,1)

binarizer = Binarizer(threshold=custom_threshold).fit(pred_proba_1)
custom_predict = binarizer.transform(pred_proba_1)

get_clf_eval(y_test, custom_predict)

오차 행렬
[[108  10]
 [ 14  47]]
정확도 : 0.8659, 정밀도 : 0.8246, 재현율 : 0.7705


- 분류 결정 임곗값을 낮추면 평가 지표가 어떻게 변할까 ?

In [15]:
from sklearn.preprocessing import Binarizer

# Binarizer의 threshold 설정값.
custom_threshold = 0.4

# predict_proba() 반환 값의 두 번째 칼럼, 즉 Positive 클래스 칼럼 하나만 추출해 Binarizer를 적용
pred_proba_1 = pred_proba[:,1].reshape(-1,1)

binarizer = Binarizer(threshold=custom_threshold).fit(pred_proba_1)
custom_predict = binarizer.transform(pred_proba_1)

get_clf_eval(y_test, custom_predict)


오차 행렬
[[97 21]
 [11 50]]
정확도 : 0.8212, 정밀도 : 0.7042, 재현율 : 0.8197


- 임곗값을 낮추니 재현율 값이 올라가고 정밀도가 떨어졌다.
- positive 예측값이 많아지면 상대적으로 재현율 값이 높아진다.
- 양성 예측을 많이 하다 보니 실제 양성을 음성으로 예측하는 횟수가 상대적으로 줄어들기 때문.

In [16]:
# 임곗값을 0.4 에서 0.6까지 0.05씩 증가시키며 평가 지표를 조사해본다.
# 이를 위해 get_eval_by_threshold() 함수를 작성

thresholds = [0.4, 0.45, 0.5, 0.55, 0.6]

def get_eval_by_threshold(y_test, pred_proba_c1, thresholds):
    for custom_threshold in thresholds:
        binarizer = Binarizer(threshold=custom_threshold).fit(pred_proba_c1)
        custom_predict = binarizer.transform(pred_proba_c1)
        print('임곗값 : ', custom_threshold)
        get_clf_eval(y_test, custom_predict)
        
get_eval_by_threshold(y_test, pred_proba[:,1].reshape(-1,1), thresholds)

임곗값 :  0.4
오차 행렬
[[97 21]
 [11 50]]
정확도 : 0.8212, 정밀도 : 0.7042, 재현율 : 0.8197
임곗값 :  0.45
오차 행렬
[[105  13]
 [ 13  48]]
정확도 : 0.8547, 정밀도 : 0.7869, 재현율 : 0.7869
임곗값 :  0.5
오차 행렬
[[108  10]
 [ 14  47]]
정확도 : 0.8659, 정밀도 : 0.8246, 재현율 : 0.7705
임곗값 :  0.55
오차 행렬
[[111   7]
 [ 16  45]]
정확도 : 0.8715, 정밀도 : 0.8654, 재현율 : 0.7377
임곗값 :  0.6
오차 행렬
[[113   5]
 [ 17  44]]
정확도 : 0.8771, 정밀도 : 0.8980, 재현율 : 0.7213


- 임곗값 변화에 따른 평가 지표 값.
- 사이킷런은 이와 유사한 precision_recall_curve() API를 제공.


In [23]:
from sklearn.metrics import precision_recall_curve

# 레이블 값이 1일 때의 예측 확률 추출
pred_proba_class1 = lr_clf.predict_proba(X_test)[:,1]

# 실제값 데이터 세트와 레이블 값이 1일 때의 예측 확률을 precision_recall_curve 인자로 입력
precisions, recalls, thresholds = precision_recall_curve(y_test, pred_proba_class1)
print('반환된 분류 결정 임곗값 배열의 Shape : ', thresholds.shape)

# 반환된 임계값 배열 row가 147건 이므로 샘플로 10건만 추출하되, 임곗값을 15 step으로 추출
thr_index = np.arange(0, thresholds.shape[0], 15)
print('샘플 추출을 위한 임곗값 배열의 index 10개:', thr_index)
print('샘플용 10개의 임곗값 : ', np.round(thresholds[thr_index],2))

# 15 step 단위로 추출된 임계값에 따른 정밀도와 재현율 값
print('샘플 임계값별 정밀도 : ', np.round(precisions[thr_index], 3))
print('샘플 임계값별 재현율 : ', np.round(recalls[thr_index],3))

반환된 분류 결정 임곗값 배열의 Shape :  (147,)
샘플 추출을 위한 임곗값 배열의 index 10개: [  0  15  30  45  60  75  90 105 120 135]
샘플용 10개의 임곗값 :  [0.12 0.13 0.15 0.17 0.26 0.38 0.49 0.63 0.76 0.9 ]
샘플 임계값별 정밀도 :  [0.379 0.424 0.455 0.519 0.618 0.676 0.797 0.93  0.964 1.   ]
샘플 임계값별 재현율 :  [1.    0.967 0.902 0.902 0.902 0.82  0.77  0.656 0.443 0.213]


- 추출된 임곗값 샘플 10개에 해당하는 정밀도 값과 재현율 값을 보면 임곗값이 증가할수록 정밀도 갑승ㄴ 동시에 높아지거나 재현율 값은 낮아짐을 알 수 있다.
