## 분류(Classification) 성능 평가 지표
- 정확도(Accuracy)
- 오차행렬(Confusion Matrix)
- 정밀도(Precision)
- 재현율(Recall)
- F1 스코어
- ROC AUC

### 정확도
정확도 = 예측 결과가 동일한 데이터 건수 / 전체 예측 데이터 건수
- 정확도는 직관적으로 모델 예측 성능을 나타내는 평가 지표.
- **이진분류**의 경우 데이터의 구성에 따라 ML 모델의 성능을 왜곡할 수 있어 정확도만으로 평가하지 않음.
- 특히 정확도는 **불균형한 레이블 값** 분포에서 성능 판단시 적합한 평가 지표가 아님.

*-> 정확도의 문제점<br>*
타이타닉 생존자 예측에서 여성은 모두 생존으로 판별<br>
불균형한 데이터셋인 MNIST 데이터셋을 multi classification에서 binary classifiction으로 변경<br>
MNIST 데이터셋: 0에서부터 9까지 숫자 데이터들을 픽셀을 데이터해서 가지고 있고, 약간 변경하여 숫자 7인지 아닌지 판별하는 것<br>

## 3-1 Accuracy(정확도)

In [1]:
import numpy as np
from sklearn.base import BaseEstimator

class MyDummyClassifier(BaseEstimator):
    #fit() 메소드는 아무것도 하지 않음
    def fit(self, X, y=None):
        pass
    
    #predict() 메소드는 단순히 Sex feature가 1(남자)이면 0, 그렇지 않으면 1로 예측함
    def predict(self, X):
        pred = np.zeros((X.shape[0], 1))
        for i in range(X.shape[0]):
            if X['Sex'].iloc[i] == 1:
                pred[i] = 0
            else:
                pred[i] = 1
        return pred

In [2]:
import pandas as pd
from sklearn.preprocessing import LabelEncoder

# Null 처리 함수
def fillna(df):
    df['Age'].fillna(df['Age'].mean(),inplace=True)
    df['Cabin'].fillna('N',inplace=True)
    df['Embarked'].fillna('N',inplace=True)
    df['Fare'].fillna(0,inplace=True)
    return df

# 머신러닝 알고리즘에 불필요한 피처 제거
def drop_features(df):
    df.drop(['PassengerId','Name','Ticket'],axis=1,inplace=True)
    return df

# 레이블 인코딩 수행. 
def format_features(df):
    df['Cabin'] = df['Cabin'].str[:1]
    features = ['Cabin','Sex','Embarked']
    for feature in features:
        le = LabelEncoder()
        le = le.fit(df[feature])
        df[feature] = le.transform(df[feature])
    return df

# 앞에서 설정한 Data Preprocessing 함수 호출
def transform_features(df):
    df = fillna(df)
    df = drop_features(df)
    df = format_features(df)
    return df

In [6]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# 원본 데이터를 재로딩, 데이터 가공, 학습데이터/테스트 데이터 분할. 
titanic_df = pd.read_csv('./titanic_train.csv')
y_titanic_df = titanic_df['Survived']
X_titanic_df= titanic_df.drop('Survived', axis=1)
X_titanic_df = transform_features(X_titanic_df)
X_train, X_test, y_train, y_test=train_test_split(X_titanic_df, y_titanic_df, \
                                                  test_size=0.2, random_state=0)

# 위에서 생성한 Dummy Classifier를 이용하여 학습/예측/평가 수행. 
myclf = MyDummyClassifier()
myclf.fit(X_train ,y_train)

mypredictions = myclf.predict(X_test)
print('Dummy Classifier의 정확도는: {0:.4f}'.format(accuracy_score(y_test , mypredictions)))

Dummy Classifier의 정확도는: 0.7877


In [10]:
from sklearn.datasets import load_digits
from sklearn.model_selection import train_test_split
from sklearn.base import BaseEstimator
from sklearn.metrics import accuracy_score
import numpy as np
import pandas as pd

class MyFakeClassifier(BaseEstimator):
    def fit(self,X,y):
        pass
    
    # 입력값으로 들어오는 X 데이터 셋의 크기만큼 모두 0값으로 만들어서 반환
    def predict(self,X):
        return np.zeros( (len(X), 1) , dtype=bool)

# 사이킷런의 내장 데이터 셋인 load_digits( )를 이용하여 MNIST 데이터 로딩
digits = load_digits()

print(digits.data)
print("### digits.data.shape:", digits.data.shape)
print(digits.target)
print("### digits.target.shape:", digits.target.shape)

[[ 0.  0.  5. ...  0.  0.  0.]
 [ 0.  0.  0. ... 10.  0.  0.]
 [ 0.  0.  0. ... 16.  9.  0.]
 ...
 [ 0.  0.  1. ...  6.  0.  0.]
 [ 0.  0.  2. ... 12.  0.  0.]
 [ 0.  0. 10. ... 12.  1.  0.]]
### digits.data.shape: (1797, 64)
[0 1 2 ... 8 9 8]
### digits.target.shape: (1797,)


In [11]:
digits.target == 7

array([False, False, False, ..., False, False, False])

In [12]:
#digits 번호가 7번이면 True이고, 이를 astype(int)로 1로 변환, 7번이 아니면 False이고 0으로 변환
y = (digits.target == 7).astype(int)
X_train, X_test, y_train, y_test = train_test_split(digits.data, y, random_state=11)

In [13]:
# 불균형한 레이블 데이터 분포도 확인. 
print('레이블 테스트 세트 크기 :', y_test.shape)
print('테스트 세트 레이블 0 과 1의 분포도')
print(pd.Series(y_test).value_counts())

# Dummy Classifier로 학습/예측/정확도 평가
fakeclf = MyFakeClassifier()
fakeclf.fit(X_train , y_train)
fakepred = fakeclf.predict(X_test)
print('모든 예측을 0으로 하여도 정확도는:{:.3f}'.format(accuracy_score(y_test , fakepred)))

레이블 테스트 세트 크기 : (450,)
테스트 세트 레이블 0 과 1의 분포도
0    405
1     45
dtype: int64
모든 예측을 0으로 하여도 정확도는:0.900


### 오차행렬
오차행렬 = 이진 분류의 예측 오류가 얼마인지와 더불어 어떠한 유형의 예측 오류가 발생하고 있는지를 함께 나타내는 지표

                                   예측 클래스(predicted class)
                                  Negative(0)         Positive(1)
                    Negative(0)|      TN      |         FP
    실제클래스(Actual Class) -----------------------------------
                    Positive(1)|      FN      |         TP
                
                예측 클래스: model predcit
                실제 클래스: target
                
                Negative(0): 음성 & Positive(1): 양성
                
                TN(True Negative): 예측값을 0으로 예측했고, 실제 값 역시 0
                TP(True Positive): 예측값을 1로 예측했고, 실제 값 역시 1
                
                FN(False Negative): 예측값을 0으로 예측했고, 실제 값은 1
                FP(False Positive): 예측값을 1로 예측했고, 실제 값은 0
                

## 3-2 Confusion Matrix(오차행렬)

In [15]:
from sklearn.metrics import confusion_matrix
#앞 절의 예측 결과인 fakepred와 실제 결과인 y_test의 Confusion Matrix 출력
confusion_matrix(y_test, fakepred)

array([[405,   0],
       [ 45,   0]], dtype=int64)

### 오차 행렬을 통한 정확도 지표 문제점 인지
        TN: 405개 | FP: 0개
        FN: 45개  | TP: 0개
        
        TN: 예측은 Negative(7이 아닌 Digit), 실제는 Negative(7이 아닌 Digit)
        TP: 예측은 Positive(Digit 7), 실제는 Positive(Digit 7)
        
        FN: 예측은 Negiatve(7이 아닌 Digit), 실제는 Positive(Digit 7)
        FP: 예측은 Positive(Digit 7), 실제는 Negative(7이 아닌 Digit)
        
        
- TP: 0, Positive로 예측이 한 건도 성공하지 않았음을 의미
- FP: 0, Positive로 예측 자체를 수행하지 않음을 알 수 있음


- 정확도 = 예측 결과와 실제 값이 동일한 건수/ 전체 데이터 수를 의미한다고 했는데, 이를 사용하여 **(TN + TP) / (TN+FP+FN+TP)**


## 3-3 정밀도(Precision)과 재현율(Recall)
정밀도 = 예측을 Positive로 한 대상 중에 예측과 실제 값이 Positive로 일치한 데이터의 비율을 뜻함
재현율 = 실제 값이 Positive인 대상 중에 예측과 실제 값이 Positive로 일치한 데이터의 비율을 뜻함

- 정밀도: TP/(FP+TP)
- 재현율: TP/(FN+TP)

사이킷런에서는 정밀도는 precision_score(), 재현율은 recall_score() 제공

### MyFakeClassifier의 예측 결과로 정밀도와 재현율 측정

In [16]:
from sklearn.metrics import accuracy_score, precision_score, recall_score
print('정밀도:', precision_score(y_test, fakepred))
print('재현율:', recall_score(y_test, fakepred))

정밀도: 0.0
재현율: 0.0


  _warn_prf(average, modifier, msg_start, len(result))


### 오차행렬, 정확도, 정밀도, 재현율을 한꺼번에 계산하는 함수 생성

In [23]:
from sklearn.metrics import accuracy_score, precision_score, recall_score, confusion_matrix

def get_clf_eval(y_test, pred):
    confusion = confusion_matrix(y_test, pred) #오차행렬
    accuracy = accuracy_score(y_test, pred) #정확도
    precision = precision_score(y_test, pred) #정밀도
    recall = recall_score(y_test, pred) #재현율
    print('오차 행렬')
    print(confusion)
    print('정확도: {0:.4f}, 정확도: {1:.4f}, 재현율:{2:.4f}'.format(accuracy, precision, recall))

In [24]:
import numpy as np
import pandas as pd

from sklearn.model_selection import train_test_split 
from sklearn.linear_model import LogisticRegression
import warnings 
warnings.filterwarnings('ignore')

# 원본 데이터를 재로딩, 데이터 가공, 학습데이터/테스트 데이터 분할. 
titanic_df = pd.read_csv('./titanic_train.csv')
y_titanic_df = titanic_df['Survived']
X_titanic_df= titanic_df.drop('Survived', axis=1)
X_titanic_df = transform_features(X_titanic_df)

X_train, X_test, y_train, y_test = train_test_split(X_titanic_df, y_titanic_df, \
                                                    test_size=0.20, random_state=11)

lr_clf = LogisticRegression(solver='liblinear')

lr_clf.fit(X_train , y_train)
pred = lr_clf.predict(X_test)
get_clf_eval(y_test , pred)

오차 행렬
[[108  10]
 [ 14  47]]
정확도: 0.8659, 정확도: 0.8246, 재현율:0.7705
