## 머신러닝의 평가
* 일반적으로 머신러닝은 
    + 데이터 가공/변환(전처리)
    + 모델 학습/예측
    + 평가의 과정을 거침
* 앞의 타이타닉 예제에서 모델의 평가는 **정확도**만 사용했음
* 한편, 머신러닝의 예측성능의 평가방법은 다양함
    + 회귀 - R^2, MSE평균제곱오차
    + 분류 - 혼동(오차)행렬, 크로스엔트로피, 최대우도, ROC, AUC, F1스코어

## 정확도의 함정
* 앞의 타이타닉 생존자 ML예제의 정확도는 평균 80%였음
* 그런데 정확도 지표만으로 ML 모델의 성능을 파악하기에는 다소 문제가 있음 - 왜곡의 위험
* 즉, 탐색적 분석을 시행했을때 성별을 기준으로 생존비율은 여성일 때가 더 높았음
* 따라서, 굳이 ML 알고리즘을 적용하지 않아도 성별이 여성일 경우 생존, 남성일 경우 사망이라고 예측해도 크게 무리 없음
* 단순히 성별 조건 하나만 적용해도 별거 아닌 알고리즘으로도 높은 정확도가 나타나는 상황 발생

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import sklearn

In [2]:
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import MinMaxScaler
from sklearn.preprocessing import LabelEncoder

from sklearn.model_selection import train_test_split
from sklearn.model_selection import cross_val_score

from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier

from sklearn.metrics import accuracy_score

### 가짜 분류기 생성
- 성별이 남자면 사망
- 성별이 여자면 생존이라고 예측하는 더미분류기 생성

In [3]:
from sklearn.base import BaseEstimator

class MyDummyClassifier(BaseEstimator):
    # 아무것도 학습하지 않는 fit 메서드 정의
    def fit(self, X, y=None):
        pass

    # 성별이 1(남성)이면 0(사망), 0이면 1
    def predict(self, X):
        pred = np.zeros((X.shape[0], 1))
        # 입력데이터 크기만큼 0으로 채워진 1차원 행렬 생성

        for i in range(X.shape[0]):
            if X['gender'].iloc[i] != 1:
                pred[i] = 1
            # 성별이 여성인 경우 1로 설정

        return pred

### 가짜분류기 테스트

In [4]:
titanic = pd.read_csv('../data/titanic2b.csv')

data = titanic.iloc[:, [0, 3, 4, 5, 9, 10, 11]]
target = titanic.survived

In [5]:
scaler = StandardScaler()
scaler.fit(data)
data2 = scaler.transform(data)

# 훈련, 평가 데이터 분할
X_train, X_test, y_train, y_test = train_test_split(data, target, test_size=0.3,
                     random_state=2208241235)

In [6]:
dmyclf = MyDummyClassifier()
dmyclf.fit(X_train, y_train)
pred = dmyclf.predict(X_test)

accuracy_score(y_test, pred)

0.7525510204081632

In [7]:
X_train.gender.value_counts()

1    583
0    331
Name: gender, dtype: int64

In [8]:
X_test.gender.value_counts()

1    259
0    133
Name: gender, dtype: int64

In [9]:
# 즉, 이렇게 단순한 알고리즘만으로 예측하더라도
# 데이터의 구성에 따라 정확도가 약 76%가 나옴
# 불균형한 레이블의 비율()에서는 
# 정확도 지표로 모델 성능을 평가하는 것은 올바르지 않음

# 예를 들어, 100개의 종속변수 중 90개의 레이블 0이고, 10개의 레이블이 1인 경우, 
# 무조건 0으로 예측결과를 반환하는 머신러닝 알고리즘의 정확도는 90%임!
# 즉, 선생님이 시험 정답지의 답을 1로만 작성한 경우, 
# 학생이 1로 찍기만 해도 100점을 맞는 경우와 비슷한 상황임!

# 따라서, 불균형한 레이블 데이터세트의 성능수치로
# 정확도 평가지표를 사용하면 안됨
# 이러한 한계를 극복하기 위해 오차행렬 사용
# 특히, 정확도보다는 정밀도, 재현율을 더 선호

### 오차행렬

In [10]:
from sklearn.metrics import confusion_matrix

confusion_matrix(y_test, pred)

array([[203,  41],
       [ 56,  92]])

In [11]:
from sklearn.metrics import classification_report

print( classification_report(y_test, pred) )

              precision    recall  f1-score   support

         0.0       0.78      0.83      0.81       244
         1.0       0.69      0.62      0.65       148

    accuracy                           0.75       392
   macro avg       0.74      0.73      0.73       392
weighted avg       0.75      0.75      0.75       392



## 정확도accuracy
* 맞는 것을 맞다고, 틀린 것을 틀리다고 올바르게 예측한 것
* $ accuracy = \frac {TP + TN} {TP + FN + FP + TN} $
* 혼동행렬 대각선 부분

In [12]:
(203 + 92) / (203 + 41 + 56 + 92)

0.7525510204081632

## 정밀도Precision
* **모델의 예측값**이 얼마나 올바른지 알아봄
* $precision = \frac {TP} {TP+FP}$
* 혼동행렬 1열 부분

In [13]:
203/(203+56)

0.7837837837837838

## 재현율Recall
* 맞는 것 중 맞다고 예측된 것들의 비율
* 민감도Sensitivity(통계학), 적중률hit rate(마케팅)
* $recall = \frac {TP} {TP+FN}$
* 혼동행렬 1행 부분

In [14]:
203/(203+41)

0.8319672131147541

## 특이도Specificity
* 틀린 것 중 틀리다고 예측된 것들의 비율
* (FP) / (TN+FP)
* 혼동행렬의 2행 부분

In [15]:
56 / (56+92)

0.3783783783783784

### 간단예제
- 6마리의 동물형상 중 개p/고양이n를 맞추는 게임을 진행

In [21]:
# 정답 = [개     개     개 고양이 개     고양이]
# 예측 = [개     고양이 개 고양이 개     개    ]

In [17]:
#         predict
# actual  [3  1]
#         [1  1]

In [None]:
# 정확도 : 나의 예측이 얼마나 정확한가
# 예측 -개를 개라고, 고양이를 고양이라고 말하는 것
4 / 6

0.6666666666666666

In [22]:
# 정밀도 : 내가 참(개를 개라고)이라고 예측한 것이 얼마나 잘 맞았냐?
# 내가 개라고 예측한 거 : 1,3,5,6
# 실제 개는 : 1,2,3,5
3/4

0.75

In [19]:
y_test = ['개', '개', '개', '고양이', '개', '고양이']
pred = ['개', '고양이', '개', '고양이', '개', '개' ]
confusion_matrix(y_test, pred)

array([[3, 1],
       [1, 1]])

In [24]:
# 재현율 : 전체 참중에서 내가 참이라 예측한 것은?
# 실제 개는 : 1,2,3,5
# 이중에서 내가 개라고 '맞춘'것은 : 1,3,5
3/4

0.75

In [31]:
from sklearn.metrics import recall_score
from sklearn.metrics import precision_score

print(accuracy_score (y_test, pred))
print(precision_score(y_test, pred, average=None))
print(recall_score(y_test, pred, average=None))

0.6666666666666666
[0.75 0.5 ]
[0.75 0.5 ]


In [30]:
print(classification_report(y_test, pred))

              precision    recall  f1-score   support

           개       0.75      0.75      0.75         4
         고양이       0.50      0.50      0.50         2

    accuracy                           0.67         6
   macro avg       0.62      0.62      0.62         6
weighted avg       0.67      0.67      0.67         6



In [16]:
# 노래하는 모습을 보고 음치를 찾아봄
# 정답 = [음치,음치,음치,음치,정상,정상]
# 예측 = [음치,음치,정상,정상,정상,정상]

## 정밀도/재현율 trade-off
* 분류하는 업무의 특성상 정밀도 또는 재현율이 특별히 강조되어야 하는 경우(특히 임상의료) 
* 결정 임계값을 조정하면 정밀도 또는 재현율을 높일 수 있음
     + 즉, 이진분류에서 0 또는 1로 판정할 기준값을 의미
     + 임계값을 0.5로 정하는 경우 기준값보다 확률이 크면 positive, 작으면 negative로 결정
* 한편, 정밀도와 재현율은 상호보완적인 지표이기때문에, 
* 어느 한쪽을 올리면 다른 한쪽은 떨어지는 관계를 뜀