In [1]:
'''

    오차행렬 (confusion matrix)
    
                               예측값
                       negative         positive     
          negative     TN  3              FP  1
  실제값  
          positive     FN  2              TP  6
    
    1) confusion_matrix(y_test,y_pred)
    
    2) 정밀도(precision) vs 재현율(recall)
   
   * 재현율 : recall = (TP) / (TP + FN)
                        재현율을 높이려면 FN 값을 작게 
                        재현율은 업무상 risk 매우큰 경우이다 (맞는 걸 아니라고 예측한 경우)
                        
    
   * 정밀도 : precision = (TP) / (TP + FP)
                        정밀도를 높이려면 FP 값을 낮게
                        재현율보다 덜 중요한 경우이다. (아닌걸 맞다고 예측)
                        예> 스팸메일 
   
   
   * 신뢰 레벨 : confidence score
   => 예측한 것에 대해서 얼마나 확신이 있는지 알려주는 척도
   => 기본 값은 0.5인데 임의로 변경할 수 있다. 
   
        - 덜 엄격해짐                              - 엄격해짐
          정밀도 떨어짐                              정밀도 높아짐
          재현율은 높아짐                            재현율 낮아짐
          
   -----------|------------------- -|-------------------|----------------
             0.2                  0.5               0.8  
   
'''

'\n\n    오차행렬 (confusion matrix)\n    \n    1) confusion_matrix(y_test,y_pred)\n    \n    \n'

In [2]:
import numpy as np

In [3]:
# cancer: 1 (양성)   0 (음성)
y_test = np.array([1,1,1,1,1,1,1,1, 0,0,0,0])
y_pred = np.array([0,0,1,1,1,1,1,1, 1,0,0,0])



In [4]:
y_test.shape, y_pred.shape

((12,), (12,))

### 2. 오차 행렬

In [5]:
from sklearn.metrics import confusion_matrix

In [6]:
c_mat = confusion_matrix(y_test,y_pred)
c_mat

array([[3, 1],
       [2, 6]], dtype=int64)

In [7]:
'''

   y_test = np.array([1,  1,  1,  1,  1,  1,  1,  1, 0, 0, 0, 0])
   y_pred = np.array([0,  0,  1,  1,  1,  1,  1,  1, 1, 0, 0, 0])
                     FN  FN  TP  TP  TP  TP  TP  TP  FP TN TN TN
  
                            예측값
                       negative         positive     
          negative     TN  3              FP  1
  실제값  
          positive     FN  2              TP  6
   
    주의할 점은 positive를 먼저 사용하는 가이드도 있다.
    https://en.wikipedia.org/wiki/Confusion_matrix

'''


'\n\n   y_test = np.array([1,  1,  1,  1,  1,  1,  1,  1, 0, 0, 0, 0])\n   y_pred = np.array([0,  0,  1,  1,  1,  1,  1,  1, 1, 0, 0, 0])\n                     FN  FN  TP  TP  TP  TP  TP  TP  FP TN TN TN\n  \n                            예측값\n                       negative         positive     \n          negative     TN  3              FP  1\n  실제값  \n          positive     FN  2              TP  6\n   \n    주의할 점은 positive를 먼저 사용하는 가이드도 있다.\n    https://en.wikipedia.org/wiki/Confusion_matrix\n\n'

### 3. 정밀도, 정확도, 재현율 출력

### 가. 직접구현

In [8]:
# 정확도 : accuracy = (TN + TP) / (TP + TN + FP + FN)
accuracy = (3 + 6) / (6 + 3 + 1 + 2)

# 정밀도 : precision = (TP) / (TP + FP)
precision = 6 / (6 + 1)

#재현율 : recall = (TP) / (TP + FN)
recall = 6 / (6 + 2)

In [9]:
print('정확도:{}'.format(accuracy))
print('정밀도:{}'.format(precision))
print('재현율:{}'.format(recall))

정확도:0.75
정밀도:0.8571428571428571
재현율:0.75


### 나. 사이킷런 API 

In [24]:
from sklearn.metrics import accuracy_score,precision_score,recall_score,f1_score

In [11]:
accuracy = accuracy_score(y_test,y_pred)
precision = precision_score(y_test,y_pred)
recall = recall_score(y_test,y_pred)

In [13]:
print('정확도:{}'.format(accuracy))
print('정밀도:{}'.format(precision))
print('재현율:{}'.format(recall))

정확도:0.75
정밀도:0.8571428571428571
재현율:0.75


### 분류 알고리즘에서 성능지표 출력하는 함수 

In [25]:
def performance_matrix(y_test,y_pred):
    c_mat = confusion_matrix(y_test,y_pred)
    accuracy = accuracy_score(y_test,y_pred)
    precision = precision_score(y_test,y_pred)
    recall = recall_score(y_test,y_pred)
    print('오차행렬')
    print(c_mat)
    # f1 score : 정밀도와 재현율이 trade off 관계이기 때문에 두 개의 조화가 매우 중요하다. 얼마나 잘 조화되는지를 알려주는 함수
    f1 = f1_score(y_test,y_pred)
    print('정확도:{}'.format(accuracy))
    print('정밀도:{}'.format(precision))
    print('재현율:{}'.format(recall))
    print('f1_score:{}'.format(f1))

In [26]:
performance_matrix(y_test,y_pred)

오차행렬
[[3 1]
 [2 6]]
정확도:0.75
정밀도:0.8571428571428571
재현율:0.75
f1_score:0.7999999999999999
