<a href="https://colab.research.google.com/github/choihana/machine-learning/blob/master/Evaluation_Metric.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#머신러닝 알고리즘 모델 성능 평가 방법

### 1. 분류 문제에서 사용하는 측정 공식

Confusion Matrix (오차행렬)

---

[예측,실제] 
*   TN (True Negative) [False, False] (정답)
*   FN (False Negative) [False, True] (오답) 
*   FP (False Positive) [True, False] (오답)
*   TP (True Posivie) [True, True] (정답)


---

1. 정확도 (Accuracy): 전체 데이터중 정답을 맞춘 비율이 얼마나 되는가 

> accuracy = (TN + TP ) / (TN + FN + FP + TP)

> TN, TP 가 클수록 좋음

2. 정밀도 (Precision): Positive (True)라고 예측한 값중에 실제로 True인 데이터 비율 

> Precision = TP / ( TP + FP )

> FP 를 줄여야 해 - True라고 했는데 아닌경우 , 따라서 맞다고했는데 결과가 아닐때 치명적인 경우에 사용

ex. 

1) 스팸문자: 스팸이라고 해서 중요한 편지 못보낸 경우

2) 이직 확률 채용반영: 이직할 확률 높다고 판단하고 채용 안하는 경우 
> 실제 이직할거라고 예측한 사람중 실제 이직하는 사람의 비율이 크면 사용하기에 적합하며 아니라면 사용하지 말아야함

3. 재현율 (Recall): 실제 값이 Positive (True) 중, 실제와 예측이 같은 데이터의 비율

> Recall = TP / (TP + FN)

> FN 줄여야해 - False 라고 했는데 True인 경우 , 따라서 아니라고 했는데 실제 맞는 경우에 치명적일 때 사용 

ex.

1) 암 검진: 암 아니라고 했는데, 맞을 경우

2) 강수 확률: 비 안온다고 했는데, 비 올 경우









In [0]:
from sklearn.metrics import confusion_matrix
from sklearn.metrics import accuracy_score
from sklearn.metrics import precision_score
from sklearn.metrics import recall_score

In [0]:
import numpy as np
np.random.seed(123)

In [4]:
#0,1로 구성된 랜덤 리스트
y_true = np.random.randint(low=0,high=2,size=20)
y_pred = np.random.randint(low=0,high=2,size=20)
print(y_true)
print(y_pred)

[0 1 0 0 0 0 0 1 1 0 1 1 0 1 0 1 0 1 1 0]
[0 0 1 1 1 0 1 0 0 0 0 1 1 1 0 0 1 0 0 1]


In [5]:
confusion_matrix(y_true,y_pred)

array([[4, 7],
       [7, 2]])

In [0]:
TN,FN,FP,TP = confusion_matrix(y_true,y_pred).ravel()

In [8]:
print(TN,FN,FP,TP)

4 7 7 2


In [10]:
#정확도
print((TN+TP)/(TN+TP+FN+FP))
print(accuracy_score(y_true,y_pred))

0.3
0.3


In [11]:
#정밀도
print(TP/(FP+TP))
print(precision_score(y_true,y_pred))

0.2222222222222222
0.2222222222222222


In [12]:
#재현율
print(TP/(FN+TP))
print(recall_score(y_true,y_pred))

0.2222222222222222
0.2222222222222222
