# 머신러닝 평가지표
- section 1 : 이진 분류 평가지표
- section 2 : 다중 분류 평가지표
- section 3 : 회귀 평가지표

## Section.1 이진 분류 평가지표


In [2]:
import pandas as pd

y_true = pd.DataFrame([1,1,1,0,0,1,1,1,1,0])
y_pred = pd.DataFrame([1,0,1,1,0,0,0,1,1,0])

y_true_str = pd.DataFrame(['A','A','A','B','B','A','A','A','A','B'])
y_pred_str = pd.DataFrame(['A','B','A','A','B','B','B','A','A','B'])


### 정확도
- 정확도는 전체 데이터 중에서 올바르게 예측된 데이터의 비율을 나타낸다.


In [3]:
from sklearn.metrics import accuracy_score
accuracy = accuracy_score(y_true, y_pred)
print("정확도 :", accuracy)

accuracy = accuracy_score(y_true_str,y_pred_str)
print("정확도 :", accuracy)

정확도 : 0.6
정확도 : 0.6


### 정밀도
- 정밀도는 양성으로 예측된 데이터 중 실제로 양성인 비율을 나타낸다.
- 모델이 양성이라고 예측한 경우 얼마나 정확하게 예측했는지를 평가하는 지표이다.
- 문자 형태의 target을 사용할 떄는 pos_label='A'와 같이 양성 클래스를 명시해야한다.



In [5]:
#정밀도
from sklearn.metrics import precision_score
precision = precision_score(y_true, y_pred)
print("정밀도 : ",precision)

precision = precision_score(y_true_str, y_pred_str, pos_label='A')

print("정밀도 : ",precision)

정밀도 :  0.8
정밀도 :  0.8


### 재현율
- 재현율은 실제 양성인 데이터 중 모델이 양성으로 올바르게 예측한 비율을 나타냄.
- 문자 형태의 경우 양성 클래스 지정이 필요하다.
- 결과는 1에 가까울 수록 좋다.



In [6]:
# 재현율
from sklearn.metrics import recall_score
recall = recall_score(y_true, y_pred)
print("recall : ",recall)

recall = recall_score(y_true_str, y_pred_str, pos_label='A')
print("recall : ",recall)


recall :  0.5714285714285714
recall :  0.5714285714285714


### F1 스코어
- f1 score는 정밀도와 재현율의 조화 평균을 나타낸다.
- 불균형 데이터를 평가하는데 유용하다.
- 문자 형태의 경우 양성 클래스 지정이 필요





In [7]:
from sklearn.metrics import f1_score
f1 = f1_score(y_true, y_pred)
print("f1스코어 : ", f1)


f1 = f1_score(y_true_str, y_pred_str, pos_label='A')
print("f1 스코어 : ",f1)

f1스코어 :  0.6666666666666666
f1 스코어 :  0.6666666666666666


### ROC-AUC
- ROC 곡선 아래 영역 , 즉 AUC는 모델의 분류 성능을 평가하는 지표다.
- 양성 클래스에 속할 확률을 예측하기 위해 모델에 predict_proba()를 사용한다.
- predict_proba()는 각 클래스에 속할 확률을 반환
- 양성 클래스에 대한 확률을 분석하기 위해 반환된 배열의 두 번째 열(pred[:,1])의 값을 사용하낟.
- 1에 가까울 수록 모델의 성능이 우수함을 의미한다.


In [8]:
# ROU-AUC
from sklearn.metrics import roc_auc_score
y_true = pd.DataFrame([0,1,0,1,1,0,0,0,1,1])
y_pred_proba = pd.DataFrame([0.4,0.9,0.1,0.3,0.8,0.6,0.4,0.2,0.7,0.6])


roc_auc = roc_auc_score(y_true, y_pred_proba)
print("ROC_AUC", roc_auc)

ROC_AUC 0.86


## Section.2 다중 분류 평가지표
- 다중 분류 평가지표는 이진 분류 평가지표와 유사하다.
- 다중 분류로 평가하기 위해 정밀도, 재현율, F1스코어는 평균을 계산하는 방식이 필요
    - Macro 평균 : 각 클래스에 대한 정밀도/재현률/F1 점수의 평균을 계산
    - Micro 평균 : 모든 클래스에 대한 전체적인 정밀도/재현률/F1 점수를 계산
    - Weighted 평균 : 각 클래스에 대한 정밀도/재현률/F1 점수의 가중 평균을 계산
    

In [10]:
y_true = pd.DataFrame([1,2,3,3,2,1,3,3,2,1])
y_pred = pd.DataFrame([1,2,1,3,2,1,1,2,2,1])

y_true_str = pd.DataFrame(['A','B','C','C','B','A','C','C','B','A'])
y_pred_str = pd.DataFrame(['A','B','A','C','B','A','A','B','B','A'])

### 정확도
- 정확도는 이진분류와 평가 방법은 동일



In [11]:
# 정확도 

from sklearn.metrics import accuracy_score
accuracy = accuracy_score(y_true, y_pred)
print("Accuracy : ",accuracy)

accuracy = accuracy_score(y_true_str, y_pred_str)
print("Accuracy : ",accuracy)

Accuracy :  0.7
Accuracy :  0.7


### 정밀도
- average는 micro, macro, weighted중 문제에서 요구하는 방식을 선택한다.




In [14]:
# 정밀도(Precision)
from sklearn.metrics import precision_score
precision = precision_score(y_true, y_pred, average='macro')
print("정밀도 : ", precision)

precision = precision_score(y_true_str, y_pred_str, average='macro')
print("정밀도 : ", precision)


정밀도 :  0.7833333333333333
정밀도 :  0.7833333333333333


### 재현율




In [16]:
# 재현율(recall)
from sklearn.metrics import recall_score
recall = recall_score(y_true, y_pred, average='macro')
print("재현율 : ", recall)

recall = recall_score(y_true_str, y_pred_str, average='macro')
print("재현율 : ", recall)


재현율 :  0.75
재현율 :  0.75


### F1 Score

In [None]:
# F1 Score
from sklearn.metrics import f1_score
F1 = f1_score(y_true, y_pred, average='macro')
print("재현율 : ", F1)

F1 = f1_score(y_true_str, y_pred_str, average='macro')
print("재현율 : ", F1)
