## [분류 평가 모델의 평가분석]
- 딥러닝, 머신러닝 모두 분류데이터는 이러한 평가지표가 필수
- 분류 (classification) 모델링을 할 수 있는 ML 알고리즘을 만들었다면, 해당 모델이 얼마나 잘 작동하는지 통계적으로 확인하는 척도
- 정밀도, 재현율, F1 Score를 이용하여 평가
- 데이터에 따라 정밀도가 중요할지 재현율이 중요할지 다름
- 정밀도가 높아지면 재현율이 낮아지고 재현율이 높아지면 정밀도가 낮아지는 trade-off 현상


## 1. 샘플 데이터를 이용한 분류 모델 제작

In [None]:
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

##########샘플데이터제작

x_data = np.array([   [2, 1],[3, 2],[3, 4],[5, 5],[7, 5],[2, 5],[8, 9],[9,10],[8,7],
                      [9, 10],[6, 12],[9, 2],[6, 2],[2, 2],[2, 2],[3, 8],[7, 4],[2,4],[3,4] ,[8,4]  ])
y_data = np.array([0, 1, 1, 0, 1, 1, 1, 0, 1, 1, 0,0,1,1,1,0,0,0,1,1])

x_train, x_test, y_train, y_test = train_test_split(x_data, y_data, test_size=0.3, random_state=777, stratify=y_data)

##########모델 학습 및 제작
model = LogisticRegression()
model.fit(x_train, y_train)
y_predict = model.predict(x_test)

print('예측값:',y_predict) # 예측값
print('실제값:',y_test) #실제값

class_names=['0','1']

예측값: [1 1 0 1 1 1]
실제값: [1 0 1 1 0 1]


## 2. 위의 결과물을 사이킷런 패키지의 평가척도 모듈을 활용한 리포트 작성

In [None]:
import pandas as pd
from sklearn.metrics import confusion_matrix


# 혼돈행렬계산방법과 재현율, 정밀도는 머신러닝에서 강의합니다.
conMatrix=confusion_matrix(y_test, y_predict)

In [None]:
conMatrix

array([[0, 2],
       [1, 3]])

In [None]:
df=pd.DataFrame(conMatrix,
             index=['실제'+str(x) for x in class_names],
             columns=['예측'+str(x) for x in class_names])
df

Unnamed: 0,예측0,예측1
실제0,0,2
실제1,1,3


In [None]:
# 분류분석 보고서_정밀도/재현율
from sklearn.metrics import classification_report
print(classification_report(y_test, y_predict))

              precision    recall  f1-score   support

           0       0.00      0.00      0.00         2
           1       0.60      0.75      0.67         4

    accuracy                           0.50         6
   macro avg       0.30      0.38      0.33         6
weighted avg       0.40      0.50      0.44         6



## 3. 위의 분류분석 보고서의 정밀도, 재현율을 직접계산

In [None]:
TN=df.iloc[0,0]
FP=df.iloc[0,1]

FN=df.iloc[1,0]
TP=df.iloc[1,1]

print(TN,FP)
print(FN,TP)

0 2
1 3


In [None]:
# 정확도는  0을0으로맞춤 + 1을1로맞춤 / 전체데이터  ==> TN+TP / (TN+TP+FN+FP)
accuracy_score = (TN+TP) / (TN+TP+FN+FP)
print(accuracy_score)

0.5


In [None]:
# 정밀도 (precision)
# 0에대한 정밀도: TN / (TN + FN)
# 1에대한 정밀도: TP / ( TP + FP )

print('▶0에대한 정밀도:', TN / (TN+FN))
print('▶1에대한 정밀도:', TP / (TP+FP))

▶0에대한 정밀도: 0.0
▶1에대한 정밀도: 0.6


In [None]:
# 재현율 (recall)
# 1에대한 재현율: TP / ( TP + FN )
# 0에대한 재현율: TN / (TN + FP)

print('▶0에대한 재현율:', TN / (TN + FP))
print('▶1에대한 재현율:', TP / ( TP + FN ))

▶0에대한 재현율: 0.0
▶1에대한 재현율: 0.75


정확도 : 예측이 정답과 얼마나 정확한가  
정밀도 : 예측한 것 중 정답의 비율  
재현율 : 찾아야 할 것 중 실제로 찾은 비율  
F1 Score : 정밀도와 재현율의 평균  
F1 Score 값이 높으면 성능이 높다.

In [None]:
precision_0 = TN / (TN+FN)
precision_1 = TP / (TP+FP)
recall_0 = TN / (TN+FP)
recall_1 = TP / ( TP+FN)

f1_score_0 = 2 * ((precision_0*recall_0) / (precision_0+recall_0))
f1_score_1 = 2 * ((precision_1*recall_1) / (precision_1+recall_1))

f1_score_0, f1_score_1

  f1_score_0 = 2 * ((precision_0*recall_0) / (precision_0+recall_0))


(nan, 0.6666666666666665)