# 분류(classification) 모형 선능 평가

### 정확도(accuracy)

In [1]:
#import numpy as np
from sklearn.metrics import accuracy_score
y_pred = [0, 2, 1, 3]
y_true = [0, 1, 2, 3]
print(accuracy_score(y_true, y_pred))
print(accuracy_score(y_true, y_pred, normalize=False))

0.5
2


- 정확도를 측정하기 위해서 accuracy_score 함수를 사용하며, 기본적으로 디폴트 옵션은 normalize=True 가 적용되어 있어 0부터 1사잇값을 나타낸다. 1에 가까울 수록 정확도가 높다
- 위에서 y_pred, y_true 의 에측값과 실제값을 비교했을 때 두개만 일치하기 때문에 정확도는 2/4 = 0.5 
- 만약 normalize=False 옵션을 사용하면 0부터 1사잇값이 아닌 예측값과 실제 값이 일치하는 빈도수가 출력되며, 2개의 값이 일치하여 2가 출력

###  confusionm matrix
- confusionm matrix 를 확인하면 예측값과 실제값의 빈도를 행렬의 형태로 확인 할 수 있다 

In [2]:
from sklearn.metrics import confusion_matrix
y_true = [2, 0, 2, 2, 0, 1]
y_pred = [0, 0, 2, 2, 0, 2]
confusion_matrix(y_true, y_pred)

array([[2, 0, 0],
       [0, 0, 1],
       [1, 0, 2]], dtype=int64)

### classification report 
- 사이킷런에서 제공하는 분류 리포트를 사용하면 여러가지 성능 점수를 한눈에 확인 할 수 있다. 

In [3]:
from sklearn.metrics import classification_report
y_true = [0, 1, 2, 2, 0]
y_pred = [0, 0, 2, 1, 0]
target_names = ['class 0', 'class 1', 'class 2']
print(classification_report(y_true, y_pred, target_names=target_names))

              precision    recall  f1-score   support

     class 0       0.67      1.00      0.80         2
     class 1       0.00      0.00      0.00         1
     class 2       1.00      0.50      0.67         2

    accuracy                           0.60         5
   macro avg       0.56      0.50      0.49         5
weighted avg       0.67      0.60      0.59         5



# 회귀(regression) 모형 선능 평가

### MAE(mean absolute error)
- 예측값과 실제값의 차이를 절대값의 평균

In [4]:
from sklearn.metrics import mean_absolute_error
y_true = [3, -0.5, 2, 7]
y_pred = [2.5, 0.0, 2, 8]

print(mean_absolute_error(y_true, y_pred))

0.5


### MSE(mean squared error)
- 오차 제곱이라고 부르며, 이름 그대로 오차의 제곱합의 평균을 의미한다

In [5]:
from sklearn.metrics import mean_squared_error
y_true = [3, -0.5, 2, 7]
y_pred = [2.5, 0.0, 2, 8]
print(mean_squared_error(y_true, y_pred))

0.375


### R2 score
- R2 score 흔히 R 제곱값이라고 많이 부른다. 전체 모형에서 설명 가능한 분산의 비율을 나타낸다. R 제곱값은 0에서 1사이값을 가지며 1에 가까울 수록 높은 성능을 의미한다. 

In [6]:
from sklearn.metrics import r2_score
y_true = [3, -0.5, 2, 7]
y_pred = [2.5, 0.0, 2, 8]
print(r2_score(y_true, y_pred))

0.9486081370449679


# 군집(clustering) 모형 선능 평가

### adjusted rand index

In [7]:
from sklearn.metrics import adjusted_rand_score
labels_true = [0, 0, 0, 1, 1, 1]
labels_pred = [0, 0, 1, 1, 2, 2]

print(adjusted_rand_score(labels_true, labels_pred))

0.24242424242424246


### 실루엣 스코어(silloutte score)
- 실루엣 스코어는 서로 다른 군집이 얼마나 잘 분리되는지를 나타내는 지표이다.
- 군집의 데이터는 가까운 거레 뭉쳐 있고, 다른 군집의 데이터끼리는 멀리 떨어져 있을 수록 높은 점수를 나타낸다

In [8]:
from sklearn.metrics import silhouette_score
X = [[1, 2], [4, 5], [2, 1], [6, 7], [2, 3]]
labels = [0, 1, 0, 1, 0] 
sil_score = silhouette_score(X, labels)
print(sil_score)

0.5789497702625118
