## 분류 문제에서의 성능 평가
### 정확도

In [1]:
from sklearn.metrics import accuracy_score

y_pred = [0, 2, 1, 3]
y_true = [0, 1, 2, 3]
print(accuracy_score(y_true, y_pred))

0.5


In [2]:
# 빈도 출력: normalize=False
print(accuracy_score(y_true, y_pred, normalize=False))

2


### F1 score
- precision과 recall의 조화 평균 값
- 2 * (precision*recall/(precision + recall))
- 0 ~ 1, 1에 가까울수록 높은 성능

### Confusion Matrix

In [3]:
from sklearn.metrics import confusion_matrix

y_true = [2, 0, 2, 2, 0, 1]
y_pred = [0, 0, 2, 2, 0, 2]
confusion_matrix(y_true, y_pred)

array([[2, 0, 0],
       [0, 0, 1],
       [1, 0, 2]], dtype=int64)

In [7]:
import pandas as pd

# 행: 실제값, 열: 예측값
df = pd.DataFrame(confusion_matrix(y_true, y_pred))
df

Unnamed: 0,0,1,2
0,2,0,0
1,0,0,1
2,1,0,2


### classification report

In [10]:
from sklearn.metrics import classification_report

y_true = [0, 1, 2, 2, 0]
y_pred = [0, 0, 2, 1, 0]
target_names = ['class 0', 'class 1', 'class 2']
print(classification_report(y_true, y_pred, target_names=target_names))

              precision    recall  f1-score   support

     class 0       0.67      1.00      0.80         2
     class 1       0.00      0.00      0.00         1
     class 2       1.00      0.50      0.67         2

    accuracy                           0.60         5
   macro avg       0.56      0.50      0.49         5
weighted avg       0.67      0.60      0.59         5



## 회귀 문제에서의 성능 평가
### Mean Absolute Error

In [11]:
from sklearn.metrics import mean_absolute_error
y_true = [3, -0.5, 2, 7]
y_pred = [2.5, 0.0, 2, 8]
print(mean_absolute_error(y_true, y_pred))

0.5


### Mean Squared Error (MSE)

In [12]:
from sklearn.metrics import mean_squared_error
y_true = [3, -0.5, 2, 7]
y_pred = [2.5, 0.0, 2, 8]
print(mean_squared_error(y_true, y_pred))

0.375


### r2 score
- 전체 모형에서 설명 가능한 분산의 비율
- 0 ~ 1, 1에 가까울수록 높은 성능

In [13]:
from sklearn.metrics import r2_score
y_true = [3, -0.5, 2, 7]
y_pred = [2.5, 0.0, 2, 8]
print(r2_score(y_true, y_pred))

0.9486081370449679


## 군집 문제에서의 성능 평가
### 실루엣 스코어(silhouette score)
- 서로 다른 군집이 얼마나 잘 분리되는지 나타내는 지표
- 같은 군집 데이터는 가까운 거리에 뭉쳐 있고, 다른 군집 데이터끼리는 멀리 떨어져 있을수록 높은 점수
* -1 ~ 1, 높을수록 좋은 성능
> s = (b - a)/max(a,b)
- a: 집단 내 데이터 거리 평균
- b: 다른 집단 데이터 거리 평균의 최솟값

In [15]:
from sklearn.metrics import silhouette_score
X = [[1, 2], [4 ,5], [2, 1], [6, 7], [2, 3]]
labels = [0, 1, 0, 1, 0]
sil_score = silhouette_score(X, labels)
print(sil_score)

0.5789497702625118
