## 회귀 문제에서의 성능 평가

#### Mean Absolute Error

$$MAE = \frac{1}{n} \sum_{i=1}^{n} |y_{i} - \hat{y}_{i}|$$

In [1]:
from sklearn.metrics import mean_absolute_error
y_true = [3, -0.5, 2, 7]
y_pred = [2.5, 0.0, 2, 8]
print(mean_absolute_error(y_true, y_pred))

0.5


#### Mean Squared Error(MSE)

$$MSE = \frac{1}{n} \sum_{i=1}^{n} (y_{i} - \hat{y}_{i})^{2}$$

In [2]:
from sklearn.metrics import mean_squared_error
y_true = [3, -0.5, 2, 7]
y_pred = [2.5, 0.0, 2, 8]
print(mean_squared_error(y_true, y_pred))

0.375


#### r2 score

$$R^{2} = 1 - \frac{\sum_{1}^{n}(y_{i} - \hat{y}_{i})^{2}} {\sum_{1}^{n}(y_{i} - \overline{y}_{i})^{2}}$$

In [3]:
from sklearn.metrics import r2_score
y_true = [3, -0.5, 2, 7]
y_pred = [2.5, 0.0, 2, 8]
print(r2_score(y_true, y_pred))

0.9486081370449679


## 분류 문제에서의 성능 평가

#### 정확도(accuracy)
$$accuracy = \frac{1}{n} \sum_{i=1}^{n} I(\hat{y}_{i} = y_{i})$$  
  
위 식에서 I는 지시 함수(indicator function)를 의미합니다.  
지시 함수는 𝑦̂𝑖과 𝑦𝑖의 값이 동일하다면 1, 서로 다른 값을 가지면 0을 가진다는 것을 의미

In [1]:
from sklearn.metrics import accuracy_score
y_pred = [0, 2, 1, 3]
y_true = [0, 1, 2, 3]
print(accuracy_score(y_true, y_pred))
print(accuracy_score(y_true, y_pred, normalize=False))

0.5
2


#### F1 score
$$F1 score = 2 * \frac{precision * recall}{precision + recall}$$  
  
  
F1 score는 precision과 recall의 조화 평균값이라고 생각할 수 있습니다.  
0부터 1까지 값을 가지며, 1에 가까울수록 높은 성능을 나타냅니다.

#### Confusion Matrix

In [2]:
from sklearn.metrics import confusion_matrix
y_true = [2, 0, 2, 2, 0, 1]
y_pred = [0, 0, 2, 2, 0, 2]
confusion_matrix(y_true, y_pred)

array([[2, 0, 0],
       [0, 0, 1],
       [1, 0, 2]], dtype=int64)

#### classification report

In [3]:
from sklearn.metrics import classification_report
y_true = [0, 1, 2, 2, 0]
y_pred = [0, 0, 2, 1, 0]
target_names = ['class 0', 'class 1', 'class 2']
print(classification_report(y_true, y_pred, target_names=target_names))

              precision    recall  f1-score   support

     class 0       0.67      1.00      0.80         2
     class 1       0.00      0.00      0.00         1
     class 2       1.00      0.50      0.67         2

    accuracy                           0.60         5
   macro avg       0.56      0.50      0.49         5
weighted avg       0.67      0.60      0.59         5



## 군집 문제에서의 성능 평가

#### 실루엣 스코어(silhouette score)
- 서로 다른 군집이 얼마나 잘 분리되는지를 나타내는 지표입니다.  
    같은 군집의 데이터는 가까운 거리에 뭉쳐 있고, 다른 군집의 데이터끼리는 멀리 떨어져 있을수록 높은 점수를 나타냅니다.

- 실루엣 스코어는 -1부터 1사이의 값을 가지며 스코어가 높을수록 좋은 성능을 의미합니다.

$$s = \frac{b - a}{max(a,b)}$$

![image.png](attachment:image.png)

- a는 같은 클래스 내에서의 특정 데이터 포인트와 나머지 클래스 내 다른 데이터 포인트 간의 평균 거리  
    b는 특정 데이터 포인트와 두 번째로 가까운 집단 내 포인트 간의 평균 거리

In [4]:
from sklearn.metrics import silhouette_score
X = [[1, 2], [4, 5], [2, 1], [6, 7], [2, 3]]
labels = [0, 1, 0, 1, 0]
sil_score = silhouette_score(X, labels)
print(sil_score)

0.5789497702625118
