# Метрики для оценки моделей машинного обучения

## Метрики для классификации
В задачах классификации метрики оценивают, насколько хорошо модель предсказывает классы. 

Различают метрики для бинарной и многоклассовой классификации.

In [6]:
import numpy as np


y_true = np.array([0, 1, 1, 0, 0, 1, 0, 0, 1, 0])
y_pred = np.array([0, 1, 0, 0, 1, 1, 1, 0, 1, 0])
y_proba = np.array([0.1, 0.9, 0.4, 0.2, 0.8, 0.95, 0.6, 0.3, 0.85, 0.1])

### Accuracy (Точность)
Accuracy — это доля правильно классифицированных объектов от общего числа примеров:

$$
Accuracy = \frac{TP + TN}{TP + TN + FP + FN}
$$

- **Где:**  
  - $ TP $ (True Positive) — количество верно предсказанных положительных примеров.  
  - $ TN $ (True Negative) — количество верно предсказанных отрицательных примеров.  
  - $ FP $ (False Positive) — количество ошибочно отнесенных к положительному классу примеров.  
  - $ FN $ (False Negative) — количество ошибочно отнесенных к отрицательному классу примеров.  

**Применение:**  
- Хорошо подходит, когда классы сбалансированы.  
- Не подходит при сильном дисбалансе классов, так как можно получить высокую точность, просто предсказывая преобладающий класс.

In [7]:
from sklearn.metrics import accuracy_score


print("Accuracy:", accuracy_score(y_true, y_pred))

Accuracy: 0.7


### Precision (Точность, положительная предсказательная способность)
Precision показывает, какая доля предсказанных положительных классов действительно является положительной:

$$
Precision = \frac{TP}{TP + FP}
$$

**Применение:**  
- Используется, когда важно минимизировать количество ложных срабатываний (FP), например, в медицинских тестах.

In [8]:
from sklearn.metrics import precision_score


print("Precision:", precision_score(y_true, y_pred))

Precision: 0.6


### Recall (Полнота, чувствительность)
Recall показывает, какая доля реальных положительных примеров была найдена моделью:

$$
Recall = \frac{TP}{TP + FN}
$$

**Применение:**  
- Важен в задачах, где критично не пропускать положительные примеры, например, при выявлении мошенничества.

In [9]:
from sklearn.metrics import recall_score


print("Recall:", recall_score(y_true, y_pred))

Recall: 0.75


### F1-score
F1-score — это гармоническое среднее Precision и Recall:

$$
F1 = 2 \times \frac{Precision \times Recall}{Precision + Recall}
$$

**Применение:**  
- Используется, когда важно найти баланс между Precision и Recall, например, в задаче классификации спама.

In [10]:
from sklearn.metrics import f1_score


print("F1-score:", f1_score(y_true, y_pred))

F1-score: 0.6666666666666666



### ROC AUC (Площадь под ROC-кривой)
ROC-кривая показывает зависимость между True Positive Rate (TPR) и False Positive Rate (FPR):

$$
TPR = \frac{TP}{TP + FN}, \quad FPR = \frac{FP}{FP + TN}
$$

AUC (Area Under Curve) — это площадь под ROC-кривой. Чем больше AUC, тем лучше модель.

**Применение:**  
- Позволяет оценить модель при различных порогах классификации.  
- Подходит для задач с несбалансированными классами.

In [11]:
from sklearn.metrics import roc_auc_score


print("ROC AUC:", roc_auc_score(y_true, y_proba))

ROC AUC: 0.9166666666666666


### Log Loss (Logarithmic Loss)
Логарифмическая функция потерь измеряет расхождение между предсказанной вероятностью принадлежности к классу и реальным классом:

$$
LogLoss = -\frac{1}{N} \sum_{i=1}^{N} \left[ y_i \log(p_i) + (1 - y_i) \log(1 - p_i) \right]
$$

**Применение:**  
- Используется в задачах, где важны вероятностные предсказания, например, в кредитном скоринге.

In [12]:
from sklearn.metrics import log_loss


print("Log Loss:", log_loss(y_true, y_proba))

Log Loss: 0.45517316422941567


## Метрики для регрессии
Регрессионные метрики оценивают, насколько точно модель предсказывает числовые значения.


In [14]:
import numpy as np

y_true = np.array([3.2, 2.8, 4.5, 3.7, 5.1])
y_pred = np.array([3.0, 3.1, 4.2, 3.9, 5.0])

### Mean Absolute Error (MAE)
Средняя абсолютная ошибка (MAE) — это среднее абсолютное отклонение предсказанных значений от реальных:

$$
MAE = \frac{1}{N} \sum_{i=1}^{N} |y_i - \hat{y}_i|
$$

**Преимущества:**  
- Интерпретируемая, измеряется в тех же единицах, что и целевая переменная.  
- Не штрафует за большие ошибки так же сильно, как MSE.

**Применение:**  
- Подходит, когда важна средняя ошибка предсказаний.

In [15]:
from sklearn.metrics import mean_absolute_error


print("Mean Absolute Error:", mean_absolute_error(y_true, y_pred))

Mean Absolute Error: 0.21999999999999992


### Mean Squared Error (MSE)
Среднеквадратичная ошибка (MSE) увеличивает штраф за большие ошибки:

$$
MSE = \frac{1}{N} \sum_{i=1}^{N} (y_i - \hat{y}_i)^2
$$

**Преимущества:**  
- Удобна для оптимизации (градиентный спуск), так как дифференцируема.  
- Чувствительна к выбросам.

**Применение:**  
- Используется в задачах, где важно минимизировать большие ошибки.

In [16]:
from sklearn.metrics import mean_squared_error


print("Mean Squared Error:", mean_squared_error(y_true, y_pred))

Mean Squared Error: 0.05399999999999999


### Root Mean Squared Error (RMSE)
Корень из MSE:

$$
RMSE = \sqrt{MSE}
$$

**Преимущества:**  
- Измеряется в тех же единицах, что и целевая переменная.  
- Подчеркивает крупные ошибки.

**Применение:**  
- Подходит, когда важно учитывать большие ошибки.

In [17]:
print("RMSE:", np.sqrt(mean_squared_error(y_true, y_pred)))

RMSE: 0.232379000772445


### R² (Коэффициент детерминации)
R² измеряет, какую долю дисперсии целевой переменной объясняет модель:

$$
R^2 = 1 - \frac{\sum (y_i - \hat{y}_i)^2}{\sum (y_i - \bar{y})^2}
$$

- $ y_i $ - истинное значение целевой переменной.
- $ \hat{y}_i $ - предсказанное значение модели.
- $ \bar{y} $ - среднее значение целевой переменной по всем наблюдениям:

**Применение:**  
- Позволяет оценить, насколько хорошо модель объясняет данные.

In [21]:
from sklearn.metrics import r2_score


print("R² Score:", r2_score(y_true, y_pred))

R² Score: 0.9235560588901472


### MAPE (Mean Absolute Percentage Error)
MAPE (средняя абсолютная процентная ошибка) измеряет среднюю величину ошибок модели в процентах относительно истинных значений. Это удобная метрика для оценки регрессионных моделей, поскольку позволяет интерпретировать ошибку в понятных процентных единицах.

$$
MAPE = \frac{100\%}{n} \sum_{i=1}^{n} \left| \frac{y_i - \hat{y}_i}{y_i} \right|
$$

**Преимущества**
- Легко интерпретировать, результат показывает среднюю ошибку в процентах от фактического значения.
- Универсальна для разных масштабов, так как относительная ошибка не зависит от единиц измерения.

**Ограничения:**
- Если в данных встречаются нулевые значения \( y_i \), формула может приводить к делению на ноль, что требует специальных подходов (например, добавление малой константы).


In [22]:
def mape(y_true, y_pred, epsilon=1e-8):
    """
    Рассчитывает среднюю абсолютную процентную ошибку (MAPE).
    
    Параметры:
    y_true : массив истинных значений
    y_pred : массив предсказанных значений
    
    Возвращает:
    MAPE в процентах
    """
    percentage_errors = np.abs((y_true - y_pred) / (y_true + epsilon))
    
    mape = np.mean(percentage_errors) * 100
    return mape

print("MAPE:", mape(y_true, y_pred))

MAPE: 6.199428401803605


## Метрики для кластеризации
В задачах кластеризации используются метрики, оценивающие качество разбиения данных.

In [23]:
from sklearn.cluster import KMeans
from sklearn.datasets import make_blobs

X, y_true = make_blobs(n_samples=100, centers=3, random_state=42)

kmeans = KMeans(n_clusters=3, random_state=42, n_init=10)
y_pred = kmeans.fit_predict(X)

### Silhouette Score (Силуэтный коэффициент)
Измеряет, насколько объекты внутри кластера ближе друг к другу, чем к объектам из других кластеров:

$$
s_i = \frac{b_i - a_i}{\max(a_i, b_i)}
$$

- $ a_i $ — среднее расстояние от объекта до других объектов внутри его кластера.  
- $ b_i $ — среднее расстояние от объекта до объектов ближайшего кластера.

**Применение:**  
- Используется для оценки качества кластеризации без истинных меток.

In [24]:
from sklearn.metrics import silhouette_score


print("Silhouette Score:", silhouette_score(X, y_pred))

Silhouette Score: 0.8469881221532085


### Davies-Bouldin Index
Оценивает среднее отношение внутрикластерного расстояния к межкластерному:

$$
DBI = \frac{1}{N} \sum_{i=1}^{N} \max_{j \neq i} \frac{\sigma_i + \sigma_j}{d_{ij}}
$$

**Применение:**  
- Чем меньше значение, тем лучше кластеризация.

In [25]:
from sklearn.metrics import davies_bouldin_score


print("Davies-Bouldin Index:", davies_bouldin_score(X, y_pred))

Davies-Bouldin Index: 0.21374667882527568


### Adjusted Rand Index (ARI)
Измеряет сходство между предсказанными кластерами и истинными метками:

$$
ARI = \frac{\sum_{ij} \binom{n_{ij}}{2} - \left[\sum_i \binom{a_i}{2} \sum_j \binom{b_j}{2} \right] / \binom{N}{2}}{0.5 \left[\sum_i \binom{a_i}{2} + \sum_j \binom{b_j}{2} \right] - \left[\sum_i \binom{a_i}{2} \sum_j \binom{b_j}{2} \right] / \binom{N}{2}}
$$

**Применение:**  
- Используется, когда есть истинные метки кластеров.

In [26]:
from sklearn.metrics import adjusted_rand_score


print("Adjusted Rand Index:", adjusted_rand_score(y_true, y_pred))

Adjusted Rand Index: 1.0


In [36]:
import sklearn.metrics

# help(sklearn.metrics)
dir(sklearn.metrics)

['ConfusionMatrixDisplay',
 'DetCurveDisplay',
 'DistanceMetric',
 'PrecisionRecallDisplay',
 'PredictionErrorDisplay',
 'RocCurveDisplay',
 '__all__',
 '__builtins__',
 '__cached__',
 '__doc__',
 '__file__',
 '__loader__',
 '__name__',
 '__package__',
 '__path__',
 '__spec__',
 '_base',
 '_classification',
 '_dist_metrics',
 '_pairwise_distances_reduction',
 '_pairwise_fast',
 '_plot',
 '_ranking',
 '_regression',
 '_scorer',
 'accuracy_score',
 'adjusted_mutual_info_score',
 'adjusted_rand_score',
 'auc',
 'average_precision_score',
 'balanced_accuracy_score',
 'brier_score_loss',
 'calinski_harabasz_score',
 'check_scoring',
 'class_likelihood_ratios',
 'classification_report',
 'cluster',
 'cohen_kappa_score',
 'completeness_score',
 'confusion_matrix',
 'consensus_score',
 'coverage_error',
 'd2_absolute_error_score',
 'd2_log_loss_score',
 'd2_pinball_score',
 'd2_tweedie_score',
 'davies_bouldin_score',
 'dcg_score',
 'det_curve',
 'euclidean_distances',
 'explained_variance_sco