# Метрики для оценки моделей машинного обучения

## Метрики для классификации
В задачах классификации метрики оценивают, насколько хорошо модель предсказывает классы. 

Различают метрики для бинарной и многоклассовой классификации.

In [None]:
import numpy as np

y_true = np.array([0, 1, 1, 0, 0, 1, 0, 0, 1, 0])
y_pred = np.array([0, 1, 0, 0, 1, 1, 1, 0, 1, 0])
y_proba = np.array([0.1, 0.9, 0.4, 0.2, 0.8, 0.95, 0.6, 0.3, 0.85, 0.1])

### Accuracy (Точность)
Accuracy — это доля правильно классифицированных объектов от общего числа примеров:

> Если из 100 вопросов модель ответила правильно на 90, то ее точность 90%.

$$
Accuracy = \frac{\text{Количество правильных ответов}}{\text{Общее количество вопросов}} = \frac{TP + TN}{TP + TN + FP + FN}
$$

- **Где:**  
  - $ TP $ (True Positive) — количество верно предсказанных положительных примеров.  
  - $ TN $ (True Negative) — количество верно предсказанных отрицательных примеров.  
  - $ FP $ (False Positive) — количество ошибочно отнесенных к положительному классу примеров.  
  - $ FN $ (False Negative) — количество ошибочно отнесенных к отрицательному классу примеров.  

Представьте, что у вас есть модель, которая предсказывает, есть ли у человека собака.

Пусть у нас есть 10 человек:
- 5 человек с собаками (Положительный класс)
- 5 человек без собак (Отрицательный класс)

Наша модель сделала следующие предсказания:
- **Истинные положительные (TP):** Модель правильно определила, что у 4 человек есть собаки.
- **Истинные отрицательные (TN):** Модель правильно определила, что у 4 человек нет собак.
- **Ложные положительные (FP):** Модель ошибочно определила, что у 1 человека есть собака (хотя ее нет).
- **Ложные отрицательные (FN):** Модель ошибочно определила, что у 1 человека нет собаки (хотя она есть).

Тогда точность будет:
$$
Accuracy = \frac{TP + TN}{TP + TN + FP + FN} = \frac{4 + 4}{4 + 4 + 1 + 1} = \frac{8}{10} = 0.8 \text{ или } 80\%
$$

Это означает, что модель была права в 80% случаев.

<div class="alert alert-danger">
<b>Замечание:</b> 
Представьте, что вы разрабатываете модель для обнаружения очень редкого заболевания. Из 1000 человек только 10 болеют (1%). Остальные 990 здоровы (99%). Если ваша модель просто всегда будет предсказывать "здоров", то ее точность будет 0.99 или 99%. Модель с точностью 99% кажется отличной, но она не обнаружила ни одного больного человека и ее высокая точность абсолютно бесполезна.
Accuracy не учитывает важность ошибок разного рода (ложных положительных и ложных отрицательных) и не подходит для несбалансированных классов.
</div>

**Применение:**  
- Хорошо подходит, когда классы сбалансированы.  
- Не подходит при сильном дисбалансе классов, так как можно получить высокую точность, просто предсказывая преобладающий класс.

In [None]:
from sklearn.metrics import accuracy_score


print("Accuracy:", accuracy_score(y_true, y_pred))

### Precision (Точность, положительная предсказательная способность)
Precision показывает, какая доля предсказанных положительных классов действительно является положительной:

$$
Precision = \frac{TP}{TP + FP}
$$

**Применение:**  
- Используется, когда важно минимизировать количество ложных срабатываний (FP), то есть цена ошибки первого рода высока, например, в медицинских тестах.

> **Пример: Спам-фильтр почты**
> Допустим, мы обучаем модель отправлять спам в отдельную папку.
> - *Положительный класс (Positive) - письмо является спамом.
> - *False Positive (FP) -важное письмо от начальника или уведомление из банка ошибочно помечено как спам и удалено с глаз долой.
>
> В данном случае **Precision** критически важна. Мы не хотим, чтобы модель ошибалась и закидывала нормальные письма в спам. Лучше пропустить немного реального спама во «Входящие» (понизив Recall), чем потерять одно важное письмо (понизив Precision).

In [None]:
from sklearn.metrics import precision_score


print("Precision:", precision_score(y_true, y_pred))

### Recall (Полнота, чувствительность)
Recall показывает, какая доля реальных положительных примеров была найдена моделью:

$$
Recall = \frac{TP}{TP + FN}
$$

**Применение:**  
- Важен в задачах, где критично не пропускать положительные примеры, например, при выявлении мошенничества.

> **Пример: Диагностика тяжелых заболеваний**
> Допустим, модель анализирует снимки легких, чтобы найти болезнь.
> - *Положительный класс (Positive):* Человек болен.
> - *False Negative (FN):* Человек болен, но модель сказала, что он здоров, и отправила его домой без лечения.
>
> В данном случае **Recall** — самая важная метрика. Если мы пропустим больного пациента, это может стоить ему жизни. Пусть лучше модель ложно сработает на здоровом человеке (False Positive), и врачи проведут дополнительные анализы, чем она пропустит реально больного. Мы готовы жертвовать Precision ради высокого Recall.

In [None]:
from sklearn.metrics import recall_score


print("Recall:", recall_score(y_true, y_pred))

### F1-score
F1-score — это гармоническое среднее Precision и Recall:

$$
F1 = 2 \times \frac{Precision \times Recall}{Precision + Recall}
$$

**Применение:**  
- Используется, когда важно найти баланс между Precision и Recall.
- Полезна (но не идеальна) в задачах с несбалансированными классами (в отличие от Accuracy), так как требует хорошего показателя и по точности, и по полноте одновременно.

Почему именно среднее гармоническое? Среднее гармоническое обладает свойством «пессимизма»: оно всегда ближе к меньшему из чисел.

> **Пример:**
> Представьте модель, которая предсказывает, что все объекты — положительные.
> - У неё будет идеальный Recall = 1.0 (ведь всех положительных она нашла).
> - Но Precision будет очень низким (например, 0.1), так как она назвала положительными кучу лишнего.
>
> 1. Среднее арифметическое: $\frac{1.0 + 0.1}{2} = 0.55$.
>
> 2. F1-score: $2 \times \frac{1.0 \times 0.1}{1.0 + 0.1} \approx 0.18$.

#### Обобщение
F1-score предполагает, что точность и полнота для нас **одинаково важны**. Однако это не всегда так. Существует более общая формула $F_\beta$, где коэффициент $\beta$ определяет вес Recall по сравнению с Precision:

$$
F_\beta = (1 + \beta^2) \times \frac{Precision \times Recall}{(\beta^2 \times Precision) + Recall}
$$

- $F_1$ ($\beta = 1$) — стандартная F-мера. Precision и Recall равнозначны.
- $F_2$ ($\beta = 2$) — Recall важнее, чем Precision, и так далее.

In [None]:
from sklearn.metrics import f1_score


print("F1-score:", f1_score(y_true, y_pred))

### ROC AUC (Площадь под ROC-кривой)
ROC AUC — это метрика для оценки качества бинарной классификации, которая оценивает модель в целом, не привязываясь к конкретному порогу принятия решения (threshold). Сама ROC-кривая показывает зависимость между True Positive Rate (TPR) и False Positive Rate (FPR):

$$
TPR = \frac{TP}{TP + FN}, \quad FPR = \frac{FP}{FP + TN}
$$

AUC (Area Under Curve) — это площадь под ROC-кривой. Чем больше AUC, тем лучше модель.

**Применение:**  
- Позволяет оценить модель при различных порогах классификации.  
- Подходит для задач с несбалансированными классами.

Модель классификации обычно выдает вероятность принадлежности к классу 1 (например, `0.85`, `0.12`, `0.64`). Чтобы превратить это в ответ «Да/Нет», нам нужен **порог (threshold)**. Обычно это `0.5`, но его можно менять.
Для того чтобы построить метрику:
1. Сортируем все предсказания модели от самой высокой уверенности к самой низкой.
2. Начинаем двигать порог принадлежности к классу от `1.0` до `0.0`.
    - Если порог очень строгий (1.0), мы никого не классифицируем как 1. $TPR=0, FPR=0$ (точка 0,0).
    - Если мы немного снижаем порог, мы начинаем захватывать истинные единицы (TPR растет), но иногда случайно захватываем и нули (FPR тоже растет).
    - Если порог опустить до `0.0`, мы всех назовем классом 1. $TPR=1$, $FPR=1$ (точка 1,1).

В итоге наша кривая — это линия, соединяющая точки (FPR, TPR) для всех возможных порогов.

Свойства:
- 0.5 — модель гадает случайно (как монетка). График идет по диагонали.
- 1.0 — идеальная модель.

> В дополнение можно сказать про **Precision-Recall Curve (PR AUC)** — во многом похожую метрику, с той лишь разницей, что она строится в осях Recall (X) и Precision (Y). ROC AUC может быть слишком оптимистичным на сильно несбалансированных выборках, так что если целевой класс очень редкий, лучше смотреть на **PR AUC**.

In [None]:
from sklearn.metrics import roc_auc_score, roc_curve
import matplotlib.pyplot as plt


print("ROC AUC:", roc_auc_score(y_true, y_proba))

In [None]:
fpr, tpr, thresholds = roc_curve(y_true, y_proba)

plt.figure(figsize=(8, 6))
plt.plot(fpr, tpr, color='blue', lw=2, label=f'ROC curve')
plt.plot([0, 1], [0, 1], color='gray', lw=2, linestyle='--', label='Случайное угадывание')

plt.xlim([0.0, 1.0])
plt.ylim([0.0, 1.05])
plt.xlabel('False Positive Rate (1 - Specificity)')
plt.ylabel('True Positive Rate (Sensitivity)')

### Log Loss (Logarithmic Loss)
Логарифмическая функция потерь измеряет расхождение между предсказанной вероятностью принадлежности к классу и реальным классом:

$$
LogLoss = -\frac{1}{N} \sum_{i=1}^{N} \left[ y_i \log(p_i) + (1 - y_i) \log(1 - p_i) \right]
$$

**Применение:**  
- Используется в задачах, где важны вероятностные предсказания, например, в кредитном скоринге.

In [None]:
from sklearn.metrics import log_loss


print("Log Loss:", log_loss(y_true, y_proba))

In [None]:
from sklearn.metrics import confusion_matrix

y_true = [1, 0, 1, 1, 0, 0]
y_pred = [1, 1, 1, 0, 0, 1]
print("Confusion Matrix:\n", confusion_matrix(y_true, y_pred))

#### Многоклассовая классификация

Подходы к решению многоклассовых задач:

- One-vs-All (OvA) / One-vs-Rest (OvR)

    Идея: Для каждого класса обучается отдельный бинарный классификатор. Этот классификатор учится отличать данный класс от всех остальных классов.

    Обучение: Если у нас K классов, то обучается K бинарных классификаторов. Для i-го классификатора все примеры класса i считаются положительными примерами, а все остальные – отрицательными.

    Предсказание: Для нового объекта каждый из K классификаторов выдает вероятность принадлежности к своему классу. Объект относят к классу с наибольшей вероятностью.


- One-vs-One (OvO)

    Идея: Для каждой пары классов обучается отдельный бинарный классификатор.

    Обучение: Если у нас K классов, то обучается K * (K - 1) / 2 бинарных классификаторов. Каждый классификатор обучается только на данных, относящихся к двум классам.

    Предсказание: Для нового объекта каждый классификатор выдает свой "голос" за один из двух классов. Объект относят к классу, за который проголосовало большинство классификаторов.

    Преимущества: Менее подвержен проблеме дисбаланса классов (по сравнению с OvA).

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import make_classification
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report, confusion_matrix
import seaborn as sns
from sklearn.multiclass import OneVsRestClassifier, OneVsOneClassifier

X, y = make_classification(n_samples=300, 
                           n_features=2, 
                           n_informative=2, 
                           n_redundant=0,
                           n_clusters_per_class=1, 
                           random_state=42, 
                           n_classes=3)

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

In [None]:
ova_lr = OneVsRestClassifier(LogisticRegression())
ova_lr.fit(X_train, y_train)
ova_lr_pred = ova_lr.predict(X_test)
print("OvA (Logistic Regression):\n", classification_report(y_test, ova_lr_pred))

In [None]:
ovo_lr = OneVsOneClassifier(LogisticRegression())
ovo_lr.fit(X_train, y_train)
ovo_lr_pred = ovo_lr.predict(X_test)
print("OvO (Logistic Regression):\n", classification_report(y_test, ovo_lr_pred))

In [None]:
x_min, x_max = X[:, 0].min() - 1, X[:, 0].max() + 1
y_min, y_max = X[:, 1].min() - 1, X[:, 1].max() + 1
xx, yy = np.meshgrid(np.arange(x_min, x_max, 0.02),
                     np.arange(y_min, y_max, 0.02))

Z_ova = ova_lr.predict(np.c_[xx.ravel(), yy.ravel()])
Z_ova = Z_ova.reshape(xx.shape)

Z_ovo = ovo_lr.predict(np.c_[xx.ravel(), yy.ravel()])
Z_ovo = Z_ovo.reshape(xx.shape)

# Two plots in one figure
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(8, 4))

ax1.contourf(xx, yy, Z_ova, cmap=plt.cm.viridis, alpha=0.8)
ax1.scatter(X[:, 0], X[:, 1], c=y, cmap=plt.cm.viridis, edgecolors='k')
ax1.set_xlabel("Feature 1")
ax1.set_ylabel("Feature 2")
ax1.set_title("OvA Logistic Regression")

ax2.contourf(xx, yy, Z_ovo, cmap=plt.cm.viridis, alpha=0.8)
ax2.scatter(X[:, 0], X[:, 1], c=y, cmap=plt.cm.viridis, edgecolors='k')
ax2.set_xlabel("Feature 1")
ax2.set_ylabel("Feature 2")
ax2.set_title("OvO Logistic Regression")

plt.tight_layout()
plt.show()

#### Для многоклассовой классификации
В многоклассовом случае confusion matrix расширяется до таблицы, где строки – истинные классы, а столбцы – предсказанные. Здесь используют следующие подходы для вычисления метрик:
- Macro-average – усреднение метрик по каждому классу без учёта частот классов.
- Micro-average – агрегирование TP, FP, FN по всем классам и последующее вычисление метрик.
- Weighted-average – взвешенное усреднение, где для каждого класса вес равен его доле в выборке.

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.metrics import confusion_matrix, precision_score, recall_score, f1_score
import seaborn as sns

y_true = [2, 0, 2, 1, 0, 0]
y_pred = [0, 1, 2, 2, 0, 2]

cm = confusion_matrix(y_true, y_pred)
print("Confusion Matrix:", )

plt.figure(figsize=(4, 4))
sns.heatmap(cm, annot=True, fmt="d", cmap="Blues")
plt.xlabel("Predicted Label")
plt.ylabel("True Label")
plt.title("Confusion Matrix")
plt.show()

In [None]:
def calculate_metrics_per_class(cm):
    """
    Рассчитывает precision, recall, и F1-score для каждого класса по матрице ошибок.
    """
    n_classes = cm.shape[0]
    metrics = {}
    for i in range(n_classes):
        tp = cm[i, i]
        fp = np.sum(cm[:, i]) - tp
        fn = np.sum(cm[i, :]) - tp
        tn = np.sum(cm) - tp - fp - fn

        precision = tp / (tp + fp) if (tp + fp) > 0 else 0
        recall = tp / (tp + fn) if (tp + fn) > 0 else 0
        f1 = 2 * (precision * recall) / (precision + recall) if (precision + recall) > 0 else 0

        metrics[f'Class {i}'] = {'precision': round(precision, 3), 
                                           'recall': round(recall, 3), 
                                           'f1': round(f1, 3)}
    return metrics

metrics_per_class = calculate_metrics_per_class(confusion_matrix(y_true, y_pred))
print("Metrics per class:")
for class_name, metrics in metrics_per_class.items():
    print(f"{class_name}: {metrics}")

In [18]:
def micro_average(cm):
    """
    Рассчитывает micro-averaged precision, recall, и F1-score.
    """
    tp_total = np.trace(cm)
    fp_total = np.sum(cm) - tp_total
    fn_total = np.sum(cm) - tp_total

    precision = tp_total / (tp_total + fp_total)
    recall = tp_total / (tp_total + fn_total)
    f1 = precision

    return {'precision': round(precision, 3), 
            'recall': round(recall, 3), 
            'f1': round(f1, 3)}

def macro_average(metrics_per_class):
    """
    Рассчитывает macro-averaged precision, recall, и F1-score.
    """
    precisions = [metrics['precision'] for metrics in metrics_per_class.values()]
    recalls = [metrics['recall'] for metrics in metrics_per_class.values()]
    f1s = [metrics['f1'] for metrics in metrics_per_class.values()]

    precision = np.mean(precisions)
    recall = np.mean(recalls)
    f1 = np.mean(f1s)

    return {'precision': round(precision, 3), 
            'recall': round(recall, 3), 
            'f1': round(f1, 3)}

def weighted_average(metrics_per_class, y_true):
    """
    Рассчитывает weighted-averaged precision, recall, и F1-score.
    """
    class_counts = np.bincount(np.array([label for label in y_true]))
    total_samples = len(y_true)

    precision_weighted = 0
    recall_weighted = 0
    f1_weighted = 0

    for i, class_name in enumerate(metrics_per_class.keys()):
      weight = class_counts[i] / total_samples
      precision_weighted += weight * metrics_per_class[class_name]['precision']
      recall_weighted += weight * metrics_per_class[class_name]['recall']
      f1_weighted += weight * metrics_per_class[class_name]['f1']

    return {'precision': round(precision_weighted, 3), 
            'recall': round(recall_weighted, 3), 
            'f1': round(f1_weighted, 3)}

In [None]:
micro_metrics = micro_average(confusion_matrix(y_true, y_pred))
macro_metrics = macro_average(metrics_per_class)
weighted_metrics = weighted_average(metrics_per_class, y_true)

print("Micro Average:", micro_metrics)
print("Macro Average:", macro_metrics)
print("Weighted Average:", weighted_metrics)

In [None]:
print("Micro (sklearn):",  f1_score(y_true, y_pred, average='micro'))
print("Macro (sklearn):", f1_score(y_true, y_pred, average='macro'))
print("Weighted (sklearn):", f1_score(y_true, y_pred, average='weighted'))

## Метрики для регрессии
Регрессионные метрики оценивают, насколько точно модель предсказывает числовые значения.


In [14]:
import numpy as np

y_true = np.array([3.2, 2.8, 4.5, 3.7, 5.1])
y_pred = np.array([3.0, 3.1, 4.2, 3.9, 5.0])

### Mean Absolute Error (MAE)
Средняя абсолютная ошибка (MAE) — это среднее абсолютное отклонение предсказанных значений от реальных:

$$
MAE = \frac{1}{N} \sum_{i=1}^{N} |y_i - \hat{y}_i|
$$

**Преимущества:**  
- Интерпретируемая, измеряется в тех же единицах, что и целевая переменная.  
- Не штрафует за большие ошибки так же сильно, как MSE.

**Применение:**  
- Подходит, когда важна средняя ошибка предсказаний.

In [None]:
from sklearn.metrics import mean_absolute_error


print("Mean Absolute Error:", mean_absolute_error(y_true, y_pred))

### Mean Squared Error (MSE)
Среднеквадратичная ошибка (MSE) увеличивает штраф за большие ошибки:

$$
MSE = \frac{1}{N} \sum_{i=1}^{N} (y_i - \hat{y}_i)^2
$$

**Преимущества:**  
- Удобна для оптимизации (градиентный спуск), так как дифференцируема.  
- Чувствительна к выбросам.

**Применение:**  
- Используется в задачах, где важно минимизировать большие ошибки.

In [None]:
from sklearn.metrics import mean_squared_error


print("Mean Squared Error:", mean_squared_error(y_true, y_pred))

### Root Mean Squared Error (RMSE)
Корень из MSE:

$$
RMSE = \sqrt{MSE}
$$

**Преимущества:**  
- Измеряется в тех же единицах, что и целевая переменная.  
- Подчеркивает крупные ошибки.

**Применение:**  
- Подходит, когда важно учитывать большие ошибки.

In [None]:
print("RMSE:", np.sqrt(mean_squared_error(y_true, y_pred)))

### R² (Коэффициент детерминации)
R² измеряет, какую долю дисперсии целевой переменной объясняет модель:

$$
R^2 = 1 - \frac{\sum (y_i - \hat{y}_i)^2}{\sum (y_i - \bar{y})^2}
$$

- $ y_i $ - истинное значение целевой переменной.
- $ \hat{y}_i $ - предсказанное значение модели.
- $ \bar{y} $ - среднее значение целевой переменной по всем наблюдениям:

**Применение:**  
- Позволяет оценить, насколько хорошо модель объясняет данные.

In [None]:
from sklearn.metrics import r2_score


print("R² Score:", r2_score(y_true, y_pred))

### MAPE (Mean Absolute Percentage Error)
MAPE (средняя абсолютная процентная ошибка) измеряет среднюю величину ошибок модели в процентах относительно истинных значений. Это удобная метрика для оценки регрессионных моделей, поскольку позволяет интерпретировать ошибку в понятных процентных единицах.

$$
MAPE = \frac{100\%}{n} \sum_{i=1}^{n} \left| \frac{y_i - \hat{y}_i}{y_i} \right|
$$

**Преимущества**
- Легко интерпретировать, результат показывает среднюю ошибку в процентах от фактического значения.
- Универсальна для разных масштабов, так как относительная ошибка не зависит от единиц измерения.

**Ограничения:**
- Если в данных встречаются нулевые значения \( y_i \), формула может приводить к делению на ноль, что требует специальных подходов (например, добавление малой константы).


In [None]:
def mape(y_true, y_pred, epsilon=1e-8):
    """
    Рассчитывает среднюю абсолютную процентную ошибку (MAPE).
    
    Параметры:
    y_true : массив истинных значений
    y_pred : массив предсказанных значений
    
    Возвращает:
    MAPE в процентах
    """
    percentage_errors = np.abs((y_true - y_pred) / (y_true + epsilon))
    
    mape = np.mean(percentage_errors) * 100
    return mape

print("MAPE:", mape(y_true, y_pred))

## Метрики для кластеризации
В задачах кластеризации используются метрики, оценивающие качество разбиения данных.

In [23]:
from sklearn.cluster import KMeans
from sklearn.datasets import make_blobs

X, y_true = make_blobs(n_samples=100, centers=3, random_state=42)

kmeans = KMeans(n_clusters=3, random_state=42, n_init=10)
y_pred = kmeans.fit_predict(X)

### Silhouette Score (Силуэтный коэффициент)
Измеряет, насколько объекты внутри кластера ближе друг к другу, чем к объектам из других кластеров:

$$
s_i = \frac{b_i - a_i}{\max(a_i, b_i)}
$$

- $ a_i $ — среднее расстояние от объекта до других объектов внутри его кластера.  
- $ b_i $ — среднее расстояние от объекта до объектов ближайшего кластера.

**Применение:**  
- Используется для оценки качества кластеризации без истинных меток.

In [None]:
from sklearn.metrics import silhouette_score


print("Silhouette Score:", silhouette_score(X, y_pred))

### Davies-Bouldin Index
Оценивает среднее отношение внутрикластерного расстояния к межкластерному:

$$
DBI = \frac{1}{N} \sum_{i=1}^{N} \max_{j \neq i} \frac{\sigma_i + \sigma_j}{d_{ij}}
$$

**Применение:**  
- Чем меньше значение, тем лучше кластеризация.

In [None]:
from sklearn.metrics import davies_bouldin_score


print("Davies-Bouldin Index:", davies_bouldin_score(X, y_pred))

### Adjusted Rand Index (ARI)
Измеряет сходство между предсказанными кластерами и истинными метками:

$$
ARI = \frac{\sum_{ij} \binom{n_{ij}}{2} - \left[\sum_i \binom{a_i}{2} \sum_j \binom{b_j}{2} \right] / \binom{N}{2}}{0.5 \left[\sum_i \binom{a_i}{2} + \sum_j \binom{b_j}{2} \right] - \left[\sum_i \binom{a_i}{2} \sum_j \binom{b_j}{2} \right] / \binom{N}{2}}
$$

**Применение:**  
- Используется, когда есть истинные метки кластеров.

In [None]:
from sklearn.metrics import adjusted_rand_score


print("Adjusted Rand Index:", adjusted_rand_score(y_true, y_pred))

In [None]:
import sklearn.metrics

# help(sklearn.metrics)
dir(sklearn.metrics)