https://habr.com/ru/articles/821547/

In [6]:
from IPython.display import display, Markdown, Math

# Function to display metric formulas
def display_metric(name, description, formula):
    display(Markdown(f"**{name}:** {description}"))
    display(Math(formula))

# Regression Metrics
display(Markdown("<span style='color: red; font-size: 25px;'><b>Метрики Регрессии</b></span>"))

# Mean Absolute Error (MAE)
display_metric("Средняя Абсолютная Ошибка (MAE)",
               "Измеряет среднюю величину ошибок в наборе предсказаний, не учитывая их направление.",
               r'MAE = \frac{1}{n} \sum_{i=1}^{n} |y_i - \hat{y}_i|')

# Mean Squared Error (MSE)
display_metric("Средняя Квадратическая Ошибка (MSE)",
               "Измеряет среднее значение квадратов ошибок. Более чувствителен к выбросам, чем MAE.",
               r'MSE = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2')

# Root Mean Squared Error (RMSE)
display_metric("Квадратный Корень из Средней Квадратической Ошибки (RMSE)",
               "Квадратный корень из средней квадратической ошибки. Представляет стандартное отклонение остатков.",
               r'RMSE = \sqrt{MSE}')

# Max Error
display_metric("Максимальная Ошибка",
               "Измеряет максимальную остаточную ошибку.",
               r'\text{Max Error} = \max(|y_i - \hat{y}_i|)')

# Coverage Error
display_metric("Ошибка Покрытия",
               "Измеряет среднее количество меток, которые нужно включить в предсказание, чтобы все истинные метки были предсказаны.",
               r'\text{Coverage Error} = \frac{1}{n} \sum_{i=1}^{n} \min(k : y_i \in \text{Top-k}(\hat{y}_i))')

# Mean Absolute Percentage Error (MAPE)
display_metric("Средняя Абсолютная Процентная Ошибка (MAPE)",
               "Измеряет среднее значение абсолютных процентных ошибок.",
               r'MAPE = \frac{1}{n} \sum_{i=1}^{n} \left| \frac{y_i - \hat{y}_i}{y_i} \right| \times 100')

# Median Absolute Error
display_metric("Медианная Абсолютная Ошибка",
               "Измеряет медиану абсолютных ошибок.",
               r'\text{Median Absolute Error} = \text{median}(|y_i - \hat{y}_i|)')

# Mean Squared Logarithmic Error (MSLE)
display_metric("Средняя Квадратическая Логарифмическая Ошибка (MSLE)",
               "Измеряет среднее значение квадратов логарифмических ошибок.",
               r'MSLE = \frac{1}{n} \sum_{i=1}^{n} (\log(1 + y_i) - \log(1 + \hat{y}_i))^2')

# Root Mean Squared Logarithmic Error (RMSLE)
display_metric("Квадратный Корень из Средней Квадратической Логарифмической Ошибки (RMSLE)",
               "Квадратный корень из средней квадратической логарифмической ошибки.",
               r'RMSLE = \sqrt{MSLE}')

# Classification Metrics
display(Markdown("<span style='color: red; font-size: 25px;'><b>Метрики Классификации</b></span>"))

# Accuracy Score
display_metric("Точность (Accuracy Score)",
               "Измеряет отношение правильно предсказанных случаев к общему количеству случаев.",
               r'Accuracy = \frac{1}{n_{samples}} \sum_{i=0}^{n_{samples}-1} 1(\hat{y}_i = y_i)')

# Precision Score
display_metric("Точность (Precision Score)",
               "Измеряет отношение правильно предсказанных положительных наблюдений к общему количеству предсказанных положительных наблюдений.",
               r'Precision = \frac{TP}{TP + FP}')

# Recall Score
display_metric("Полнота (Recall Score)",
               "Измеряет отношение правильно предсказанных положительных наблюдений ко всем наблюдениям в фактическом классе.",
               r'Recall = \frac{TP}{TP + FN}')

# F1 Score
display_metric("F1 Оценка (F1 Score)",
               "Взвешенное среднее значение Точности и Полноты.",
               r'F1 = 2 \times \frac{Precision \times Recall}{Precision + Recall}')

# ROC AUC Score
display_metric("ROC AUC Оценка (ROC AUC Score)",
               "Измеряет площадь под ROC кривой.",
               r'\text{ROC AUC} = \int_{0}^{1} \text{ROC}(t) \, dt')

# R2 Score
display_metric("Коэффициент детерминации (R2 Score)",
               "Измеряет долю дисперсии в зависимой переменной, предсказуемую из независимых переменных.",
               r'R^2 = 1 - \frac{\sum_{i=1}^{n} (y_i - \hat{y}_i)^2}{\sum_{i=1}^{n} (y_i - \bar{y})^2}')

# D2 Absolute Error Score
display_metric("D2 Оценка Абсолютной Ошибки (D2 Absolute Error Score)",
               "Измеряет степень отклонения от модели абсолютной ошибки.",
               r'D^2 = 1 - \frac{\sum_{i=1}^{n} |y_i - \hat{y}_i|}{\sum_{i=1}^{n} |y_i - \bar{y}|}')

# NDCG Score
display_metric("NDCG Оценка (NDCG Score)",
               "Измеряет качество ранжирования.",
               r'NDCG = \frac{DCG}{IDCG}')

# Rand Score
display_metric("Ранд Оценка (Rand Score)",
               "Измеряет сходство между двумя кластеризациями данных.",
               r'Rand = \frac{TP + TN}{TP + FP + FN + TN}')

# DCG Score
display_metric("DCG Оценка (DCG Score)",
               "Измеряет качество ранжирования.",
               r'DCG = \sum_{i=1}^{n} \frac{2^{rel_i} - 1}{\log_2(i + 1)}')

# Fbeta Score
display_metric("Fbeta Оценка (Fbeta Score)",
               "Взвешенное среднее значение Точности и Полноты с весовым коэффициентом beta.",
               r'F_\beta = (1 + \beta^2) \times \frac{Precision \times Recall}{\beta^2 \times Precision + Recall}')

# Adjusted Rand Score
display_metric("Скорректированная Ранд Оценка (Adjusted Rand Score)",
               "Измеряет сходство между двумя кластеризациями данных с учетом случайности.",
               r'Adjusted \, Rand = \frac{RI - Expected \, RI}{Max \, RI - Expected \, RI}')

# Silhouette Score
display_metric("Оценка Силуэта (Silhouette Score)",
               "Измеряет, насколько объект похож на свой собственный кластер по сравнению с другими кластерами.",
               r'Silhouette = \frac{b - a}{\max(a, b)}')

# Completeness Score
display_metric("Оценка Полноты (Completeness Score)",
               "Измеряет, все ли точки данных, являющиеся членами данного класса, являются элементами одного и того же кластера.",
               r'Completeness = 1 - \frac{H(C|K)}{H(C)}')

# Homogeneity Score
display_metric("Оценка Однородности (Homogeneity Score)",
               "Измеряет, содержит ли каждый кластер только члены одного класса.",
               r'Homogeneity = 1 - \frac{H(K|C)}{H(K)}')

# Jaccard Score
display_metric("Оценка Жаккара (Jaccard Score)",
               "Измеряет сходство между наборами образцов.",
               r'Jaccard = \frac{|A \cap B|}{|A \cup B|}')

# Consensus Score
display_metric("Оценка Консенсуса (Consensus Score)",
               "Измеряет консенсус результатов кластеризации.",
               r'Consensus = \frac{2}{n(n-1)} \sum_{i < j} \frac{a_{ij} \cdot b_{ij}}{\sqrt{a_{ij} \cdot a_{ji} \cdot b_{ij} \cdot b_{ji}}}')

# V-measure Score
display_metric("Оценка V-меры (V-measure Score)",
               "Измеряет гармоническое среднее между Однородностью и Полнотой.",
               r'V = 2 \times \frac{Homogeneity \times Completeness}{Homogeneity + Completeness}')

# Brier Score Loss
display_metric("Оценка Потерь Брайера (Brier Score Loss)",
               "Измеряет среднеквадратичную разницу между предсказанными вероятностями и фактическими бинарными значениями.",
               r'Brier = \frac{1}{n} \sum_{i=1}^{n} (f_i - o_i)^2')

# D2 Tweedie Score
display_metric("D2 Оценка Твиди (D2 Tweedie Score)",
               "Измеряет степень отклонения от модели Твиди.",
               r'D^2 = 1 - \frac{\sum_{i=1}^{n} |y_i - \hat{y}_i|^p}{\sum_{i=1}^{n} |y_i - \bar{y}|^p}')

# Cohen's Kappa Score
display_metric("Оценка Каппы Коэна (Cohen's Kappa Score)",
               "Измеряет согласие между двумя оценщиками.",
               r'Kappa = \frac{p_o - p_e}{1 - p_e}')

# D2 Pinball Score
display_metric("D2 Оценка Пинбола (D2 Pinball Score)",
               "Измеряет степень отклонения от модели Пинбола.",
               r'D^2 = 1 - \frac{\sum_{i=1}^{n} L(y_i, \hat{y}_i)}{\sum_{i=1}^{n} L(y_i, \bar{y})}')

# Mutual Information Score
display_metric("Оценка Взаимной Информации (Mutual Information Score)",
               "Измеряет взаимную информацию между двумя наборами данных.",
               r'MI = \sum_{x \in X} \sum_{y \in Y} p(x, y) \log \left( \frac{p(x, y)}{p(x) p(y)} \right)')

# Adjusted Mutual Information Score
display_metric("Скорректированная Оценка Взаимной Информации (Adjusted Mutual Information Score)",
               "Измеряет взаимную информацию между двумя наборами данных с учетом случайности.",
               r'AMI = \frac{MI - E[MI]}{\max(H(U), H(V)) - E[MI]}')

# Average Precision Score
display_metric("Средняя Оценка Точности (Average Precision Score)",
               "Измеряет площадь под кривой точность-полнота.",
               r'AP = \sum_n (R_n - R_{n-1}) P_n')

# Label Ranking Average Precision Score
display_metric("Средняя Оценка Точности Ранжирования Меток (Label Ranking Average Precision Score)",
               "Измеряет среднюю оценку точности для ранжирования меток.",
               r'LRAP = \frac{1}{n} \sum_{i=1}^{n} \frac{\sum_{j=1}^{k} P(y_{ij})}{\max_{y_{ij}} P(y_{ij})}')

# Balanced Accuracy Score
display_metric("Сбалансированная Точность (Balanced Accuracy Score)",
               "Измеряет сбалансированную точность.",
               r'Balanced \, Accuracy = \frac{Sensitivity + Specificity}{2}')

# Top K Accuracy Score
display_metric("Топ K Точность (Top K Accuracy Score)",
               "Измеряет точность с учетом топ k предсказаний.",
               r'Top \, K \, Accuracy = \frac{1}{n} \sum_{i=1}^{n} 1(y_i \in \text{Top-k}(\hat{y}_i))')

# Calinski Harabasz Score
display_metric("Оценка Калински-Харабаша (Calinski Harabasz Score)",
               "Измеряет отношение суммы межкластерной дисперсии к внутрикластерной дисперсии.",
               r'CH = \frac{Tr(B_k)}{Tr(W_k)} \times \frac{n - k}{k - 1}')

# Function to display metric formulas
def display_metric(name, description, formula, value_range, best_case, worst_case):
    display(Markdown(f"**{name}:** {description}"))
    display(Math(formula))
    display(Markdown(f"- **Область значений:** {value_range}"))
    display(Markdown(f"- **Наилучшее значение:** {best_case}"))
    display(Markdown(f"- **Наихудшее значение:** {worst_case}"))

# Clustering Metrics
display(Markdown("<span style='color: red; font-size: 25px;'><b>Метрики Кластеризации</b></span>"))

# Silhouette Coefficient
display_metric(
    "Силуэтный коэффициент (Silhouette Coefficient)",
    "Эта метрика измеряет, насколько близко каждый объект в кластере к другим объектам из того же кластера по сравнению с объектами из других кластеров.",
    r's(i) = \frac{b(i) - a(i)}{\max(a(i), b(i))}',
    "от -1 до 1",
    "ближе к 1",
    "ближе к -1"
)

# Davies-Bouldin Index
display_metric(
    "Индекс Давиеса-Болдина (Davies-Bouldin Index)",
    "Эта метрика измеряет \"расплывчатость\" кластеров, оценивая отношение расстояния между кластерами к их размерам.",
    r'DB = \frac{1}{k} \sum_{i=1}^{k} \max_{i \neq j} \left( \frac{\sigma_i + \sigma_j}{d_{ij}} \right)',
    "от 0 до ∞ (меньше — лучше)",
    "ближе к 0",
    "большие значения"
)

# Calinski-Harabasz Index
display_metric(
    "Индекс Калинского-Харабаса (Calinski-Harabasz Index)",
    "Эта метрика измеряет отношение сумм внутрикластерных и межкластерных расстояний, оценивая плотность и разделение кластеров.",
    r'CH = \frac{\text{trace}(B_k) / (k - 1)}{\text{trace}(W_k) / (n - k)}',
    "от 0 до ∞ (больше — лучше)",
    "большие значения",
    "меньшие значения"
)

# Dunn Index
display_metric(
    "Индекс Данс (Dunn Index)",
    "Эта метрика оценивает плотность кластеров и их разделение, вычисляя минимальное межкластерное расстояние, деленное на максимальный диаметр кластера.",
    r'D = \frac{\min_{1 \leq i < j \leq k} d(C_i, C_j)}{\max_{1 \leq l \leq k} \delta(C_l)}',
    "от 0 до ∞ (больше — лучше)",
    "большие значения",
    "меньшие значения"
)

# V-Measure
display_metric(
    "V-Measure",
    "Это мера, основанная на энтропии, оценивающая как полноту (все объекты одного класса находятся в одном кластере), так и правильность (все объекты одного кластера принадлежат одному классу).",
    r'V = 2 \times \frac{\text{homogeneity} \times \text{completeness}}{\text{homogeneity} + \text{completeness}}',
    "от 0 до 1",
    "ближе к 1",
    "ближе к 0"
)

# Adjusted Rand Index (ARI)
display_metric(
    "Adjusted Rand Index (ARI)",
    "Эта мера оценивает сходство между двумя различными кластеризациями, учитывающая случайные совпадения.",
    r'ARI = \frac{\sum_{ij} \binom{n_{ij}}{2} - \left[ \sum_i \binom{a_i}{2} \sum_j \binom{b_j}{2} \right] / \binom{n}{2}}{0.5 \left[ \sum_i \binom{a_i}{2} + \sum_j \binom{b_j}{2} \right] - \left[ \sum_i \binom{a_i}{2} \sum_j \binom{b_j}{2} \right] / \binom{n}{2}}',
    "от -1 до 1",
    "ближе к 1",
    "ближе к -1"
)

# Function to display metric formulas
def display_metric(name, description, formula, additional_info):
    display(Markdown(f"**{name}:** {description}"))
    display(Math(formula))
    if additional_info:
        display(Markdown(additional_info))

# Clustering and Recommender System Distance Metrics
display(Markdown("<span style='color: red; font-size: 25px;'><b>Метрики Дистанций для Кластеризации и Рекомендательных Систем</b></span>"))

# Minkowski Distance
display_metric("Расстояние Минковского (Minkowski)",
               "Обобщение расстояний Евклида и Манхэттена. Параметр p определяет степень обобщения. При p=1 оно совпадает с Манхэттенским расстоянием, при p=2 - с Евклидовым расстоянием.",
               r'd(x, y) = \left( \sum_{i=1}^{n} |x_i - y_i|^p \right)^{\frac{1}{p}}',
               "Эта метрика позволяет гибко регулировать влияние больших и малых расстояний между точками. В алгоритмах кластеризации, таких как k-means, выбор параметра p может существенно повлиять на результат.")

# Cityblock Distance (Manhattan Distance)
display_metric("Манхэттенское Расстояние (Cityblock/Manhattan)",
               "Сумма абсолютных различий по каждой координате. Также известно как L1-норма. Используется в задачах, где перемещения возможны только по осям координат, как на решетке.",
               r'd(x, y) = \sum_{i=1}^{n} |x_i - y_i|',
               "Эта метрика часто применяется в задачах с сеточными структурами, например, в таксопарках, где перемещения возможны только вдоль улиц, параллельных осям координат.")

# Cosine Distance
display_metric("Косинусное Расстояние (Cosine)",
               "Измеряет угловую разницу между двумя векторами, интерпретируемую как разность направлений. Векторная разница не зависит от длины векторов.",
               r'd(x, y) = 1 - \frac{\sum_{i=1}^{n} x_i y_i}{\sqrt{\sum_{i=1}^{n} x_i^2} \cdot \sqrt{\sum_{i=1}^{n} y_i^2}}',
               "Эта метрика широко используется в рекомендательных системах и анализе текстов, где важна схожесть направлений векторов, представляющих документы или профили пользователей.")

# Euclidean Distance
display_metric("Евклидово Расстояние (Euclidean)",
               "Квадратный корень из суммы квадратов различий по каждой координате. Также известно как L2-норма. Является естественным измерением расстояния в евклидовом пространстве.",
               r'd(x, y) = \sqrt{\sum_{i=1}^{n} (x_i - y_i)^2}',
               "Эта метрика является основной в геометрических задачах и алгоритмах кластеризации, таких как k-means, где естественное расстояние между точками играет ключевую роль.")

# Haversine Distance
display_metric("Расстояние Хаверсина (Haversine)",
               "Используется для вычисления расстояния между двумя точками на сфере, например, на Земле. Учитывает кривизну поверхности.",
               r'd(x, y) = 2r \arcsin \left( \sqrt{\sin^2\left(\frac{\varphi_2 - \varphi_1}{2}\right) + \cos(\varphi_1) \cos(\varphi_2) \sin^2\left(\frac{\lambda_2 - \lambda_1}{2}\right)} \right)',
               "Эта метрика важна в географических информационных системах (ГИС) и навигационных приложениях, где необходимо учитывать кривизну Земли для точных вычислений расстояний.")

# L1 Distance (Same as Cityblock/Manhattan)
display_metric("L1 Расстояние (L1)",
               "Сумма абсолютных различий по каждой координате. Совпадает с Манхэттенским расстоянием.",
               r'd(x, y) = \sum_{i=1}^{n} |x_i - y_i|',
               "Используется в задачах оптимизации и регуляризации, где предпочтительно минимизировать сумму абсолютных отклонений, а не квадратов отклонений.")

# L2 Distance (Same as Euclidean)
display_metric("L2 Расстояние (L2)",
               "Квадратный корень из суммы квадратов различий по каждой координате. Совпадает с Евклидовым расстоянием.",
               r'd(x, y) = \sqrt{\sum_{i=1}^{n} (x_i - y_i)^2}',
               "Широко применяется в алгоритмах машинного обучения, таких как метод наименьших квадратов, где минимизация квадратов отклонений является ключевой целью.")

# Manhattan Distance (Same as Cityblock)
display_metric("Манхэттенское Расстояние (Manhattan)",
               "Сумма абсолютных различий по каждой координате. Совпадает с L1 расстоянием.",
               r'd(x, y) = \sum_{i=1}^{n} |x_i - y_i|',
               "Используется в задачах, где движение происходит по прямым линиям вдоль осей координат, например, в маршрутизации транспортных средств в городских условиях.")

# Nan Euclidean Distance
display_metric("Nan Евклидово Расстояние (Nan Euclidean)",
               "Евклидово расстояние, игнорируя пропущенные значения (NaN).",
               r'd(x, y) = \sqrt{\sum_{i=1}^{n} w_i (x_i - y_i)^2}, \text{ where } w_i = \begin{cases} 0, & \text{if } x_i \text{ or } y_i \text{ is NaN} \\ 1, & \text{otherwise} \end{cases}',
               "Эта метрика полезна в анализе данных с пропусками, где важно учитывать только доступные данные без влияния пропущенных значений.")

# Levenshtein Distance
display_metric("Расстояние Левенштейна (Levenshtein)",
               "Минимальное количество односимвольных правок (вставка, удаление, замена), необходимых для преобразования одной строки в другую.",
               r'd(a, b) = \min \begin{cases} d(a_{1..i-1}, b_{1..j}) + 1 \\ d(a_{1..i}, b_{1..j-1}) + 1 \\ d(a_{1..i-1}, b_{1..j-1}) + \begin{cases} 0, & \text{if } a_i = b_j \\ 1, & \text{otherwise} \end{cases} \end{cases}',
               "Используется в задачах обработки текста и биоинформатики для сравнения строк, таких как последовательности ДНК, текстовые данные, где важны операции редактирования.")



<span style='color: red; font-size: 25px;'><b>Метрики Регрессии</b></span>

**Средняя Абсолютная Ошибка (MAE):** Измеряет среднюю величину ошибок в наборе предсказаний, не учитывая их направление.

<IPython.core.display.Math object>

**Средняя Квадратическая Ошибка (MSE):** Измеряет среднее значение квадратов ошибок. Более чувствителен к выбросам, чем MAE.

<IPython.core.display.Math object>

**Квадратный Корень из Средней Квадратической Ошибки (RMSE):** Квадратный корень из средней квадратической ошибки. Представляет стандартное отклонение остатков.

<IPython.core.display.Math object>

**Максимальная Ошибка:** Измеряет максимальную остаточную ошибку.

<IPython.core.display.Math object>

**Ошибка Покрытия:** Измеряет среднее количество меток, которые нужно включить в предсказание, чтобы все истинные метки были предсказаны.

<IPython.core.display.Math object>

**Средняя Абсолютная Процентная Ошибка (MAPE):** Измеряет среднее значение абсолютных процентных ошибок.

<IPython.core.display.Math object>

**Медианная Абсолютная Ошибка:** Измеряет медиану абсолютных ошибок.

<IPython.core.display.Math object>

**Средняя Квадратическая Логарифмическая Ошибка (MSLE):** Измеряет среднее значение квадратов логарифмических ошибок.

<IPython.core.display.Math object>

**Квадратный Корень из Средней Квадратической Логарифмической Ошибки (RMSLE):** Квадратный корень из средней квадратической логарифмической ошибки.

<IPython.core.display.Math object>

<span style='color: red; font-size: 25px;'><b>Метрики Классификации</b></span>

**Точность (Accuracy Score):** Измеряет отношение правильно предсказанных случаев к общему количеству случаев.

<IPython.core.display.Math object>

**Точность (Precision Score):** Измеряет отношение правильно предсказанных положительных наблюдений к общему количеству предсказанных положительных наблюдений.

<IPython.core.display.Math object>

**Полнота (Recall Score):** Измеряет отношение правильно предсказанных положительных наблюдений ко всем наблюдениям в фактическом классе.

<IPython.core.display.Math object>

**F1 Оценка (F1 Score):** Взвешенное среднее значение Точности и Полноты.

<IPython.core.display.Math object>

**ROC AUC Оценка (ROC AUC Score):** Измеряет площадь под ROC кривой.

<IPython.core.display.Math object>

**Коэффициент детерминации (R2 Score):** Измеряет долю дисперсии в зависимой переменной, предсказуемую из независимых переменных.

<IPython.core.display.Math object>

**D2 Оценка Абсолютной Ошибки (D2 Absolute Error Score):** Измеряет степень отклонения от модели абсолютной ошибки.

<IPython.core.display.Math object>

**NDCG Оценка (NDCG Score):** Измеряет качество ранжирования.

<IPython.core.display.Math object>

**Ранд Оценка (Rand Score):** Измеряет сходство между двумя кластеризациями данных.

<IPython.core.display.Math object>

**DCG Оценка (DCG Score):** Измеряет качество ранжирования.

<IPython.core.display.Math object>

**Fbeta Оценка (Fbeta Score):** Взвешенное среднее значение Точности и Полноты с весовым коэффициентом beta.

<IPython.core.display.Math object>

**Скорректированная Ранд Оценка (Adjusted Rand Score):** Измеряет сходство между двумя кластеризациями данных с учетом случайности.

<IPython.core.display.Math object>

**Оценка Силуэта (Silhouette Score):** Измеряет, насколько объект похож на свой собственный кластер по сравнению с другими кластерами.

<IPython.core.display.Math object>

**Оценка Полноты (Completeness Score):** Измеряет, все ли точки данных, являющиеся членами данного класса, являются элементами одного и того же кластера.

<IPython.core.display.Math object>

**Оценка Однородности (Homogeneity Score):** Измеряет, содержит ли каждый кластер только члены одного класса.

<IPython.core.display.Math object>

**Оценка Жаккара (Jaccard Score):** Измеряет сходство между наборами образцов.

<IPython.core.display.Math object>

**Оценка Консенсуса (Consensus Score):** Измеряет консенсус результатов кластеризации.

<IPython.core.display.Math object>

**Оценка V-меры (V-measure Score):** Измеряет гармоническое среднее между Однородностью и Полнотой.

<IPython.core.display.Math object>

**Оценка Потерь Брайера (Brier Score Loss):** Измеряет среднеквадратичную разницу между предсказанными вероятностями и фактическими бинарными значениями.

<IPython.core.display.Math object>

**D2 Оценка Твиди (D2 Tweedie Score):** Измеряет степень отклонения от модели Твиди.

<IPython.core.display.Math object>

**Оценка Каппы Коэна (Cohen's Kappa Score):** Измеряет согласие между двумя оценщиками.

<IPython.core.display.Math object>

**D2 Оценка Пинбола (D2 Pinball Score):** Измеряет степень отклонения от модели Пинбола.

<IPython.core.display.Math object>

**Оценка Взаимной Информации (Mutual Information Score):** Измеряет взаимную информацию между двумя наборами данных.

<IPython.core.display.Math object>

**Скорректированная Оценка Взаимной Информации (Adjusted Mutual Information Score):** Измеряет взаимную информацию между двумя наборами данных с учетом случайности.

<IPython.core.display.Math object>

**Средняя Оценка Точности (Average Precision Score):** Измеряет площадь под кривой точность-полнота.

<IPython.core.display.Math object>

**Средняя Оценка Точности Ранжирования Меток (Label Ranking Average Precision Score):** Измеряет среднюю оценку точности для ранжирования меток.

<IPython.core.display.Math object>

**Сбалансированная Точность (Balanced Accuracy Score):** Измеряет сбалансированную точность.

<IPython.core.display.Math object>

**Топ K Точность (Top K Accuracy Score):** Измеряет точность с учетом топ k предсказаний.

<IPython.core.display.Math object>

**Оценка Калински-Харабаша (Calinski Harabasz Score):** Измеряет отношение суммы межкластерной дисперсии к внутрикластерной дисперсии.

<IPython.core.display.Math object>

<span style='color: red; font-size: 25px;'><b>Метрики Кластеризации</b></span>

**Силуэтный коэффициент (Silhouette Coefficient):** Эта метрика измеряет, насколько близко каждый объект в кластере к другим объектам из того же кластера по сравнению с объектами из других кластеров.

<IPython.core.display.Math object>

- **Область значений:** от -1 до 1

- **Наилучшее значение:** ближе к 1

- **Наихудшее значение:** ближе к -1

**Индекс Давиеса-Болдина (Davies-Bouldin Index):** Эта метрика измеряет "расплывчатость" кластеров, оценивая отношение расстояния между кластерами к их размерам.

<IPython.core.display.Math object>

- **Область значений:** от 0 до ∞ (меньше — лучше)

- **Наилучшее значение:** ближе к 0

- **Наихудшее значение:** большие значения

**Индекс Калинского-Харабаса (Calinski-Harabasz Index):** Эта метрика измеряет отношение сумм внутрикластерных и межкластерных расстояний, оценивая плотность и разделение кластеров.

<IPython.core.display.Math object>

- **Область значений:** от 0 до ∞ (больше — лучше)

- **Наилучшее значение:** большие значения

- **Наихудшее значение:** меньшие значения

**Индекс Данс (Dunn Index):** Эта метрика оценивает плотность кластеров и их разделение, вычисляя минимальное межкластерное расстояние, деленное на максимальный диаметр кластера.

<IPython.core.display.Math object>

- **Область значений:** от 0 до ∞ (больше — лучше)

- **Наилучшее значение:** большие значения

- **Наихудшее значение:** меньшие значения

**V-Measure:** Это мера, основанная на энтропии, оценивающая как полноту (все объекты одного класса находятся в одном кластере), так и правильность (все объекты одного кластера принадлежат одному классу).

<IPython.core.display.Math object>

- **Область значений:** от 0 до 1

- **Наилучшее значение:** ближе к 1

- **Наихудшее значение:** ближе к 0

**Adjusted Rand Index (ARI):** Эта мера оценивает сходство между двумя различными кластеризациями, учитывающая случайные совпадения.

<IPython.core.display.Math object>

- **Область значений:** от -1 до 1

- **Наилучшее значение:** ближе к 1

- **Наихудшее значение:** ближе к -1

<span style='color: red; font-size: 25px;'><b>Метрики Дистанций для Кластеризации и Рекомендательных Систем</b></span>

**Расстояние Минковского (Minkowski):** Обобщение расстояний Евклида и Манхэттена. Параметр p определяет степень обобщения. При p=1 оно совпадает с Манхэттенским расстоянием, при p=2 - с Евклидовым расстоянием.

<IPython.core.display.Math object>

Эта метрика позволяет гибко регулировать влияние больших и малых расстояний между точками. В алгоритмах кластеризации, таких как k-means, выбор параметра p может существенно повлиять на результат.

**Манхэттенское Расстояние (Cityblock/Manhattan):** Сумма абсолютных различий по каждой координате. Также известно как L1-норма. Используется в задачах, где перемещения возможны только по осям координат, как на решетке.

<IPython.core.display.Math object>

Эта метрика часто применяется в задачах с сеточными структурами, например, в таксопарках, где перемещения возможны только вдоль улиц, параллельных осям координат.

**Косинусное Расстояние (Cosine):** Измеряет угловую разницу между двумя векторами, интерпретируемую как разность направлений. Векторная разница не зависит от длины векторов.

<IPython.core.display.Math object>

Эта метрика широко используется в рекомендательных системах и анализе текстов, где важна схожесть направлений векторов, представляющих документы или профили пользователей.

**Евклидово Расстояние (Euclidean):** Квадратный корень из суммы квадратов различий по каждой координате. Также известно как L2-норма. Является естественным измерением расстояния в евклидовом пространстве.

<IPython.core.display.Math object>

Эта метрика является основной в геометрических задачах и алгоритмах кластеризации, таких как k-means, где естественное расстояние между точками играет ключевую роль.

**Расстояние Хаверсина (Haversine):** Используется для вычисления расстояния между двумя точками на сфере, например, на Земле. Учитывает кривизну поверхности.

<IPython.core.display.Math object>

Эта метрика важна в географических информационных системах (ГИС) и навигационных приложениях, где необходимо учитывать кривизну Земли для точных вычислений расстояний.

**L1 Расстояние (L1):** Сумма абсолютных различий по каждой координате. Совпадает с Манхэттенским расстоянием.

<IPython.core.display.Math object>

Используется в задачах оптимизации и регуляризации, где предпочтительно минимизировать сумму абсолютных отклонений, а не квадратов отклонений.

**L2 Расстояние (L2):** Квадратный корень из суммы квадратов различий по каждой координате. Совпадает с Евклидовым расстоянием.

<IPython.core.display.Math object>

Широко применяется в алгоритмах машинного обучения, таких как метод наименьших квадратов, где минимизация квадратов отклонений является ключевой целью.

**Манхэттенское Расстояние (Manhattan):** Сумма абсолютных различий по каждой координате. Совпадает с L1 расстоянием.

<IPython.core.display.Math object>

Используется в задачах, где движение происходит по прямым линиям вдоль осей координат, например, в маршрутизации транспортных средств в городских условиях.

**Nan Евклидово Расстояние (Nan Euclidean):** Евклидово расстояние, игнорируя пропущенные значения (NaN).

<IPython.core.display.Math object>

Эта метрика полезна в анализе данных с пропусками, где важно учитывать только доступные данные без влияния пропущенных значений.

**Расстояние Левенштейна (Levenshtein):** Минимальное количество односимвольных правок (вставка, удаление, замена), необходимых для преобразования одной строки в другую.

<IPython.core.display.Math object>

Используется в задачах обработки текста и биоинформатики для сравнения строк, таких как последовательности ДНК, текстовые данные, где важны операции редактирования.