# Доля объясненной дисперсии
---
Собственные значения ковариационной матрицы связаны с дисперсией данных вдоль главных компонент. Если отсортировать собственные значения по убыванию $\lambda_1 \ge \lambda_2 \ge \dots \ge \lambda_m$, то суммарная дисперсия данных равна $\sum_{i=1}^{m} \lambda_i$ (это же равно следу матрицы). Доля объяснённой дисперсии первыми $k$ компонентами определяется как:

$$
\gamma \;=\; \frac{\displaystyle\sum_{i=1}^{k} \lambda_{i}}{\displaystyle\sum_{i=1}^{m} \lambda_{i}}.
$$

Она показывает, какая часть разброса (информации) сохраняется, если мы оставим $k$ главных компонент и отбросим остальные. Обычно выбирают минимальное $k$, при котором $\gamma$ превышает некоторый порог (например, 95%).

---

In [1]:
from typing import List

In [2]:
def explained_variance_ratio(eigenvalues: List[float], k: int) -> float:
    """
    Вход:
    eigenvalues: список собственных значений
    k: число компонент (первых k собственных значений)
    Выход:
    доля объяснённой дисперсии (от 0 до 1)
    """
    if not eigenvalues:
        return 0.0
    # Сортируем по убыванию на случай, если не отсортировано
    vals = sorted(eigenvalues, reverse=True)
    total = sum(vals)
    if total == 0:
        return 0.0
    explained = sum(vals[:k])
    return explained / total

Функция возвращает число от 0 до 1 (или 0, если список пустой). Например, если передать все собственные значения и $k=m$, то доля будет 1 (100% дисперсии объяснено всеми компонентами). Если $k$ мало, доля обычно < 1.

---