# Центрирование данных
---
Для применения PCA необходимо предварительно центрировать данные, то есть вычесть из каждого признака (столбца данных) его среднее значение. Центрирование приводит каждый столбец к среднему 0, что позволяет ковариационной матрице корректно отражать разброс данных. Без центрирования главный компонент может сместиться к смещенным данным. Формально, если $X$ – матрица данных размером $n \times m$ (где $n$ – число объектов, $m$ – число признаков), то центрирование вычисляется как:

$$
X_{\mathrm{centered}} = X - \mathrm{mean}(X),
$$

где вычитание производится покоординатно для каждого столбца (из каждого элемента столбца вычитается среднее этого столбца).

---

In [1]:
from src.Matrix import Matrix

In [2]:
def center_data(X: 'Matrix') -> 'Matrix':
    """
    Вход:
    X: матрица данных (n×m)
    Выход:
    центрированная матрица X_centered (n×m)
    """
    n, m = X.rows, X.cols
    # Вычисляем среднее каждого столбца
    means = [0.0] * m
    for j in range(m):
        col_sum = 0.0
        for i in range(n):
            col_sum += X.data[i][j]
        means[j] = col_sum / n
    # Формируем новую матрицу, вычитая среднее
    X_centered = Matrix((n, m))
    for i in range(n):
        for j in range(m):
            X_centered.data[i][j] = X.data[i][j] - means[j]
    return X_centered

После выполнения center_data все столбцы матрицы имеют среднее значение, очень близкое к нулю (с учетом вычислительных погрешностей). Это подготавливает данные к вычислению ковариаций.

---