# Ошибка восстановления данных (MSE)
---
При снижении размерности часть информации теряется. Можно попытаться восстановить данные из проекции на $k$ компонент (обратно преобразовать в исходное пространство) и сравнить с оригиналом. Разница между оригинальными и восстановленными данными характеризует потери. В качестве меры возьмём среднеквадратическую ошибку восстановления (Mean Squared Error):

$$
\mathrm{MSE} \;=\; \frac{1}{n \cdot m} \sum_{i=1}^{n} \sum_{j=1}^{m} \bigl(X^{\mathrm{orig}}_{i j} - X^{\mathrm{recon}}_{i j}\bigr)^{2},
$$

где $X^{\text{orig}}$ – исходные данные, $X^{\text{recon}}$ – восстановленные. Множитель $1/(n\cdot m)$ усредняет ошибку по всем элементам. \
\
Восстановить данные можно так: если $X_{\text{proj}} = X_{\text{centered}} W$, то $X_{\text{recon, centered}} \approx X_{\text{proj}} W^T$. Затем добавляем средние значения (то есть прибавляем обратно в каждый столбец среднее исходного $X$). В рамках лабораторной функции мы предполагаем, что нам уже передан $X_{\text{recon}}$ и вычислим MSE.

---

In [1]:
def reconstruction_error(X_orig: 'Matrix', X_recon: 'Matrix') -> float:
    n, m = X_orig.rows, X_orig.cols
    if X_recon.rows != n or X_recon.cols != m:
        raise ValueError("Размерности X_orig и X_recon должны совпадать")
    if n == 0 or m == 0:
        return 0.0
    total_error = 0.0
    for i in range(n):
        for j in range(m):
            diff = X_orig.data[i][j] - X_recon.data[i][j]
            total_error += diff * diff
    return total_error / (n * m)

Низкое значение MSE говорит о том, что восстановление близко к оригиналу (то есть выбранных главных компонент достаточно для описания данных), высокое – что потеряна значительная часть вариации. В идеале, если взять $k=m$, восстановление будет точным (MSE = 0). Чем меньше $k$, тем больше ошибка.

---