# Обработка пропущенных значений
---
В реальных данных могут встречаться пропуски (NaN – Not a Number). PCA не может быть напрямую применен к данным с пропусками, поэтому их нужно заполнить (импьютация). Один из простых подходов – заменить все NaN на среднее значение соответствующего признака (столбца) по остальным наблюдениям. Это сохраняет среднее, хотя может занизить дисперсию по этому признаку.

---

In [1]:
from src.handle_missing_values import handle_missing_values
from src.Matrix import Matrix

In [2]:
# Исходная матрица с NaN (используем float('nan'))
X_data = [
    [1.0,   float('nan'), 3.0],
    [4.0,   5.0,          float('nan')],
    [float('nan'), 7.0,   9.0]
]
X_mat = Matrix(X_data)
X_filled = handle_missing_values(X_mat)
print(X_filled)

Matrix([[1.0, 6.0, 3.0], [4.0, 5.0, 6.0], [2.5, 7.0, 9.0]])


In [3]:
# 1) Все значения NaN в столбце → заполняются средним (0.0 для пустых)
nan = float('nan')
X1 = Matrix([[nan, nan], [nan, nan]])
res1 = handle_missing_values(X1)
print(res1)  # Matrix([[0.0, 0.0], [0.0, 0.0]])

Matrix([[0.0, 0.0], [0.0, 0.0]])


In [4]:
# 2) Пустая матрица
X2 = Matrix((0, 0))
res2 = handle_missing_values(X2)
print(res2.shape())  # (0, 0)

(0, 0)


## Выводы:

- Функция адекватно заполняет матрицы с любым расположением NaN.
- Пустые матрицы и полностью заполненные корректно обрабатываются.

---