Математические основы МГК

Ручной расчет МГК для 2D точек

In [1]:
import numpy as np

# Исходные данные (2D точки)
X = np.array([
    [2.5, 2.4],
    [0.5, 0.7],
    [2.2, 2.9],
    [1.9, 2.2],
    [3.1, 3.0],
    [2.3, 2.7],
    [2.0, 1.6],
    [1.0, 1.1],
    [1.5, 1.6],
    [1.1, 0.9]
])

In [2]:
# Центрирование данных
mean = np.mean(X, axis=0)
X_centered = X - mean
print("Центрированные данные:\n", X_centered)

Центрированные данные:
 [[ 0.69  0.49]
 [-1.31 -1.21]
 [ 0.39  0.99]
 [ 0.09  0.29]
 [ 1.29  1.09]
 [ 0.49  0.79]
 [ 0.19 -0.31]
 [-0.81 -0.81]
 [-0.31 -0.31]
 [-0.71 -1.01]]


In [3]:
# Вычисление ковариационной матрицы
cov_matrix = np.cov(X_centered, rowvar=False)
print("Ковариационная матрица:\n", cov_matrix)

Ковариационная матрица:
 [[0.61655556 0.61544444]
 [0.61544444 0.71655556]]


In [4]:
# Нахождение собственных значений и векторов
eigen_values, eigen_vectors = np.linalg.eig(cov_matrix)
print("Собственные значения:", eigen_values)
print("Собственные векторы:\n", eigen_vectors)

Собственные значения: [0.0490834  1.28402771]
Собственные векторы:
 [[-0.73517866 -0.6778734 ]
 [ 0.6778734  -0.73517866]]


In [5]:
# Проекция на первую главную компоненту
projection_vector = eigen_vectors[:, 0]  # первая главная компонента
X_pca = X_centered.dot(projection_vector)
print("Проекции точек на первую главную компоненту:\n", X_pca)

Проекции точек на первую главную компоненту:
 [-0.17511531  0.14285723  0.38437499  0.13041721 -0.20949846  0.17528244
 -0.3498247   0.04641726  0.01776463 -0.16267529]


Анализ влияния нормализации и выбросов

In [6]:
# Увеличим второй признак в 10 раз
X_scaled = np.copy(X)
X_scaled[:, 1] *= 10

mean_scaled = np.mean(X_scaled, axis=0)
X_centered_scaled = X_scaled - mean_scaled
cov_matrix_scaled = np.cov(X_centered_scaled, rowvar=False)
print("Ковариационная матрица (увеличенный масштаб):\n", cov_matrix_scaled)

eigen_values_scaled, eigen_vectors_scaled = np.linalg.eig(cov_matrix_scaled)
print("Собственные значения (увеличенный масштаб):", eigen_values_scaled)
print("Собственные векторы (увеличенный масштаб):\n", eigen_vectors_scaled)

Ковариационная матрица (увеличенный масштаб):
 [[ 0.61655556  6.15444444]
 [ 6.15444444 71.65555556]]
Собственные значения (увеличенный масштаб): [ 0.08730985 72.18480126]
Собственные векторы (увеличенный масштаб):
 [[-0.99632289 -0.08567786]
 [ 0.08567786 -0.99632289]]


In [7]:
# Стандартизация данных
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
X_standardized = scaler.fit_transform(X)
print("Стандартизованные данные:\n", X_standardized)

Стандартизованные данные:
 [[ 0.92627881  0.61016865]
 [-1.7585873  -1.506743  ]
 [ 0.52354889  1.23278973]
 [ 0.12081898  0.36112022]
 [ 1.73173864  1.35731394]
 [ 0.6577922   0.9837413 ]
 [ 0.25506228 -0.38602507]
 [-1.08737078 -1.00864614]
 [-0.41615425 -0.38602507]
 [-0.95312747 -1.25769457]]


In [8]:
# Добавим выброс
X_outlier = np.vstack((X, [10, 10]))

mean_outlier = np.mean(X_outlier, axis=0)
X_centered_outlier = X_outlier - mean_outlier
cov_matrix_outlier = np.cov(X_centered_outlier, rowvar=False)
print("Ковариационная матрица с выбросом:\n", cov_matrix_outlier)

eigen_values_outlier, eigen_vectors_outlier = np.linalg.eig(cov_matrix_outlier)
print("Собственные значения с выбросом:", eigen_values_outlier)
print("Собственные векторы с выбросом:\n", eigen_vectors_outlier)

Ковариационная матрица с выбросом:
 [[6.65272727 6.57727273]
 [6.57727273 6.59472727]]
Собственные значения с выбросом: [13.20106393  0.04639061]
Собственные векторы с выбросом:
 [[ 0.70866391 -0.70554621]
 [ 0.70554621  0.70866391]]


Выводы

- Изучены математические основы МГК: ковариационная матрица, собственные значения и векторы.
- Выполнен формальный вывод алгоритма МГК.
- Реализован ручной расчёт МГК для 2D-данных с использованием библиотеки NumPy.
- Показано влияние:
  - нормализации — без неё доминируют признаки с большими значениями;
  - выбросов — они искажают направление главных компонент.

Выводы:
- Нормализация данных критически важна для корректного применения МГК.
- МГК чувствителен к выбросам, поэтому перед его применением рекомендуется предварительная очистка данных.
- МГК позволяет находить направления наибольшей изменчивости и эффективно снижать размерность данных.