Центрирование (вычитание среднего значения оси)

Вычисление ковариационной матрицы:


Матрица = 1/n-1 * sum(Xi-Xj)

Поиск айгенвекторов
Где айгензначение больше, то и будет являться главной компонентой

При х=-1 и у=-2
После ПСА = (-1, -2) * айген вектор (скалярное произведение)

In [2]:
import math
import numpy as np

In [3]:
def mean_center(matrix):
    mean = [sum(col) / len(col) for col in zip(*matrix)]
    centered = [[x - mean[i] for i, x in enumerate(row)] for row in matrix]
    return centered, mean # центрирование = значение - среднее (чтоб получить среднее равное нулю)

In [4]:
def transpose(matrix):
    """Транспонирует матрицу."""
    return list(map(list, zip(*matrix)))

In [5]:
def matrix_mult(A, B):
    """Умножает две матрицы."""
    return [[sum(A[i][k] * B[k][j] for k in range(len(B))) for j in range(len(B[0]))] for i in range(len(A))]

In [6]:
def svd(matrix):
    """Реализация SVD разложения методом Якоби."""
    import numpy as np
    A = np.array(matrix)
    U, S, Vt = np.linalg.svd(A, full_matrices=False)
    return U.tolist(), S.tolist(), Vt.tolist()

In [7]:
def pca(data, num_components):
    """Применяет PCA с использованием SVD."""
    centered_data, mean = mean_center(data)
    U, S, Vt = svd(centered_data)
    principal_components = transpose(Vt[:num_components])  # Берем первые num_components главных компонент
    transformed_data = matrix_mult(centered_data, principal_components)
    return transformed_data

In [8]:
data = [
    [2.5, 2.4, 3.1],
    [0.5, 0.7, 0.9],
    [2.2, 2.9, 3.0],
    [1.9, 2.2, 2.8],
    [3.1, 3.0, 3.5],
    [2.3, 2.7, 3.2],
    [2.0, 1.6, 2.5],
    [1.0, 1.1, 1.3],
    [1.5, 1.6, 1.9],
    [1.1, 0.9, 1.2]
]
reduced_data = pca(data, 2)
reduced_data

[[-1.1227173372597665, -0.17867202136037197],
 [2.2877252615890296, 0.13575840632419434],
 [-1.1845110679675115, 0.3976089639568073],
 [-0.5044759596299142, 0.11050368812459035],
 [-2.0307790913836503, -0.1856772221065579],
 [-1.2514397138225855, 0.167235700056415],
 [-0.02631964811745266, -0.3682906146484416],
 [1.544964094159123, 0.05164385834002236],
 [0.6180695784735506, 0.023306544474109327],
 [1.6694838839591772, -0.15341730316076785]]

In [9]:
import numpy as np
from sklearn.decomposition import PCA

data = np.array([
    [2.5, 2.4, 3.1],
    [0.5, 0.7, 0.9],
    [2.2, 2.9, 3.0],
    [1.9, 2.2, 2.8],
    [3.1, 3.0, 3.5],
    [2.3, 2.7, 3.2],
    [2.0, 1.6, 2.5],
    [1.0, 1.1, 1.3],
    [1.5, 1.6, 1.9],
    [1.1, 0.9, 1.2]
])

pca = PCA(n_components=2)
transformed_data = pca.fit_transform(data)

print("Трансформированные данные:")
print(transformed_data)

Трансформированные данные:
[[ 1.12271734 -0.17867202]
 [-2.28772526  0.13575841]
 [ 1.18451107  0.39760896]
 [ 0.50447596  0.11050369]
 [ 2.03077909 -0.18567722]
 [ 1.25143971  0.1672357 ]
 [ 0.02631965 -0.36829061]
 [-1.54496409  0.05164386]
 [-0.61806958  0.02330654]
 [-1.66948388 -0.1534173 ]]


In [10]:
# Создадим матрицу данных (каждая строка – наблюдение, каждая колонка – признак)
X = np.array([[2.5, 2.4],
              [0.5, 0.7],
              [2.2, 2.9],
              [1.9, 2.2],
              [3.1, 3.0],
              [2.3, 2.7],
              [2,   1.6],
              [1,   1.1],
              [1.5, 1.6],
              [1.1, 0.9]])

# Центрирование данных
X_centered = X - np.mean(X, axis=0)

# SVD разложение
U, S, VT = np.linalg.svd(X_centered)

# Вычисление главных компонент
# Для PCA можно взять первые k столбцов VT.T, где k - желаемое число компонент
k = 1  # например, хотим снизить размерность до 1
X_reduced = X_centered @ VT.T[:, :k]

print("Сингулярные значения:", S)
print("Первые главные компоненты (проекция данных):\n", X_reduced)

Сингулярные значения: [3.3994484  0.66464321]
Первые главные компоненты (проекция данных):
 [[-0.82797019]
 [ 1.77758033]
 [-0.99219749]
 [-0.27421042]
 [-1.67580142]
 [-0.9129491 ]
 [ 0.09910944]
 [ 1.14457216]
 [ 0.43804614]
 [ 1.22382056]]
