In [2]:
import numpy as np

# r - количество желаемых сингулярных значений
# q - количество итераций для ортоганализации (больше - улучшает оценку)
# p - сколько столбцов добавлять в матрицу P (больше - улучшает оценку)
def rsvd(X, r, q, p):
    # Step 1: Sample column space of X with P matrix
    ny = X.shape[1]
    P = np.random.randn(ny, r+p)
    Z = X @ P
    for k in range(q):
        Z = X @ (X.T @ Z) # Это делается для улучшения ортогональности матрицы
    Q, R = np.linalg.qr(Z)
    
    # В первом шаге мы получаем ортогональную матрицу Q, которая является базисом
    # (пространством столбцов) сэмплированного подпространства матрицы X (пространства меньшей размерности)

    # Step 2: Compute SVD on projected Y = Q.T @ X
    Y = Q.T @ X
    UY, S, Vt = np.linalg.svd(Y, full_matrices=False)
    U = Q @ UY

    return U, S, Vt.T

# Пример использования
X = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
r = 4
q = 3
p = 4

U, S, Vt = rsvd(X, r, q, p)

In [3]:
import pandas as pd

data = pd.read_csv('C:/Storage/Magistracy/Labs_MBoML/repo/test/smoking_driking_dataset_Ver01.csv')
data = data[['age', 'height', 'weight', 'waistline', 'sight_left', 'sight_right']]
cols_to_int = ['waistline', 'sight_left', 'sight_right']

for colname in cols_to_int: # Предупреждаю, на полном датасете это долго
    for index, row in data.iterrows():
        data.at[index, colname] = int(data.at[index, colname])
        if colname == 'sight_left' or colname == 'sight_right':
            data.at[index, colname] = data.at[index, colname] * 100
        
    
    
data = data.to_numpy()
data

array([[ 35., 170.,  75.,  90., 100., 100.],
       [ 30., 180.,  80.,  89.,   0., 100.],
       [ 40., 165.,  75.,  91., 100., 100.],
       ...,
       [ 40., 155.,  50.,  68., 100.,   0.],
       [ 25., 175.,  60.,  72., 100., 100.],
       [ 50., 160.,  70.,  90., 100., 100.]])

In [12]:
X = data

# Вычисление среднего значения каждого столбца
mean = np.mean(X, axis=0)

# Вычисление стандартного отклонения каждого столбца
std = np.std(X, axis=0)

# Стандартизация матрицы
X_normalized = (X - mean) / std

X_normalized

array([[-0.88951382,  0.83587354,  0.93620986,  0.74626289,  0.62560137,
         0.62917922],
       [-1.24209002,  1.91311698,  1.33575488,  0.66186101, -0.80346775,
         0.62917922],
       [-0.53693763,  0.29725182,  0.93620986,  0.83066477,  0.62560137,
         0.62917922],
       ...,
       [-0.53693763, -0.77999162, -1.0615152 , -1.1105784 ,  0.62560137,
        -0.80357947],
       [-1.59466621,  1.37449526, -0.26242517, -0.77297089,  0.62560137,
         0.62917922],
       [ 0.16821475, -0.2413699 ,  0.53666485,  0.74626289,  0.62560137,
         0.62917922]])

In [16]:
import numpy as np
from numpy.linalg import norm
from scipy.linalg import svd

# Исходная матрица
X = data

# Используем Randomized SVD
r = 5
U, S, Vt = rsvd(X, r, 10, 20)

# Реконструируем матрицу на основе сингулярного разложения
X_reconstructed = U @ np.diag(S) @ Vt

# Оценка точности алгоритма
error = norm(X, 'fro') - norm(X_reconstructed, 'fro') # норма Фробениуса (Евклидова норма)

print(f"Оценка отклонения нормы Фробениуса): {error}")
S

Оценка отклонения нормы Фробениуса): 20.065110056110825


array([6890.327908  , 2520.78559519, 1792.47260899,  175.32829601,
        150.22258979,   36.36537409])

In [17]:
S

array([6890.327908  , 2520.78559519, 1792.47260899,  175.32829601,
        150.22258979,   36.36537409])

In [18]:
data = data[:1000]
U, S, Vt = np.linalg.svd(data)
S

array([6890.327908  , 2520.78559519, 1792.47260906,  468.48918726,
        344.75744077,  141.17520148])

In [19]:
X_reconstructed

array([[  71.64303493,  -40.21746766,    0.75758275,  173.57201692,
        -139.14381125,   87.38796337],
       [  56.01061889,  -36.10595916,    5.28372565,  198.77229083,
         -43.91497047,  105.41268814],
       [  78.15304225,  -43.17483112,    3.63866892,  177.66958951,
        -133.3620936 ,   72.96755825],
       ...,
       [  73.19416236,  -42.99677178,    8.60531932,  167.48326367,
        -135.32811205,   80.74649872],
       [  74.2500146 ,  -42.58603788,    8.96303795,  174.36181104,
        -135.24727456,   79.23397909],
       [ -22.35387724,    0.4282998 ,    7.19453929,  155.48707546,
         -39.67232618,   49.9344777 ]])