## Урок 5. Сингулярное разложение матриц

In [1]:
import numpy as np

#### 1. Найти с помощью NumPy SVD для матрицы

In [2]:
A = np.array([[1, 2, 0],
              [0, 0, 5],
              [3, -4, 2],
              [1, 6, 5],
              [0, 1, 0]])
print(f'Матрица A:\n{A}')

Матрица A:
[[ 1  2  0]
 [ 0  0  5]
 [ 3 -4  2]
 [ 1  6  5]
 [ 0  1  0]]


In [3]:
U, s, W = np.linalg.svd(A)

In [4]:
D = np.zeros_like(A, dtype=float)
D[np.diag_indices(min(A.shape))] = s
print(f'Матрица D:\n{D}')

Матрица D:
[[8.82486885 0.         0.        ]
 [0.         6.14060608 0.        ]
 [0.         0.         2.53271528]
 [0.         0.         0.        ]
 [0.         0.         0.        ]]


In [5]:
print(f'Матрица U:\n{U}')

Матрица U:
[[ 0.17056501  0.15680918 -0.53077508 -0.79905375 -0.16158397]
 [ 0.39287016 -0.52933945  0.6134793  -0.43375771  0.03082495]
 [-0.14366152 -0.82449256 -0.52379105  0.14049848  0.07400343]
 [ 0.88843702  0.06074346 -0.24655277  0.37755832 -0.06042632]
 [ 0.08125046  0.10831843 -0.08231425 -0.10524851  0.98173958]]


In [6]:
V = W.T
print(f'Матрица V:\n{V}')

Матрица V:
[[ 0.07116451 -0.36737824 -0.92734505]
 [ 0.71702467  0.66514082 -0.20847855]
 [ 0.69340553 -0.65009301  0.31075368]]


#### 2. Для матрицы из предыдущего задания найти:

а) евклидову норму;

б) норму Фробениуса.

In [7]:
print(f'евклидова норма: {np.linalg.norm(A, ord=2)}')

евклидова норма: 8.824868854820442


In [8]:
print(f'норма Фробениуса: {np.linalg.norm(A)}')

норма Фробениуса: 11.045361017187261


#### 3. Понизить размерность признакового пространства

In [9]:
from sklearn.datasets import load_iris
import pandas as pd

In [10]:
iris = load_iris()

In [11]:
iris_df = pd.DataFrame(iris.data, columns=iris.feature_names)
iris_df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


In [12]:
print(iris_df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 4 columns):
sepal length (cm)    150 non-null float64
sepal width (cm)     150 non-null float64
petal length (cm)    150 non-null float64
petal width (cm)     150 non-null float64
dtypes: float64(4)
memory usage: 4.8 KB
None


**Таким образом имеем датасет из 150 объектов с 4 признаками. Задача - понизить размерность признакового пространства.**

**Сначала сформируем матрицу признаков:**

In [13]:
A = np.array(iris.data)
print(f'размерность матрицы A: {A.shape}\n')
print(f'первые 10 строк матрицы A:\n{A[:10]}')

размерность матрицы A: (150, 4)

первые 10 строк матрицы A:
[[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 [4.7 3.2 1.3 0.2]
 [4.6 3.1 1.5 0.2]
 [5.  3.6 1.4 0.2]
 [5.4 3.9 1.7 0.4]
 [4.6 3.4 1.4 0.3]
 [5.  3.4 1.5 0.2]
 [4.4 2.9 1.4 0.2]
 [4.9 3.1 1.5 0.1]]


**Теперь найдем ее сингулярное разложение:**

In [14]:
U, s, W = np.linalg.svd(A)

**Матрицы U, V, D для нашей матрицы признаков будут иметь вид:**

In [15]:
print(f'размерность матрицы U: {U.shape}\n')
print(f'первые 5 строк матрицы U:\n{U[:10]}')

размерность матрицы U: (150, 150)

первые 5 строк матрицы U:
[[-6.16168450e-02  1.29611444e-01  2.13859674e-03 ... -9.34342947e-02
  -9.57386428e-02 -8.08546526e-02]
 [-5.80709402e-02  1.11019776e-01  7.06723871e-02 ...  3.69040455e-02
  -3.15395377e-02  1.30952570e-02]
 [-5.67630474e-02  1.17966465e-01  4.34254909e-03 ...  3.06619920e-02
   1.95314726e-01  1.35699085e-01]
 ...
 [-6.09726328e-02  1.20943120e-01  5.43026565e-03 ...  1.48171311e-03
   1.63896017e-04 -7.67673070e-04]
 [-5.37611959e-02  9.99414853e-02  1.76366479e-02 ...  1.15951027e-03
   2.55054321e-03  5.91830330e-04]
 [-5.88266594e-02  1.12043088e-01  6.49689136e-02 ...  4.02649514e-03
   1.29417958e-02  4.14110180e-03]]


In [16]:
V = W.T
print(f'размерность матрицы V: {V.shape}\n')
print(f'матрица V:\n{V}')

размерность матрицы V: (4, 4)

матрица V:
[[-0.75110816  0.2841749   0.50215472  0.32081425]
 [-0.38008617  0.5467445  -0.67524332 -0.31725607]
 [-0.51300886 -0.70866455 -0.05916621 -0.48074507]
 [-0.16790754 -0.34367081 -0.53701625  0.75187165]]


In [17]:
D = np.zeros_like(A, dtype=float)
D[np.diag_indices(min(A.shape))] = s
print(f'размерность матрицы D: {D.shape}\n')
print(f'первые 5 строк матрицы D:\n{D[:5]}')

размерность матрицы D: (150, 4)

первые 5 строк матрицы D:
[[95.95991387  0.          0.          0.        ]
 [ 0.         17.76103366  0.          0.        ]
 [ 0.          0.          3.46093093  0.        ]
 [ 0.          0.          0.          1.88482631]
 [ 0.          0.          0.          0.        ]]


**Посмотрим на корреляцию между признаками, разделив значения матрицы D на евклидову норму:**

In [18]:
d = [D[0][0]/D[0][0], D[1][1]/D[0][0], D[2][2]/D[0][0], D[3][3]/D[0][0]]
cor_D = np.zeros_like(A, dtype=float)
cor_D[np.diag_indices(min(D.shape))] = d
print(f'размерность матрицы cor_D: {cor_D.shape}\n')
print(f'первые 5 строк матрицы cor_D:\n{cor_D[:5]}')

размерность матрицы cor_D: (150, 4)

первые 5 строк матрицы cor_D:
[[1.         0.         0.         0.        ]
 [0.         0.18508805 0.         0.        ]
 [0.         0.         0.03606642 0.        ]
 [0.         0.         0.         0.01964181]
 [0.         0.         0.         0.        ]]


**Создадим на основе матрицы D новую матрицу собственных значений D_new и исключим из нее два значения, обозначающих наименьшую корреляцию между признаками:**

In [19]:
D_new = D
D_new[2][2], D_new[3][3] = 0, 0
print(f'размерность матрицы D_new: {D_new.shape}\n')
print(f'первые 5 строк матрицы D_new:\n{D_new[:5]}')

размерность матрицы D_new: (150, 4)

первые 5 строк матрицы D_new:
[[95.95991387  0.          0.          0.        ]
 [ 0.         17.76103366  0.          0.        ]
 [ 0.          0.          0.          0.        ]
 [ 0.          0.          0.          0.        ]
 [ 0.          0.          0.          0.        ]]


**Сформируем новую матрицу признаков A_new на основе новой матрицы собственных значений D_new путем операции, обратной сингулярному разложению:**

In [20]:
A_new = np.dot(np.dot(U, D_new), V.T)
print(f'размерность матрицы A_new: {A_new.shape}\n')
print(f'первые 10 строк матрицы A_new:\n{A_new[:10]}\n')
print(f'первые 10 строк матрицы A:\n{A[:10]}')

размерность матрицы A_new: (150, 4)

первые 10 строк матрицы A_new:
[[5.0952927  3.50597743 1.40192232 0.20165319]
 [4.74588049 3.19610853 1.46136967 0.25800276]
 [4.68667405 3.21586325 1.30954904 0.19452725]
 [4.61488457 3.08894388 1.46347879 0.27002699]
 [5.07488651 3.50623125 1.36428119 0.1863997 ]
 [5.52598407 3.7330351  1.67566825 0.28872322]
 [4.731593   3.2288014  1.36216771 0.21446447]
 [5.00510918 3.39830515 1.47931372 0.24418439]
 [4.37933538 2.93134058 1.38864652 0.25618379]
 [4.80551481 3.23360903 1.48569239 0.26393296]]

первые 10 строк матрицы A:
[[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 [4.7 3.2 1.3 0.2]
 [4.6 3.1 1.5 0.2]
 [5.  3.6 1.4 0.2]
 [5.4 3.9 1.7 0.4]
 [4.6 3.4 1.4 0.3]
 [5.  3.4 1.5 0.2]
 [4.4 2.9 1.4 0.2]
 [4.9 3.1 1.5 0.1]]


**Избавимся от "лишних" признаков, умножив матрицу A_new на матрицу перехода V:**

In [21]:
X = np.dot(A_new, V)
print(f'размерность матрицы X: {X.shape}\n')
print(f'первые 10 строк матрицы X:\n{X[:10]}\n')

размерность матрицы X: (150, 4)

первые 10 строк матрицы X:
[[-5.91274714e+00  2.30203322e+00 -8.60422844e-16 -8.88178420e-16]
 [-5.57248242e+00  1.97182599e+00 -4.99600361e-16 -5.55111512e-16]
 [-5.44697714e+00  2.09520636e+00 -6.10622664e-16 -7.77156117e-16]
 [-5.43645948e+00  1.87038151e+00 -6.10622664e-16 -5.55111512e-16]
 [-5.87564494e+00  2.32829018e+00 -1.66533454e-16 -7.77156117e-16]
 [-6.47759822e+00  2.32464996e+00 -8.32667268e-16 -9.99200722e-16]
 [-5.51597520e+00  2.07090423e+00 -1.11022302e-16 -7.77156117e-16]
 [-5.85092859e+00  2.14807482e+00 -6.66133815e-16 -7.77156117e-16]
 [-5.15891972e+00  1.77506408e+00 -3.88578059e-16 -5.55111512e-16]
 [-5.64500117e+00  1.99000106e+00 -9.99200722e-16 -6.66133815e-16]]



**Таким образом, мы сократили исходное признаковое пространство с 4 до 2**