## <font color = 'green'> 1. Метод главных компонент.  </font>

Метод главных компонент (PCA) - классический метод понижения размерности данных.

Пусть задана матрица информации, содержащая векторы с информацией о данных. $$X=\left(
\begin{array}{cccc}
 x_{1,1} & x_{1,2} & ... & x_{1,m} \\
 x_{2,1} & x_{2,2} & ... & x_{2,m} \\
 ... & ... & ... & ... \\
 x_{n,1} & x_{4,n} & ... & x_{n,m} \\
\end{array}
\right)$$

Как видим рассматриваем $n$ сэмплов и $m$ фич (признаков). Задача **понижения размерности** заключается в преобразовании исходных данных, таким образом, чтобы исходная информации хранилась с использованием меньшего числа фич $k<n$ с сохранением её ценности. Этот метот относится к классу методов **обучения без учителя**, поэтому в нём отсутсвуют целевые метки.

Для решения задачи введём некоторые обозначения. Пусть $Y = {y_{1},y_{2},...,y_{n}}$ выборка из генеральной совокупности. *Выборочное среднее* тогда записывается формулой $E(Y) = \frac{1}{n}  \sum\limits_{j=1}^n y_{i} $. Вторая характеристика выборки это *выборочная дисперсия*. Несмещённая оценка дисперции записывается в виде: $D(Y) = \frac{1}{n-1}  \sum\limits_{j=1}^n (y_{i} - E(y))^{2} $.

Заметим, что в случае, если $Y$ - центрирована, то есть $E(Y) = 0$, тогда $D(Y) = \frac{1}{n-1}  \sum\limits_{j=1}^n (y_{i})^{2}$. Если представить $Y$ в виде вектор столбца, то формулу дисперсии можно переписать в матричном виде: $D(\overline{Y}) = \frac{1}{n-1} \overline{Y}^{T}\overline{Y} $.

Вернёмся к нашей задаче. Найдем вектор $\overline{v}$, такой что при проекции данных на этот вектор, мы получим максимальную дисперсию. Этот вектор и будет первой новой компонентой, а полученные проекции сэмплов - координаты по новой компоненте.

Одномерный вектор проекции $X\overline{v}$ - тоже выборка, для которой мы можем посчитать дисперсию. Учитывая несмещённость данных получаем $D(X\overline{v}) = \frac{1}{n-1}(X\overline{v})^{T}X\overline{v} =  \overline{v}^{T} \frac{1}{n-1}X^{T}X\overline{v} = \overline{v}^{T} A \overline{v}$. Обозначим $A=\frac{1}{n-1}X^{T}X$.

Далее получаем задачу оптимизации с условием. Для того, чтобы компонента была наиболее информативна, будем максимизировать дисперсию данных вдоль неё. Условием будет нормированность вектора $\overline{v}$.

$F(\overline{v}) = \overline{v}^{T} A \overline{v}  -> max$

$\overline{v}^{T}\overline{v} =  1$

Составим функцию Лагранжа $L(\overline{v}) = \overline{v}^{T} A \overline{v} - \lambda (\overline{v}^{T}\overline{v} - 1)$.

Проверяем необходимое условие условного экстремума, используя матричные производные:  $L(\overline{v})^{'} = ( A^{T}+A) \overline{v} - 2\lambda \overline{v} = 0$. Учитывая симметричность матрицы $A$ получим итоговое соотношение для компоненты $\overline{v} $. $$A\overline{v}=\lambda\overline{v}.$$

Полученное соотношение - это определение **собственного вектора** матрицы $A$. В качестве вектора главной компоненты возьмём один из них. А если учесть, что для полученного решения дисперсия $D(X\overline{v})= \overline{v}^{T} \lambda \overline{v} = \lambda$ (где $\lambda$ - собственное значение матрицы $A$), то максимальная дсиперсия будет достигаться вдоль собственного вектора, соответсвующего наибольшему собственному значению $A$.  Остальные компоненты также могут получены как собственные векторы, соответствующие собственным значениям в порядке убывания последних.


Заметим, что полученная матрица $A$ - есть [матрица ковариации](https://ru.wikipedia.org/wiki/%D0%9A%D0%BE%D0%B2%D0%B0%D1%80%D0%B8%D0%B0%D1%86%D0%B8%D0%BE%D0%BD%D0%BD%D0%B0%D1%8F_%D0%BC%D0%B0%D1%82%D1%80%D0%B8%D1%86%D0%B0) для $X$.

Таким образом кратко алгоритм поиска новых компонент выглядит так:

1. Центрируем числовые данные.
2. Находим ковариационную матрицу.
3. Находим её собственные векторы и упорядочиваем их по убываению их собственных значений.
4. Выбираем нужное число компонент.
5. Проецируем на них данные.

### <font color = 'red' size = 5>Задание 1 </font>

1. Реализуйте функцию для работы метода главных компонент методом собственных значений.
2. Сравните результаты её работы со встроенной функцией на искусственных данных.

In [None]:
import numpy as np
from sklearn.decomposition import PCA

def pca_eigen(X, n_components):
    X_centered = X - np.mean(X, axis=0)

    cov_matrix = np.cov(X_centered, rowvar=False)

    eigenvalues, eigenvectors = np.linalg.eigh(cov_matrix)

    sorted_indices = np.argsort(eigenvalues)[::-1]
    eigenvalues = eigenvalues[sorted_indices]
    eigenvectors = eigenvectors[:, sorted_indices]

    principal_components = eigenvectors[:, :n_components]

    X_pca = np.dot(X_centered, principal_components)

    return X_pca, eigenvalues[:n_components], principal_components



In [None]:
np.random.seed(42)
X = np.random.rand(100, 5)
n_components = 2
X_pca_custom, eigenvalues_custom, components_custom = pca_eigen(X, n_components)

In [None]:
pca = PCA(n_components=n_components)
X_pca_sklearn = pca.fit_transform(X)

In [None]:
print("Проекция данных (реализация):\n", X_pca_custom[:5])
print("Проекция данных (sklearn):\n", X_pca_sklearn[:5])

print("\nСобственные значения (реализация):", eigenvalues_custom)
print("Собственные значения (sklearn):", pca.explained_variance_)

Проекция данных (реализация):
 [[ 0.46103832 -0.0280317 ]
 [-0.0292814  -0.44507485]
 [ 0.82739285 -0.13994479]
 [ 0.15926719 -0.01269403]
 [-0.24954695  0.22438428]]
Проекция данных (sklearn):
 [[-0.46103832  0.0280317 ]
 [ 0.0292814   0.44507485]
 [-0.82739285  0.13994479]
 [-0.15926719  0.01269403]
 [ 0.24954695 -0.22438428]]

Собственные значения (реализация): [0.12878387 0.10547616]
Собственные значения (sklearn): [0.12878387 0.10547616]


### <font color = 'red' size = 5>Задание 2 </font>

In [None]:
from sklearn import datasets
iris = datasets.load_iris()
X = iris.data
y = iris.target

1. Используя данные для цветков ириса произвести уменьшение размерности данных с помощью метода главных компонет. Реализовать собственный алгоритм, а также использовать встроенный.
2. Оценить степень потери данных.
3. Выберите оптимальное количество компонент в новых данных.
4. Протестируйте точность различных алгоритмов классификации на исходном датасете и на преобразованном с помощью метода главных компонент. Дайте подробные выводы о различных комбинациях числа компонет и алгоритмах.

In [None]:
import numpy as np
from sklearn.decomposition import PCA
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from sklearn.ensemble import RandomForestClassifier
from sklearn.svm import SVC
from sklearn.neighbors import KNeighborsClassifier

def pca_eigen(X, n_components):
    X_centered = X - np.mean(X, axis=0)

    cov_matrix = np.cov(X_centered, rowvar=False)

    eigenvalues, eigenvectors = np.linalg.eigh(cov_matrix)

    sorted_indices = np.argsort(eigenvalues)[::-1]
    eigenvalues = eigenvalues[sorted_indices]
    eigenvectors = eigenvectors[:, sorted_indices]

    principal_components = eigenvectors[:, :n_components]

    X_pca = np.dot(X_centered, principal_components)

    return X_pca, eigenvalues[:n_components], principal_components

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

n_components = 2
X_train_pca_custom, eigenvalues_custom, _ = pca_eigen(X_train, n_components)
X_test_pca_custom, _, _ = pca_eigen(X_test, n_components)

In [None]:
pca = PCA(n_components=n_components)
X_train_pca_sklearn = pca.fit_transform(X_train)
X_test_pca_sklearn = pca.transform(X_test)

classifiers = {
    "Random Forest": RandomForestClassifier(random_state=42),
    "SVM": SVC(random_state=42),
    "KNN": KNeighborsClassifier()
}

In [None]:
results = {}
for name, clf in classifiers.items():
    clf.fit(X_train, y_train)
    y_pred_original = clf.predict(X_test)
    accuracy_original = accuracy_score(y_test, y_pred_original)

    clf.fit(X_train_pca_custom, y_train)
    y_pred_pca_custom = clf.predict(X_test_pca_custom)
    accuracy_pca_custom = accuracy_score(y_test, y_pred_pca_custom)

    clf.fit(X_train_pca_sklearn, y_train)
    y_pred_pca_sklearn = clf.predict(X_test_pca_sklearn)
    accuracy_pca_sklearn = accuracy_score(y_test, y_pred_pca_sklearn)

    results[name] = {
        "Original": accuracy_original,
        "PCA Custom": accuracy_pca_custom,
        "PCA Sklearn": accuracy_pca_sklearn
    }

In [None]:
for clf_name, accuracies in results.items():
    print(f"\n{clf_name}:")
    for method, accuracy in accuracies.items():
        print(f"  {method}: {accuracy:.4f}")


Random Forest:
  Original: 1.0000
  PCA Custom: 0.9333
  PCA Sklearn: 1.0000

SVM:
  Original: 1.0000
  PCA Custom: 0.8667
  PCA Sklearn: 0.9778

KNN:
  Original: 1.0000
  PCA Custom: 0.8889
  PCA Sklearn: 1.0000


In [None]:
explained_variance_ratios = pca.explained_variance_ratio_
print("\nОбъясненная дисперсия для каждого компонента (sklearn):", explained_variance_ratios)
print("Суммарная объясненная дисперсия для 2 компонент:", np.sum(explained_variance_ratios[:2]))


Объясненная дисперсия для каждого компонента (sklearn): [0.9191876  0.05549301]
Суммарная объясненная дисперсия для 2 компонент: 0.9746806152027597




```
# Выбран кодовый формат
```

### <font color = 'red' size = 5>Задание 3 </font>

Вычислениями подвердите связь [сингулярного разложения матрицы](https://neerc.ifmo.ru/wiki/index.php?title=%D0%A1%D0%B8%D0%BD%D0%B3%D1%83%D0%BB%D1%8F%D1%80%D0%BD%D0%BE%D0%B5_%D1%80%D0%B0%D0%B7%D0%BB%D0%BE%D0%B6%D0%B5%D0%BD%D0%B8%D0%B5) с методом главных компонент. Приведите практический пример.

In [None]:
import numpy as np
from sklearn.decomposition import PCA

def pca_svd(X, n_components):
    X_centered = X - np.mean(X, axis=0)

    U, S, Vt = np.linalg.svd(X_centered, full_matrices=False)

    principal_components = Vt[:n_components].T

    X_pca = np.dot(X_centered, principal_components)

    return X_pca, S[:n_components], principal_components

In [None]:
np.random.seed(42)
X = np.random.rand(10, 5)

In [None]:
n_components = 2
X_pca_svd, singular_values, components_svd = pca_svd(X, n_components)

pca = PCA(n_components=n_components)
X_pca_sklearn = pca.fit_transform(X)

In [None]:
print("Проекция данных (через SVD):\n", X_pca_svd)
print("Проекция данных (sklearn):\n", X_pca_sklearn)

print("\nСингулярные значения (через SVD):", singular_values)
print("Собственные значения (sklearn):", pca.explained_variance_)

print("\nКвадраты сингулярных значений / (n-1):", (singular_values**2) / (X.shape[0] - 1))
print("Собственные значения из sklearn:", pca.explained_variance_)


Проекция данных (через SVD):
 [[-0.56141715 -0.16712381]
 [-0.01600634  0.61358387]
 [-0.88469781  0.08312493]
 [-0.17512929  0.14441486]
 [ 0.25376338 -0.04229751]
 [ 0.09108191 -0.36621103]
 [ 0.7391968   0.24596106]
 [ 0.44240949 -0.26632862]
 [ 0.09652537 -0.01912396]
 [ 0.01427363 -0.2259998 ]]
Проекция данных (sklearn):
 [[ 0.56141715 -0.16712381]
 [ 0.01600634  0.61358387]
 [ 0.88469781  0.08312493]
 [ 0.17512929  0.14441486]
 [-0.25376338 -0.04229751]
 [-0.09108191 -0.36621103]
 [-0.7391968   0.24596106]
 [-0.44240949 -0.26632862]
 [-0.09652537 -0.01912396]
 [-0.01427363 -0.2259998 ]]

Сингулярные значения (через SVD): [1.3975538  0.86657369]
Собственные значения (sklearn): [0.2170174  0.08343888]

Квадраты сингулярных значений / (n-1): [0.2170174  0.08343888]
Собственные значения из sklearn: [0.2170174  0.08343888]
