# Цель занятия
На этом занятии мы рассмотрим применение алгоритма PCA для задачи снижения размерности данных.

PCA означает "анализ главных компонентов" (англ. Principal Component Analysis). Это статистический метод, используемый для уменьшения размерности данных. PCA позволяет выявить наиболее значимые направления вариации в многомерных данных и представить их в виде новых переменных, называемых главными компонентами. Главные компоненты являются линейными комбинациями исходных переменных и ортогональны друг другу.

Основная идея PCA состоит в том, чтобы найти линейное преобразование данных, которое максимизирует объясняемую дисперсию в первых главных компонентах. Первая главная компонента объясняет наибольшую часть дисперсии, вторая главная компонента объясняет следующую по величине часть дисперсии, и так далее. Это позволяет сократить размерность данных, удалив менее значимые компоненты, сохраняя при этом наиболее важную информацию.

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.decomposition import PCA
from sklearn.datasets import fetch_openml
import warnings
warnings.filterwarnings("ignore")

In [None]:
# Загрузка набора данных MNIST
mnist = fetch_openml('mnist_784')
X = mnist.data
y = mnist.target.astype(int)

In [None]:
# Создание объекта PCA и указание количества компонент (2 в данном случае)
pca = PCA(n_components=2)

# Выполнение анализа главных компонент и получение преобразованных данных
X_pca = pca.fit_transform(X)

In [None]:
# Визуализация данных
plt.figure(figsize=(10, 8))
plt.scatter(X_pca[:, 0], X_pca[:, 1], c=y, cmap='Paired')
plt.colorbar(label='Цифры')
plt.xlabel('Главная компонента 1')
plt.ylabel('Главная компонента 2')
plt.title('Визуализация набора данных MNIST с использованием PCA')
plt.show()