# Снижение размерности с помощью выделения признаков

### Введение
Наши наблюдения могут принимать огромное количество различных конфигураций. Это порождает проблемы, потому что наши обучающиеся <br>
алгоритмы не будут иметь достаточно данных для правильной работы. <br><br>
Не все признаки создаются равными, выделение признаков для снижения размерности имеет совершенно конкретную цель - <br>
преобразование нашего набора признаков p_исх таким образом, чтобы в конечном итоге прийти к новому набору p_нов, где p_исх > p_нов,<br>
сохраняя при этом подавляющую часть исходной информации. Мы уменьшаем количество признаков с небольшой потерей способности <br>
наших данных генерировать высококачественные предсказания.

### Снижение признаков с помощью главных компонент

In [3]:
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
from sklearn import datasets

digits = datasets.load_digits()
features = StandardScaler().fit_transform(digits.data)
pca = PCA(n_components=0.99, whiten=True)
features_pca = pca.fit_transform(features)
print("Исходное кол-во признаков:", features.shape[1])
print("Сокращенное кол-во признаков:", features_pca.shape[1])

Исходное кол-во признаков: 64
Сокращенное кол-во признаков: 54


### Уменьшение количества признаков, когда данные линейно неразделимы

In [4]:
from sklearn.decomposition import PCA, KernelPCA
from sklearn.datasets import make_circles
features, _ = make_circles(n_samples=1000, random_state=1, noise=0.1, factor=0.1)

kpca = KernelPCA(kernel="rbf", gamma=15, n_components=1)
features_kpca = kpca.fit_transform(features)

print("Исходное кол-во признаков:", features.shape[1])
print("Сокращенное количество признаков:", features_kpca.shape[1])

Исходное кол-во признаков: 2
Сокращенное количество признаков: 1


Метод Анализа Главных Компонент (PCA) способен уменьшить размерность нашей матрицы признаков. <br>
Если данные линейно разделимы, т.е. мы можем прочертить прямую или гиперплоскость между 2 разными классами, то PCA работает хорошо. <br>
Однако, если данные не являются линейно разделимыми, мы можем разделить классы только с помощью изогнутой границы решения, <br>
линейное преобразование работать не будет. <br><br>
В готовой библиотеке make_circles круг данных находится в другом круге данных. Использовать PCA нельзя, <br>
потому что данные переплетены. <br>
Ядерный PCA способен сокращать размерности и делает данные линейно разделимыми.