# 维度的诅咒
- 高维超立方体中大多数点都非常接近边界。
- 高维数据集有很大的可能是非常稀疏的。
- 训练集的维数越高，过拟合的风险越大。

# 降维的主要方法
## 投影
例如，3D空间向2D空间进行投影。投影并不总是降低维度的最好方法，在许多情况下，子空间可能会发生扭曲和转动。

## 流形学习
见书上概念。

# PCA
首先它识别最靠近数据的超平面，然后将数据投影到其上。

## 保留差异性
## 主要成分
- 主成分分析法可以在训练集中识别出哪条轴对差异性的贡献度最高。
- 第i个轴成为数据的第i个主要成分(PC)。轴与轴之间垂直正交。图8-7中，第一个PC是向量c1所在的轴，第二个PC是向量c2所在的轴。
- 对于每个主要成分，PCA都找到一个指向PC方向的零中心单位向量。由于两个相对的单位位于同一轴上，因此PCA返回的单位向量的方向不稳定。
- 用奇异值分解来找到训练集的主要成分。X=USVt

In [1]:
import numpy as np
import matplotlib.pyplot as plt
np.random.seed(4)
m = 60
w1, w2 = 0.1, 0.3
noise = 0.1

angles = np.random.rand(m) * 3 * np.pi / 2 - 0.5
X = np.empty((m, 3))
X[:, 0] = np.cos(angles) + np.sin(angles)/2 + noise * np.random.randn(m) / 2
X[:, 1] = np.sin(angles) * 0.7 + noise * np.random.randn(m) / 2
X[:, 2] = X[:, 0] * w1 + X[:, 1] * w2 + noise * np.random.randn(m)

In [2]:
# numpy的svd()函数来获取训练集的所有主要成分,然后提取定义前两个PC的单位向量。
X_centered=X-X.mean(axis=0)
U,s,Vt=np.linalg.svd(X_centered)

In [3]:
c1=Vt.T[:,0]
c2=Vt.T[:,1]

In [4]:
c1,c2 # 两个轴

(array([0.93636116, 0.29854881, 0.18465208]),
 array([-0.34027485,  0.90119108,  0.2684542 ]))

In [5]:
X_centered

array([[-1.03976771e+00, -7.60238460e-01, -3.32880482e-01],
       [-3.17841939e-02,  3.90260570e-01, -3.64766659e-02],
       [-9.77238797e-01, -6.73862060e-01, -3.20757101e-01],
       [-9.44190485e-01,  7.70779228e-04, -4.97304144e-02],
       [-7.87164831e-01, -5.10641487e-02,  1.19970744e-01],
       [ 1.09409378e+00,  1.15762056e-01,  2.45551498e-01],
       [-1.04665623e+00, -8.53165791e-01, -2.05241169e-01],
       [ 6.49452398e-01, -4.82750342e-01, -7.94325731e-02],
       [ 9.92128132e-01,  3.06140931e-01,  3.96278747e-01],
       [ 5.25509785e-01,  4.67955007e-01,  1.62461684e-01],
       [-1.01367188e+00, -2.00458976e-01, -1.93074561e-01],
       [ 1.10841362e+00,  7.29745189e-02, -1.82449496e-03],
       [-1.01744457e+00, -4.77653389e-01, -2.29165228e-01],
       [-9.71704237e-01, -7.08910047e-01, -2.10833327e-01],
       [ 1.07688965e+00, -3.86770525e-02,  2.63501050e-02],
       [-3.70113351e-01,  2.44018985e-01, -7.21578839e-03],
       [ 6.66958762e-01, -4.82702763e-01

PCA假定数据集以原点为中心。如果自己使用PCA，或者使用其它库，切记要将数据集居中。

## 向下投影到d维度
- 一旦确定了主要成分，你就可以将数据集投影到前d个主要成分定义的超平面上。
- X<sub>d-proj</sub>=XW<sub>d</sub>。W<sub>d</sub>定义为包含V的前d列的矩阵。

In [6]:
W2=Vt.T[:,:2]
X2D=X_centered.dot(W2)

In [7]:
X2D

array([[-1.26203346, -0.42067648],
       [ 0.08001485,  0.35272239],
       [-1.17545763, -0.36085729],
       [-0.89305601,  0.30862856],
       [-0.73016287,  0.25404049],
       [ 1.10436914, -0.20204953],
       [-1.27265808, -0.46781247],
       [ 0.44933007, -0.67736663],
       [ 1.09356195,  0.04467792],
       [ 0.66177325,  0.28651264],
       [-1.04466138,  0.11244353],
       [ 1.05932502, -0.31189109],
       [-1.13761426, -0.14576655],
       [-1.16044117, -0.36481599],
       [ 1.00167625, -0.39422008],
       [-0.2750406 ,  0.34391089],
       [ 0.45624787, -0.69707573],
       [ 0.79706574,  0.26870969],
       [ 0.66924929, -0.65520024],
       [-1.30679728, -0.37671343],
       [ 0.6626586 ,  0.32706423],
       [-1.25387588, -0.56043928],
       [-1.04046987,  0.08727672],
       [-1.26047729, -0.1571074 ],
       [ 1.09786649, -0.38643428],
       [ 0.7130973 , -0.64941523],
       [-0.17786909,  0.43609071],
       [ 1.02975735, -0.33747452],
       [-0.94552283,

## 使用sklearn

In [8]:
from sklearn.decomposition import PCA
pca=PCA(n_components=2)
X2D=pca.fit_transform(X)

将PCA转换器拟合到数据后，其components_属性是W<sub>d</sub>的转置。

In [9]:
# 第一个主成分的单位向量
pca.components_.T[:,0]

array([-0.93636116, -0.29854881, -0.18465208])

## 可解释方差比
通过explained_variance_ratio_变量来或得，该比率表示沿每个成分的数据集方差的比率。

In [10]:
pca.explained_variance_ratio_

array([0.84248607, 0.14631839])

数据集方差的84.2%位于第一个PC上，而14.6%位于第二个PC上。对于第三个PC还不到1.2%，可以合理的假设第三个PC携带的信息很少。

## 选择正确的维度
与其任意选择要减小的维度，不如选择相加足够大的方差部分(例如95%)的维度。如果是为了数据可视化降低维度，需要将维度降到2到3.

In [11]:
# 以下代码在不降低维度的情况下执行PCA，然后计算保留95%训练方差所需要的最小维度。
from sklearn.datasets import fetch_openml

mnist = fetch_openml('mnist_784', version=1)
mnist.target = mnist.target.astype(np.uint8)

In [12]:
from sklearn.model_selection import train_test_split

X = mnist["data"]
y = mnist["target"]

X_train, X_test, y_train, y_test = train_test_split(X, y)

In [13]:
pca=PCA()
pca.fit(X_train)

PCA()

In [14]:
cumsum=np.cumsum(pca.explained_variance_ratio_)# 求数组的所有元素的累计和

In [15]:
d=np.argmax(cumsum>=0.95)+1

In [16]:
d

154

- 还有一个更好的方法，将n_components设置为0.0到1.0之间的浮点数来表示要保留的方差率。

In [17]:
pca=PCA(n_components=0.95)
X_reduced=pca.fit_transform(X_train)

## PCA压缩
- 降维后，训练集占用的空间要少得多。
- 通过PCA投影的逆变换，还可以将压缩的数据还原。由于降维会丢失一些信息，因此不会给你原始的数据，但可能会接近原始的数据。原始数据与重构数据之间的均方距离称为重构误差。

In [18]:
# 以下代码将mnist数据集压缩到154个维度，然后将其解压缩回784个维度。
pca=PCA(n_components=154)
X_reduced=pca.fit_transform(X_train)
x_recovered=pca.inverse_transform(X_reduced)

## 随机PCA
如果将svd_solver设置为randomized，则sklearn将使用一种Randomized PCA的方法。该算法可以快速找到前d个主成分的近似值。当d远远小于n时，它比完全的svd快得多。

In [19]:
pca=PCA(n_components=154,svd_solver='randomized')
X_reduced=pca.fit_transform(X_train)

默认，svd_solver实际上设置为'auto'：如果m或n大于500并且d小于m或n的80%，sklearn自动使用随机PCA算法。如果要使用完全SVD方法，可以将svd_solver='full'

## 增量PCA
IPCA。它们可以使你把训练集划分为多个小批量，并一次将一个小批量送入IPCA算法。这对大型训练集和在线应用PCA很有用。

In [20]:
# 以下代码将mnist数据集拆分为100个小批数据集，并将其送入致sklearn的IncrementalPCA类
from sklearn.decomposition import IncrementalPCA

In [21]:
n_batches=100
inc_pca=IncrementalPCA(n_components=154)
for X_batch in np.array_split(X_train,n_batches):
    inc_pca.partial_fit(X_batch)# 小批量中调用该方法

In [22]:
X_reduced=inc_pca.transform(X)

# 内核PCA
运用SVM内核的方法，将该技术应用于PCA。执行复杂的非线性投影来降低维度。

In [23]:
# 下面的代码使用sklearn中的KernelPCA类以及RBF内核来执行kPCA
from sklearn.decomposition import KernelPCA
rbf_pca=KernelPCA(n_components=2,kernel='rbf',gamma=0.4)

In [24]:
from sklearn.datasets import make_swiss_roll

In [25]:
X, t = make_swiss_roll(n_samples=1000, noise=0.2, random_state=42)
y = (t > 6.9).astype(np.uint8)
X_reduced=rbf_pca.fit_transform(X)

## 选择内核并调整超参数
kPCA是一种有监督学习算法，因此没有明显的性能指标可以帮助你选择最好的超参数。也就是说，降维通常是有监督学习任务的准备步骤。因此可以用网格搜索来选择内核和超参数。

In [26]:
from sklearn.model_selection import GridSearchCV
from sklearn.linear_model import LogisticRegression
from sklearn.pipeline import Pipeline

In [30]:
clf=Pipeline([('kpca',KernelPCA(n_components=2)),('log_clf',LogisticRegression())])

In [31]:
param_grid = [{
        "kpca__gamma": np.linspace(0.03, 0.05, 10),
        "kpca__kernel": ["rbf", "sigmoid"]
    }]

In [32]:
grid_search=GridSearchCV(clf,param_grid,cv=3)
grid_search.fit(X,y)

GridSearchCV(cv=3,
             estimator=Pipeline(steps=[('kpca', KernelPCA(n_components=2)),
                                       ('log_clf', LogisticRegression())]),
             param_grid=[{'kpca__gamma': array([0.03      , 0.03222222, 0.03444444, 0.03666667, 0.03888889,
       0.04111111, 0.04333333, 0.04555556, 0.04777778, 0.05      ]),
                          'kpca__kernel': ['rbf', 'sigmoid']}])

In [33]:
grid_search.best_estimator_

Pipeline(steps=[('kpca',
                 KernelPCA(gamma=0.043333333333333335, kernel='rbf',
                           n_components=2)),
                ('log_clf', LogisticRegression())])

内核PCA和重构原像的误差

In [35]:
rbf_pca=KernelPCA(n_components=2,kernel='rbf',gamma=0.0433,fit_inverse_transform=True)

In [36]:
X_reduced=rbf_pca.fit_transform(X)
X_preimage=rbf_pca.inverse_transform(X_reduced)

In [37]:
from sklearn.metrics import mean_squared_error
mean_squared_error(X,X_preimage)

32.786308795766146

# LLE
局部线性嵌入，它是一种流型学习技术，不像以前的算法那样依赖投影。简而言之，LLE的原理是首先测量每个训练实例，如何与其最近的邻居线性相关，然后寻找可以最好保留这些局部关系的训练集低维表现形式。这种方法特别适合展开扭曲的流型，尤其是在没有特别多的噪声的情况下。

In [38]:
from sklearn.manifold import LocallyLinearEmbedding
lle=LocallyLinearEmbedding(n_components=2,n_neighbors=10)
X_reduced=lle.fit_transform(X)