# 第1题
减少数据集维度的主要动机是什么？主要缺点是什么？

#### 动机
* 为了加速后续的训练算法（在某些情况下，它甚至可以消除噪声和冗余特征，使得训练算法性能更好）
* 可视化数据并获取最重要特征的展示
* 节省空间（压缩）

#### 缺点
* 由于信息丢失，可能造成算法性能的降低
* 它可以是计算密集型的
* 在机器学习流水线过程中增加了一些复杂性
* 变换的特征难以解释

# 第2题
什么是维度爆炸？

** 维度爆炸是指在低维空间中不存在的许多问题出现在高维空间中；在机器学习中，一种常见的表现是随机抽样的高维向量通常非常稀疏，增加了过度拟合的风险，并且使得在没有大量训练数据的情况下识别数据中的规律变得非常困难**

# 第3题
一旦对某数据集降维，我们可能恢复它吗？如果可以，怎样做才能恢复？如果不可以，为什么？

**一旦使用我们讨论的算法之一减少了数据集的维度，几乎总是不可能完全回复的，因为在降维过程中会丢失一些信息。此外，虽然一些算法（如PCA）具有简单的逆向变换过程，可以重建与原始数据集相对相似的数据集，但其他算法（如T-SNE）则不会**

# 第4题
PCA 可以用于降低一个高度非线性对数据集吗？

** PCA可以用来显著减少大多数数据集的维数，即使它们是高度非线性的，因为它至少可以消除无用的维数。 但是，如果没有无用的维度 - 例如瑞士卷 - 那么使用PCA降低维度会损失太多信息。 你想展开瑞士卷，而不是挤压它。**

# 第5题
假设你对一个 1000 维的数据集应用 PCA，同时设置方差解释率为 95%，你的最终数据集将会有多少维？

* **这是个棘手的问题：它取决于数据集。 我们来看两个极端的例子。 首先，假设数据集由几乎完全对齐的点组成。 在这种情况下，PCA可以将数据集简化为一维，同时仍保留95％的方差。 现在想象一下，数据集由完全随机的点组成，散布在1,000个维度上。 在这种情况下，需要所有1,000个维度来保留95％的方差。 所以答案是，它取决于数据集，它可以是1到1,000之间的任何数字**
* ** 绘制（解释的方差 — 维数）图是获得数据集固有维度的一种粗略方式。**


# 第6题
在什么情况下你会使用普通的 PCA，增量 PCA，随机 PCA 和核 PCA？

* **数据集适合内存的情况下，建议使用普通的PCA**

* **对于不适合内存的大型数据集，建议使用增量PCA，但它比常规PCA更慢；增量PCA对于在线任务也很有用，比如需要应用PCA到随时有新实例进来的任务时**

* **当考虑大大降低数据集维度，并且数据集适合内存，随机PCA是非常有用的；在这种情况下，它比普通PCA快得多**

* **核PCA对于非线性数据集非常有用**

# 第7题
你该如何评价你的降维算法在你数据集上的表现？

**直观地说，如果一个维度减少算法从数据集中消除了很多维度而不会丢失太多的信息，它就表现出色。 测量这种方法的一种方法是应用逆向变换并测量重建误差。 但是，并非所有的降维算法都提供了相反的转换。 或者，如果您在另一个机器学习算法（例如，随机森林分类器）之前将维度降低用作预处理步骤，那么您可以简单地测量第二个算法的性能; 如果降维不会损失太多信息，那么该算法应该与使用原始数据集时一样好。**

# 第8题
将两个不同的降维算法串联使用有意义吗？

**串联两种不同的降维算法绝对有意义。 一个常见的例子是使用PCA来快速消除大量无用的维度，然后应用另一种更慢的维度降低算法，如LLE。 这种两步叠加产生的性能可能与仅使用LLE算法降维相同，但所需要的时间很短。**

# 第9题
加载 MNIST 数据集（在第 3 章中介绍），并将其分成一个训练集和一个测试集（将前 60,000 个实例用于训练，其余 10,000 个用于测试）。在数据集上训练一个随机森林分类器，并记录了花费多长时间，然后在测试集上评估模型。接下来，使用 PCA 降低数据集的维度，设置方差解释率为 95%。在降维后的数据集上训练一个新的随机森林分类器，并查看需要多长时间。训练速度更快？接下来评估测试集上的分类器：它与以前的分类器比较起来如何？

In [None]:
from sklearn.datasets import fetch_mldata
mnist = fetch_mldata('MNIST origin')

X_train = mnist['data'][: 60000]
y_train = mnist['target'][: 60000]

X_test = mnist['data'][60000, :]
y_test = mnist['data'][60000, :]

**(1) 使用随机森林**

In [None]:
from sklearn.ensemble import RandomForestClassifier
import time
from sklearn.metrics import accuracy_score

rfc_clf = RandomForestClassifier(random_state=42)

t0 = time.time()
rfc_clf.fit(X_train, y_train)
t1 = time.time()

print("Training took {:.2f}s".format(t1 - t0))

y_pred = rfc_clf.predict(X_test)
accuracy(y_test, y_pred)

In [None]:
from sklearn.decomposition import PCA

pca = PCA(n_componts=0.95)
X_train_reduced = pca.fit_transform(X_train)
rfc_clf2 = RandomForestClassifier(random_state=42)

t0 = time.time()
rfc_clf2.fit(X_train_reduced)
t1 = time.time()

print("Training took {:.2f}s".format(t1 - t0))

X_test_reduced = pca.transform(X_test)
y_pred = rfc_clf2.predict(X_test_reduced)
accuracy(y_test, y_pred)

**(2) 使用逻辑回归**

In [None]:
from sklearn.linear_model import LogisticRegression

lr_clf = LogisticRegression(mult_class='multinomial', solver='lbfgs', random_state=42)

t0 = time.time()
lr_clf.fit(X_train, y_train)
t1 = time.time()

print("Training took {:.2f}s".format(t1 - t0))

y_pred = lr.predict(X_test)
accuracy_score(y_test, y_pred)

In [None]:
log_clf2 = LogisticRegression(multi_class="multinomial", solver="lbfgs", random_state=42)

t0 = time.time()
log_clf2.fit(X_train_reduced, y_train)
t1 = time.time()

print("Training took {:.2f}s".format(t1 - t0))

y_pred = lr_clf2.predict(X_test_reduced)
accuracy_score(y_test, y_pred)

# 第10题
使用 t-SNE 将 MNIST 数据集缩减到二维，并使用 Matplotlib 绘制结果图。您可以使用 10 种不同颜色的散点图来表示每个图像的目标类别。或者，您可以在每个实例的位置写入彩色数字，甚至可以绘制数字图像本身的降维版本（如果绘制所有数字，则可视化可能会过于混乱，因此您应该绘制随机样本或只在周围没有其他实例被绘制的情况下绘制）。你将会得到一个分隔良好的的可视化数字集群。尝试使用其他降维算法，如 PCA，LLE 或 MDS，并比较可视化结果

In [None]:
from sklearn.datasets import fetch_mldata
mnist = fetch_mldata('MNIST original', data_home=r'C:\Users\Zeke\my_code\Learning\Machine-Learning-and-Practice\MI_and_TF\datasets')
mnist