## 无监督学习 (Unsupervised Learning)

相关算法：
1. K-means聚类
2. PCA主成分分析

作业类型：
1. 代码补全
2. 简答题

数据集：
Fashion-MNIST

### Fashion-MNIST数据集(Fashion-MNIST Dataset)

来源：[A MNIST-like fashion product database](https://github.com/zalandoresearch/fashion-mnist)

Fashion-MNIST数据集由[Zalando](https://jobs.zalando.com/tech/)提出，与经典的[MNIST](http://yann.lecun.com/exdb/mnist/)数据集格式完全相同：包含10个种类，总计60000张训练图片和10000张测试图片，每张图片为28\*28尺寸的灰度图片。

我们借助tensorflow的接口读取数据集文件，并实现DataLoader类用于整理数据。

In [88]:
from tensorflow.examples.tutorials.mnist import input_data
import random
import numpy as np

class DataLoader:
    def __init__(self, folder):
        self.dataset = input_data.read_data_sets("../input/" + folder)
        self.train_dataset = {}
        self.test_dataset = {}
        for images, labels, dataset in [(self.dataset.train.images, self.dataset.train.labels, self.train_dataset), 
                                        (self.dataset.validation.images, self.dataset.validation.labels, self.train_dataset), 
                                        (self.dataset.test.images, self.dataset.test.labels, self.test_dataset)]:
            assert images.shape[0] == labels.shape[0]
            for i in range(images.shape[0]):
                if not labels[i] in dataset:
                    dataset[labels[i]] = []
                dataset[labels[i]].append(images[i])
        
    def load(self, label_list, train_n=-1, test_n=-1, shuffle=True):
        train_list = []
        test_list = []
        new_label = 0
        for label in label_list:
            for image in self.train_dataset[label]:
                train_list.append((image, new_label))
            for image in self.test_dataset[label]:
                test_list.append((image, new_label))
            new_label += 1
        if shuffle:
            random.shuffle(train_list)
            random.shuffle(test_list)
        if train_n > 0:
            train_list = train_list[: train_n]
        if test_n > 0:
            test_list = train_list[: test_n]
        
        return np.array([pair[0] for pair in train_list]), np.array([pair[1] for pair in train_list]), \
            np.array([pair[0] for pair in test_list]), np.array([pair[1] for pair in test_list]),
                

实例化DataLoader并读取数据集文件。

In [89]:
dataLoader = DataLoader("Fashion_MNIST8667")

Extracting ../input/Fashion_MNIST8667/train-images-idx3-ubyte.gz
Extracting ../input/Fashion_MNIST8667/train-labels-idx1-ubyte.gz
Extracting ../input/Fashion_MNIST8667/t10k-images-idx3-ubyte.gz
Extracting ../input/Fashion_MNIST8667/t10k-labels-idx1-ubyte.gz


读取所有数据，检查数据格式，所有图片均已向量化处理。

In [90]:
X_train, y_train, X_test, y_test = dataLoader.load([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

print(X_train.shape, y_train.shape)
print(X_test.shape, y_test.shape)

(60000, 784) (60000,)
(10000, 784) (10000,)


预览每种类别的部分图片。

In [91]:
import matplotlib.pyplot as plt
%matplotlib inline

classes = ['T-shirt', 'Trouser', 'Pullover', 'Dress', 'Coat', 'Sandal', 'Shirt', 'Sneaker', 'Bag', 'Boot']
num_classes = len(classes)
samples_per_class = 7
for y, cls in enumerate(classes):
    idxs = np.flatnonzero(y_train == y)
    idxs = np.random.choice(idxs, samples_per_class, replace=False)
    for i, idx in enumerate(idxs):
        plt_idx = i * num_classes + y + 1
        plt.subplot(samples_per_class, num_classes, plt_idx)
        plt.imshow(X_train[idx].reshape((28,28)),cmap=plt.cm.gray)
        plt.axis('off')
        if i == 0:
            plt.title(cls)
plt.show()

我们选取其中的5个类别的图片进行K-means聚类学习。

In [92]:
selected_classes = [0, 1, 2, 3, 4]
n = len(selected_classes)

X_train, y_train, X_test, y_test = dataLoader.load(selected_classes)

print(X_train.shape, y_train.shape)
print(X_test.shape, y_test.shape)

(30000, 784) (30000,)
(5000, 784) (5000,)


### K-means聚类算法(k-means Clustering)

实现最基本的K-means聚类算法。

算法流程：
1. 提供所需簇(cluster)的数量k。
2. 随机选取k个实例作为种子节点，即作为每个簇的质心(centroid)。
3. 迭代以下步骤：
	* 将每实例分配给最近质心相关联的簇。
	*	重新估计每个簇的质心。
4. 当聚类收敛时停止，或者在经过固定次数的迭代之后。

**TODO：你需要补全K_Means类中fit函数的代码实现**

代码解释：
1. K_Means类中n_clusters变量为算法流程步骤1中的k，centroids为算法流程步骤2中的质心。
2. fit函数参数列表中的max_iter为算法流程步骤4中的最大迭代次数，epsilon为收敛的阈值。

要求：
1. 实现算法流程中的所有步骤，包括质心的随机选取，迭代的收敛控制。
2. 对fit函数的返回值没有特别要求，只需要将质心迭代结果存于centroids中，用于predict函数调用。
3. 对质心的距离函数没有特别要求，可以尝试各种距离函数。

In [93]:
class K_Means:
    def __init__(self, n_clusters=5):
        self.n_clusters = n_clusters
        self.centroids = None
    
    def findClosestCentroids(self, X, centroids):
        K = self.n_clusters
        idx = np.zeros((X.shape[0],1))
        temp = np.zeros((K, 1))
        
        for i in range(X.shape[0]):
            for j in range(K):
                dist = X[i,:] - centroids[j,:]
                length = np.sum(dist**2)
                temp[j] = length
            idx[i] = np.argmin(temp) + 1
        return idx
        
    def initCentroids(self, X, K):
        m, n = X.shape[0], X.shape[1]
        centroids = np.zeros((K,n))
        
        for i in range(K):
            centroids[i] = X[np.random.randint(0, m+1), :]
        print("init done")
        return centroids
        
    def computeCentroids(self, X, idx, K):
        m, n = X.shape[0], X.shape[1]
        centroids = np.zeros((K,n))
        count = np.zeros((K,1))
        for i in range(m):
            index = int((idx[i]-1)[0])
            centroids[index, :] += X[i, :]
            count[index] += 1
        return centroids/count
    
    def shouldStop(self, old_centroids, centroids, epsilon, i, max_iter):
        if i > max_iter:
            return True
        return False
        # if np.abs(old_centroids - centroids).all() < epsilon:
        #     return True
        # else:
        #     return False
    
    def fit(self, X, max_iter=300, epsilon=0.01):
        K = self.n_clusters
        centroids = self.initCentroids(X, K)
        
        i = 0
        old_centroids = np.zeros(centroids.shape)
        while not self.shouldStop(old_centroids, centroids, epsilon, i, max_iter):
            idx = self.findClosestCentroids(X, centroids)
            old_centroids = centroids
            centroids = self.computeCentroids(X, idx, K)
            if i % 100 == 0:
                print("iter %d" % i)
            i += 1
        self.centroids = centroids
        print(centroids)

    def predict(self, X):
        return np.array([np.argmin(np.diag(np.dot(self.centroids - X[i], (self.centroids - X[i]).T)))
                        for i in range(X.shape[0])])

在测试数据集上进行测试，并输出K-means聚类算法聚类分布。

In [94]:
k_means = K_Means(n_clusters=n)
k_means.fit(X_train, max_iter=300, epsilon=0.001)
y_predicted = k_means.predict(X_test)
result = np.zeros((n, n), dtype=int)
for i in range(X_test.shape[0]):
    result[y_test[i]][y_predicted[i]] += 1
print(result)
result = result * 1.0
for i in range(n):
    result[i] /= np.sum(result[i])
print(result)

init done
iter 0
iter 100
iter 200
iter 300
[[0.00000000e+00 5.73481234e-05 3.43046043e-04 ... 5.44014711e-02
  8.45519857e-03 4.95279234e-04]
 [1.28892978e-05 1.36948789e-05 4.10846370e-05 ... 1.37834929e-03
  6.52520697e-05 5.15571920e-05]
 [5.91310142e-07 2.12871653e-05 1.59653740e-04 ... 7.64918795e-03
  1.53858898e-03 2.22332610e-04]
 [0.00000000e+00 0.00000000e+00 0.00000000e+00 ... 0.00000000e+00
  0.00000000e+00 0.00000000e+00]
 [4.90579380e-06 4.16992469e-05 3.39112994e-04 ... 1.74155677e-04
  3.80199020e-05 7.35869066e-06]]
[[ 34  14 315  21 616]
 [  3  13  85 849  50]
 [372 277 330   4  17]
 [  3  18 242 449 288]
 [249 487 144  23  97]]
[[0.034 0.014 0.315 0.021 0.616]
 [0.003 0.013 0.085 0.849 0.05 ]
 [0.372 0.277 0.33  0.004 0.017]
 [0.003 0.018 0.242 0.449 0.288]
 [0.249 0.487 0.144 0.023 0.097]]


通过可视化直观表现聚类的分布情况。

In [95]:
plt.imshow(result)
plt.colorbar()
plt.show()

由于K-means聚类算法属于无监督学习算法，我们无法知晓每个质心和真实分类的对应关系，没有直观的正确率概念。这里我们假设最终每个质心分别与真实分类之间是一一对应关系，并通过枚举其对应关系得到一个自定义的正确率。

**最终你实现的K-means聚类算法应该达到50%的正确率。**

最终的学习结果可能存在一定的波动性。

**问题**：对于如何改进K-means聚类算法，例如迭代速度、稳定性、避免局部最优等方面，你有什么想法？
**答案**：比如在选取最开始的K个中心时，原始的方法是完全随机，这种方法可以更改成，假设已经选取了$n$个初始聚类中心$(0<n<K)$，则在选取第$n+1$个聚类中心时倾向于选取离当前$n$个聚类中心更远的点。这样可以更好地提高算法的稳定性，并且可以更快地收敛到好的聚类结果。
现有的K-means聚类算法要求K要预先设定并且在训练的时候无法更改，可以考虑在训练的时候对聚类中心增加合并分裂的操作使得K值也可以根据训练结果进行调整。
对于一些噪音维度可以考虑对K个聚类中心进行权重赋值，减少噪音对结果的影响。

In [96]:
from itertools import permutations as perm

score = 0
for p in list(perm([i for i in range(n)])):
    s = 0
    for k in range(n):
        s += result[k][p[k]]
    score = max(score, s)
print(score / np.sum(result))

0.5131999999999999


### PCA主成分分析(Principal Components Analysis)

基于特征值分解协方差矩阵方法实现PCA算法。

算法流程：
1. 确定原矩阵$\mathbf{X}_{n \times m}$以及主成分数量k。
2. 对$\mathbf{X}$的每一维去中心化，即减掉各自维度的平均值。
3. 计算协方差矩阵$\frac{1}{n}\mathbf{X}^T\mathbf{X}$的特征值和特征向量。
4. 选取k个最大的特征值对应的特征向量，组成降维投影矩阵。
5. 对原矩阵进行降维处理并输出，维度为$n \times k$。

**TODO：你需要补全pca函数的代码实现**

代码解释：
1. pca函数参数列表中的X和k为PCA主成分分析算法流程的步骤1中的原矩阵$\mathbf{X}_{n \times m}$以及主成分数量k。


要求：
1. 可以使用numpy库中的特征值和特征向量计算函数，但不允许直接调用sklearn库中的PCA相关函数。
2. 可以不用统一每个维度的方差。

In [132]:
def computeMean(X):
    meanVal = np.mean(X, axis=0, keepdims=True)
    x_mat = X - meanVal
    return x_mat

def pca(X, k):
    xMat = computeMean(X)
    # covMat = np.dot(xMat.T, xMat) / xMat.shape[0]
    covMat = np.cov(xMat, rowvar=0)
    
    eigVal, eigVect = np.linalg.eig(np.mat(covMat))
    eigValInd = np.argsort(eigVal)
    k_eigValInd = eigValInd[:-(k+1):-1]
    k_eigVect = eigVect[:,k_eigValInd]
    lowDimMat = np.dot(xMat, k_eigVect)
    return np.array(lowDimMat)

对PCA主成分分析算法的结果进行可视化处理。

In [133]:
X_input = np.concatenate([X_test, k_means.centroids])
X_pca = pca(X_input, 2)
color = ['r', 'b', 'g', 'y', 'c']
for i in range(n):
    x_list = []
    y_list = []
    for j in range(X_test.shape[0]):
        if y_predicted[j] == i:
            x_list.append(X_pca[j][0])
            y_list.append(X_pca[j][1])
    plt.plot(x_list, y_list, '.', color=color[i])
    plt.plot([X_pca[- n + i][0]], [X_pca[- n + i][1]], 's', color='k')
plt.show()

与sklearn库中的PCA实现对比。

**最终你实现的PCA主成分分析算法的结果应该与sklearn库的实现相似。**

可能会存在旋转、缩放、镜像等差异，但拓扑关系应该保持一致。

**问题**：对于PCA主成分分析算法进行数据处理的优缺点，你有什么想法？
**答案**：PCA的优点主要是可以使要分析的数据的维度降低同时保留数据的主要信息，使得其结果更容易理解，方便去除噪声，并且方便识别最重要的多个特征，同时降低了后续算法的计算开销，以及PCA的过程没有参数的限制。
PCA的缺点主要是可能损失一些可用的信息，并且对于有一定特征的数据无法通过参数化等方法对数据处理的过程进行干预，无法适用已有的先验知识。同时特征值的分解有一些局限性，对于变换的矩阵有要求。而在非高斯分布的情况下，PCA得到的主元不一定最优。

In [134]:
from sklearn.decomposition import PCA

X_input = np.concatenate([X_test, k_means.centroids])
X_pca = PCA(2).fit_transform(X_input)
color = ['r', 'b', 'g', 'y', 'c']
for i in range(n):
    x_list = []
    y_list = []
    for j in range(X_test.shape[0]):
        if y_predicted[j] == i:
            x_list.append(X_pca[j][0])
            y_list.append(X_pca[j][1])
    plt.plot(x_list, y_list, '.', color=color[i])
    plt.plot([X_pca[- n + i][0]], [X_pca[- n + i][1]], 's', color='k')
plt.show()