# 无监督学习

之前学过的算法都是监督学习(PCA除外)。  
+ 监督学习：特征矩阵X，与标签y。根据所给的特征矩阵进行建模，然后预测其标签y_predict，最后根据评价指标对模型进行优化。  
+ 无监督学习：给定特征矩阵X(标签y可有可无)，对其进行建模，分类等算法，根据特定的评价指标预测y。

# 分类与聚类的区别
+ 分类是**有监督学习**，需要给定标签y，然后我们根据算法预测样本。  
+ 聚类是**无监督学习**，不需要给定标签y，顾名思义，聚类就是把相同的类别划分成一类，如何划分取决于我们想要划分的个数。

![](images/6_1.png)

![](images/6_2.png)


## sklearn 里面的聚类算法

sklearn 里面的聚类算法有两种：  
1. 类  
    需要实例化，训练以及调用接口
2. 函数  
    输入特征矩阵以及相关参数，返回对应的指标和结果
    

![](images/6_3.png)

算法是适应数据如下：


![](images/6_7.png)

# KMeans

KMeans算法就是把N的样本分为k个簇，簇与簇之间没有交集，对应的簇称为一个分类，簇就是聚类的结果表现。    

簇中所有数据的均值$u_j$称为这个簇的**质心(centroids)**。在二维坐标中，质心的横坐标就是簇内各点的横坐标的平均值，质心的纵坐标就是簇内各点纵坐标的平均值，这个结论可以推广到高维度空间。  

KMeans算法就是先(随机)找到k个质心，然后开始循环，使得质心周围的N个样本点到质心的距离最小。  

当每个样本点分配到对应的簇保持不变时，迭代停止，分簇的任务也就完成了。

![%E5%9B%BE%E7%89%87.png](attachment:%E5%9B%BE%E7%89%87.png)

## 簇内平方和

聚类算法就是要将未知数据分成k个簇(类别)，簇与簇之间的差距越大说明其差异越大，但是簇内的样本到质心的距离越小，说明每个样本点的相似性程度越高。衡量聚类算法的标准是**使得簇内差异尽可能小，簇外差异尽可能的大**，这样我们才能说分类的效果会比较明显。  

要衡量簇内的差异我们可以用**样本到质心的距离**表示，这个距离越小，说明簇内差异小，也意味着这个簇分的比较好。计算样本到质心的距离有如下公式：  

$$欧氏距离：d(x,\mu) = \sqrt{\displaystyle \sum_{i=1}^{n}(x_i - \mu_i)^2}$$

$$曼哈顿距离：d(x, \mu) = \sum_{i=1}^{n}(|x_i -\mu|)$$

$$余弦距离：cos\theta = \dfrac{\displaystyle \sum_{i=1}^{n}x_i * \mu}{\sqrt{\sum_{i=1}^{n}(x_i)^2 }\times \sqrt{\sum_{i=1}^{n}(\mu^2)}}$$

(余弦距离多用于文本分类)

上面公式的欧式距离只是计算了一个样本点到其对应的质心的距离，如果需要计算整个簇里面的样本到其质心的距离，我们就需要用到**簇内平方和(Cluster Sum of Square, CSS)**  

$$CSS = \displaystyle \sum_{j=0}^{m} \sum_{i=1}^{n}(x_i - \mu_i)^2$$  
(其中，i的特征的维度，n是总维度，j是簇内第j个样本点，m的簇内总的样本点数)

对所有的簇内平方和相加，就得到**整体平方和(Total Cluster Sum of Square)，也叫Total Inertia**：  
$$Total\;Cluster\;Sum\;of\;Square = \sum_{k=1}^{K}CSS_k$$  
(其中，k为第k个簇，K为簇的总个数)

为了评估KMeans算法，我们通过衡量簇内平方和。上面说了，要尽可能让**簇内差异小，簇外差异大**，所以我们可以最小化CSS(这也意味着最小化TCSS)。   

但是这个指标只是衡量了簇内的差异，却没有反映簇与簇之间的差异，而且如果我们分的簇越多，Inertia会越小，但这不意味着模型的效果越好。  
设想一个极端的例子：我们分簇分为和我们样本一样多，也就是相当于每个样本对应每个簇。这时候的intertia就是0(簇内没有差异，因为一个簇对应一个点)，这相当于没有分类。  

由此，我们可以得出结论：  
评估KMeans算法的指标Total Inertia并非越小越好，也就是说，这个指标不能作为我们的损失函数。顶多也就类似于损失函数。

对应KMeans，一般而言，只要选对了质心，采取何种距离计算公式得出Intertia都能达到不错的效果。(sklearn中默认使用欧式距离求得inertia)

![%E5%9B%BE%E7%89%87.png](attachment:%E5%9B%BE%E7%89%87.png)

## KMeans的时间复杂度

KMeans算法的平均复杂度是O(k\*n\*T)，其中k是我们的超参数，所需要输入的簇数，n是整个数据集中的样本量，
T是所需要的迭代次数（相对的，KNN的平均复杂度是O(n)）。在最坏的情况下，KMeans的复杂度可以写作$O(n^{(k+2)/p})$
，其中n是整个数据集中的样本量，p是特征总数。

对于大型数据，我们一般不会把全部样本拿去跑模型。一般会取其中一部分样本点(如，50W取2W)，跑出来的模型再用fit_predict()对所有样本点进行预测。