# 无监督学习
**无监督学习**：利用无标签的数据学习数据的分布或数据与数据间的关系。
**主要应用**：聚类和降维

## 一、聚类
**聚类**：根据数据的“相似性”将数据分为多类的过程。
**相似性的度量**：通常使用两个样本间“距离”来判断样本间相似性。不同的距离计算方法对于聚类结果的优劣有较大影响。

**常用的距离计算方法**

- **欧氏距离**，属于最常用的距离度量方法，即欧式空间中两点的距离。  
二维空间的欧式距离：(即两点间的距离)
$$d = \sqrt{(x_i - x_j)^2 + (y_i - y_j)^2}$$
多维空间的欧氏距离：
$$d = \sqrt{\sum_{k = 1}^n(x_{1k} - x_{2k})^2}$$

- **曼哈顿距离**，又称为“城市街区距离”，类似于造成始终驾车行驶，从一个十字路口到另一个十字路口的距离。  
二维空间的曼哈顿距离：
$$d = |(x_i - x_j)| + |(y_i - y_j)|$$
多维空间的曼哈顿距离：
$$d = \sum_{k = 1}^n|x_{1k} - x_{2k}|^2$$

- **马氏距离**，表示数据的协方差距离，是一种**与尺度无关的度量方式**，即计算马氏距离时先将样本点的各个属性标准化，在计算样本间的距离。  
多维空间的马氏距离：
$$d(x_i, x_j) = \sqrt{(x_i - x_j)^Ts^{-1}(x_i - x_j)}$$

- **夹角余弦**，采用想来那个空间中两个向量夹角的余弦值作为衡量两个样本差异的大小。余弦值越接近于1，则表明两个向量夹角越接近于0度，两个向量越相似。  
二维空间的夹角余弦：
$$cos(\theta) = \frac{x_ix_j + y_iy_j}{\sqrt{x_i^2 + y_i^2}\cdot\sqrt{x_j^2 + y_j^2}}$$
多维空间的夹角余弦：
$$cos(\theta) = \frac{\sum_{k = 1}^n x_{1k}x_{2k}}{\sqrt{\sum_{k = 1}^n x_{1k}^2}\cdot\sqrt{\sum_{k = 1}^n x_{2k}^2}}$$

**扩展**

- 在scikit-learn库中提供的常用聚类算法函数包含在sklearn.cluster模块中
- 同一数据集采用不同算法进行聚类，其结果不尽相同，主要是由于不同算法进行聚类的方式不同导致。

**sklearn.cluster**：该模块提供的聚类算法函数可使用不同数据形式作为输入：

- 标准数据输入格式：**[样本个数, 特征个数]**定义的矩阵形式；
- 相似性矩阵输入格式：由**[样本数目]**定义的矩阵形式，矩阵中每一个元素为两个样本的相似度，如：DBSCAN、AffinityPropagation（近邻传播算法）接受这种输入。若以余弦相似度为例，则对角线元素全为1。矩阵中每个元素的取值范围为**[0， 1]**

**sklearn.cluster中各算法**

- **K-means**，参数：聚类个数；可适用于大规模数据，采用点间距离度量相似度
- **DBSCAN**，参数：邻域大小；可适用于大规模数据，采用点间距离度量相似度
- **高斯混合Gaussian Mixtures**，参数：聚类个数及其他超参；适用于复杂度较高的数据集，但不适用于大规模数据，采用马氏距离度量相似度
- **Birch**，参数：分支因子、阈值等其他超参；可适用于大规模数据，采用两点间欧氏距离度量相似性

## 二、降维
**降维**：即在保证数据所具有的代表性特征或者分布的情况下，将高维数据转化为低维数据的过程。（也可被理解为对数据集的组成成分进行分解decomposition的过程）  
**应用**

- 数据的可视化
- 精简数据，降低数据维度

**sklearn.decomposition**：由于降维也可被理解为对数据集组成成分分解的过程，因此降维算法即在sklearn库的decomposition模块中，目前sklearn库中提供7中降维算法。

- **PCA**，参数：所降维度及其他超参，可适用于大规模数据，常用于信号处理；
- **FastICA**，参数：所降维度及其他超参，可适用于超大规模数据，常用于图形图像特征提取
- **NMF**，参数：所降维度及其他超参，可适用于大规模数据，常用于图形图像特征提取
- **LDA**，参数：所降维度及其他超参，可适用于大规模数据，常用于文本数据、主题挖掘