# 6.1 非监督聚类概述

以不同影像地物在特征空间中类别特征的差别为依据的一种无先验（已知）类别标准的图像分类，是以集群为理论基础，通过计算机对图像进行集聚统计分析的方法。根据待分类样本特征参数的统计特征，建立决策规则来进行分类。而不需事先知道类别特征。把各样本的空间分布按其相似性分割或合并成一群集，每一群集代表的地物类别，需经实地调查或与已知类型的地物加以比较才能确定。

一般的聚类算法是先选择若干个模式点作为聚类的中心。每一中心代表一个类别，按照某种相似性度量方法（如最小距离方法）将各模式归于各聚类中心所代表的类别，形成初始分类。然后由聚类准则判断初始分类是否合理，如果不合理就修改分类，如此反复迭代运算，直到合理为止。


聚类目标：将数据集中的样本划分为若干个通常不相交的子集（“簇”，cluster）。

聚类既可以作为一个单独过程（用于找寻数据内在的分布结构），也可作为分类等其他学习任务的前驱过程。



聚类过程：

![](KMeanGMM/clusterP.JPG)

# 6.2 实验要求

（1）理解非监督聚类的基本原理和主要的算法。

（2）能够利用python的sklearn中的聚类模块实现对遥感影像的非监督分类。

# 6.3 思考探索

（1）思考Kmean聚类算法和GMM聚类算法之间的异同？

（2）比较在给定不同聚类类别数的情况下，分类效果之间的差异？ 并分析原因。

# 6.4 案例展示

## 6.4.1 K-Mean聚类

（1）全色影像和GroundTruth

![](DataImage/PanDatasource.png)

原始全色影像

![](DataImage/GroundTruth.png)

 地物类别图（GroundTruth）

（2）K-Means聚类算法简介

K-Means算法思想简单，效果却很好，是最有名的聚类算法。聚类算法的步骤如下：

1：初始化K个样本作为初始聚类中心；

2：计算每个样本点到K个中心的距离，选择最近的中心作为其分类，直到所有样本点分类完毕；

3：分别计算K个类中所有样本的质心，作为新的中心点，完成一轮迭代。

通常的迭代结束条件为新的质心与之前的质心偏移值小于一个给定阈值。

（3）python实现关键代码

导入所需要的主要库

import numpy as np  数据分析处理 <br />
import skimage.io as SKimg  读取遥感影像   <br />
import matplotlib.pyplot as plt  绘图制图   <br />
from sklearn.cluster import KMeans  K-Means算法模块

读取tiff影像 <br />
Tpan =SKimg.imread("F:/pythontestdata/MyTiff/tianhui1200pan.tif")

调用K-Means算法，设置聚类的目标类别数<br />
KMS = KMeans(n_clusters=6, random_state=0).fit(NewTpan);

每个像素值的类别号，每个类别的聚类中心<br />
Labels=KMS.labels_; clus_centers=KMS.cluster_centers_; 


Kwars=dict(histtype='stepfilled',alpha=0.4,normed=True,bins=np.arange(0,255));<br />
intervals=plt.hist(X,color=cor[S],**Kwars); 绘制灰度值的频率直方图

（4） 聚类效果

设置K-Means的聚类个数分别为4、5、6、7、8，得到五次聚类的结果。距离中心的个数等于聚类的类别数，对于全色影像，聚类后的类别中心,<br />
为像素灰度值，如下的频率直方图中，灰度值呈现分段聚集，每一段代表一个聚类后的类别。随着聚类个数的增多，频率直方图的分段数也增多。

![](KMeanGMM/KmeansH.jpg)

          K=4                    K=5                      K=6                    K=7                    K=8

聚类结果比较：从下图可知，整体上分类效果较好，但随着聚类个数的增大，分出的类别数增多，同种地物内可能出现多个类别，导致误分错分。<br />
因此有必要设置较为合理的聚类数，并进行聚类后的类别合并，以及平滑等处理。

![](KMeanGMM/KmeansK45678.png)

          K=4                    K=5                      K=6                    K=7                    K=8

## 6.4.2 GMM聚类

（1） 全色影像和GroundTruth

![](DataImage/PanDatasource.png)

原始全色影像

![](DataImage/GroundTruth.png)

地物类别图（GroundTruth）

（2） GMM聚类算法原理

混合高斯模型（Gaussian Mixture Model，简称GMM）是用高斯概率密度函数（正态分布曲线）精确地量化事物，<br />
将一个事物分解为若干的基于高斯概率密度函数（正态分布曲线）形成的模型。

![](KMeanGMM/Gaosi.JPG)

![](KMeanGMM/Gaosi2.JPG)

![](KMeanGMM/Gaosi3.JPG)

（3）python实现关键代码

导入所需要的主要库

import numpy as np  数据分析处理 <br />
import skimage.io as SKimg  读取遥感影像   <br />
import matplotlib.pyplot as plt  绘图制图   <br />
from sklearn import mixture  高斯模型



读取tiff影像 <br />
Tpan =SKimg.imread("F:/pythontestdata/MyTiff/tianhui1200pan.tif")

调用GMM算法，设置聚类的目标类别数<br />
GMMmy = mixture.GaussianMixture(n_components=6,covariance_type='full').fit(NewTpan);

每个像素值的类别号，每个类别的聚类中心<br />
Labels=GMMmy.predict(NewTpan);  Clus_Centers=GMMmy.means_;


Kwars=dict(histtype='stepfilled',alpha=0.4,normed=True,bins=np.arange(0,255));<br />
intervals=plt.hist(X,color=cor[S],**Kwars);  绘制灰度值的频率直方图

（4）聚类效果

设置K-Means的聚类个数分别为4、5、6、7、8，得到五次聚类的结果。距离中心的个数等于聚类的类别数，对于全色影像，聚类后的类别中心,<br />
为像素灰度值，如下的频率直方图中，灰度值呈现分段聚集，每一段代表一个聚类后的类别。随着聚类个数的增多，频率直方图的分段数也增多。

![](KMeanGMM/GMMH.jpg)

          K=4                    K=5                      K=6                    K=7                    K=8

GMM聚类的效果与K-Means的效果相似，也是整体上分类效果较好，但随着聚类个数的增大，分出的类别数增多，同种地物内可能出现多个类别，导致误分错分。

![](KMeanGMM/GMMK45678.png)

          K=4                    K=5                      K=6                    K=7                    K=8