# 题目
Requirement：

Write a script to implement the DENCLUE density-based clustering algorithm.

The script should take as input a dataset D, the minimum density 5, the tolerance forconvergence E, and the bandwidth h.

Do NOT make any assumptions about the data(i.e, column names, etc. ), except that thelast column gives the "true "cluster id.

Questinos:

Run your script on the Iris dataset, with E=00001. Your script should output the following:
1. The number of clusters, and the size of each cluster.
2. The density attractor, followed by the set of point in that cluster.
3. Purity of the clustering, based on the true id.

To speed up the computation for estimating the density at a point, you may want to firstidentify the K nearest neighbors, and use only those neighbors.

# 聚类分析

聚类分析（Cluster Analysis）又称群分析，是根据“物以类聚”的道理，对样品或指标进行分类的一种多元统计分析方法，它们讨论的对象是大量的样品，要求能合理地按各自的特性来进行合理的分类，没有任何模式可供参考或依循，即是在没有先验知识的情况下进行的。

聚类分析仅根据在数据中发现的描述对象及其关系的信息，将数据对象分组。其目标是，组内的对象相互之间是相似的（相关的），而不同组中的对象是不同的（不相关的）。组内的相似性（同质性）越大，组间差别越大，聚类就越好。

聚类分析的3种大类和其代表技术：

    1、划分聚类法。K均值。是基于原型的、划分的聚类技术。它试图发现用户指定个数K的簇（由质心代表）。
    
    2、层次聚类。凝聚的层次聚类。开始，每个点作为一个单点簇；然后，重复地合并两个最靠近的簇，直到产生单个的、包含所有点的簇。
    
    3、基于密度的聚类。DBSCAN。是一种产生划分聚类的基于密度的聚类算法，簇的个数由算法自动地确定。低密度区域中的点被视为噪声而忽略，因此DBSCAN不产生完全聚类。
    
##  K-Means算法
K-Means算法的基本思想是初始随机给定K个簇中心，按照最邻近原则把待分类样本点分到各个簇。然后按平均法重新计算各个簇的质心(这个点可以不是样本点)，从而确定新的簇心。一直迭代，直到簇心的移动距离小于某个给定的值。

K-Means聚类算法主要分为4个步骤：

    (1)选择K个初始质心，其中K是用户指定的参数，即所期望的簇的个数。

    (2)每个点指派到最近的质心，而指派到一个质心的点集为一个簇。

    (3)根据指派到簇的点，更新每个簇的质心。

    (4)重复指派和更新步骤，直到簇不发生变化，或等价地，直到质心不发生变化。
    
## DENCLUE聚类
DENCLUE（Density Clustering）聚类基于统计学和模式识别领域里的“核密度估计”（Kernel Density Estimate），这种技术的目标是用总密度函数来描述数据的分布，其中，每个点对总密度函数的贡献用一个“影响函数”（Influence Function）或“核函数”（Kernel Function）来表示，属性空间中某一点的总密度是与该点相关联的每个点的影响函数之和。

通常情况下，核函数或影响函数是对称的，并且随着样本点之间的距离增加而下降，因此可以直观的反映数据集的密度分布。

DENCLUE聚类是一种基于密度的聚类方法，和上述讨论类似，他用与每个点相关联的影响函数之和对数据集进行总密度建模，最终得到一个在属性空间中的用来描述数据集总密度的密度函数。最终得到的总密度函数会有局部尖峰（局部密度极大值）和局部低谷（局部密度极小值），这些“尖峰”用来以自然的方式定义簇，其中每一个“尖峰”对应了一个簇质心，而簇与簇之间通过“低谷”来分离。

在该算法中，“尖峰”也被称为“局部吸引点”，而那些与局部吸引点相关联的样本点被定义为一个簇，或者称为局部吸引点的“局部影响区域”。根据密度阈值ξ，那些密度低于ξ的尖峰和他们所代表的簇被定义为“噪声”，而那些密度位于ξ之上但是簇中仍有一部分点位于ξ之下的尖峰将被视为一个“普通的簇”来对待，当两个邻近的尖峰同时处于ξ之上且他们之间每个样本点处的密度均高于ξ时，这两个尖峰所代表的簇将会被合并为一个簇来处理，下图是该算法的高层细节概括来的伪代码。
![Image of Yaktocat](https://img-blog.csdn.net/20180925132816797?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzQwNzkzOTc1/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70)

In [3]:
import numpy as np
import pandas as pd
filepath = "C:\\Users\\Shinelon\\Desktop\\data-mining  project\\Project3\\iris.txt"
df = pd.read_csv(filepath)
df=df.iloc[:,[0,1,2,3]].values

samples = np.mat(df[:,0:2])
true_labels=df[:,-1]
labels=list(set(true_labels))
true_ID=np.zeros((3,50))
index=range(len(true_labels))
for i in range(len(labels)):
    for j in index:
        if true_labels[j] == labels[i]:
            true_ID[i]=[j ]
d = DENCLUE(0.25, 0.0001)
d.classify(samples)
right_num=0

In [None]:
#高斯核计算
def kernelize(x, y, h, degree):
    kernel = np.exp(-(np.linalg.norm(x - y) / h) ** 2. / 2.) / ((2. * np.pi) ** (degree / 2))
    return kernel

#爬坡
def _hill_climb(x_t, X, W=None, h=0.1, eps=1e-7):
    error = 99.
    prob = 0.
    x_l1 = np.copy(x_t)   #X(t+1)
    radius_new = 0.
    radius_old = 0.
    radius_twiceold = 0.
    iters = 0.
    while True:
        radius_thriceold = radius_twiceold
        radius_twiceold = radius_old
        radius_old = radius_new
        x_l0 = np.copy(x_l1)       #X(t)
        x_l1, density = _step(x_l0, X, W=W, h=h)
        error = density - prob
        prob = density
        radius_new = np.linalg.norm(x_l1 - x_l0)
        radius = radius_thriceold + radius_twiceold + radius_old + radius_new
        iters += 1
        if iters > 3 and error < eps:
            break
    return [x_l1, prob, radius]

#计算X(t+1)
def _step(x_l0, X, W=None, h=0.1):
    n = X.shape[0]
    d = X.shape[1]
    superweight = 0.  # superweight is the kernel X weight for each item
    x_l1 = np.zeros((1, d))
    if W is None:
        W = np.ones((n, 1))
    else:
        W = W
    for j in range(n):
        kernel = kernelize(x_l0, X[j], h, d)
        kernel = kernel * W[j] / (h ** d)
        superweight = superweight + kernel
        x_l1 = x_l1 + (kernel * X[j])
    x_l1 = x_l1 / superweight
    density = superweight / np.sum(W)
    return [x_l1, density]

class DENCLUE(BaseEstimator, ClusterMixin):
    def __init__(self, h=None, eps=1e-8, min_density=0., metric='euclidean'):
        self.h = h
        self.eps = eps
        self.min_density = min_density
        self.metric = metric


# 参考
https://blog.csdn.net/sugar737/article/details/70160846

https://github.com/mgarrett57/DENCLUE/blob/master/denclue.py