In [1]:
# visitlist类用于记录访问列表
# unvisitedlist记录未访问过的点
# visitedlist记录已访问过的点
# unvisitednum记录访问过的点数量

##visitlist数据结构
class visitlist:
    def __init__(self, count = 0):
        self.unvisitedlist = [i for i in range(count)]
        self.visitedlist = list()
        self.unvisitednum = count
        
    def visit(self,pointId):
        self.visitedlist.append(pointId)
        self.unvisitedlist.remove(pointId)
        self.unvisitednum -= 1
        

In [2]:
##DBSCAN算法实现代码
import numpy as np
import matplotlib.pyplot as plt
import math 
import random


In [3]:
def dist(a,b):
    #计算a,b两个元组的欧几里得距离
    return math.sqrt(np.power(a-b,2).sum())

In [4]:
#利用sklearn生成数据集,共2500条数据,并利用matplotlib画出散点图,代码如下:
import numpy as np
import matplotlib.pyplot as plt
from sklearn import datasets
%matplotlib 

X1, Y1 = datasets.make_circles(n_samples=2000, factor=0.6, noise=0.05, random_state=1)
X2, Y2 = datasets.make_blobs(n_samples=500, n_features=2, centers=[[1.5,1.5]],
                             cluster_std=[[0.1]], random_state=5)

X = np.concatenate((X1, X2))
plt.figure(dpi=80)
plt.scatter(X[:, 0], X[:, 1], marker='.')
plt.show()
plt.savefig('results.png')

Using matplotlib backend: Qt5Agg


In [5]:
def my_dbscan1(dataSet, eps, minPts):
    # numpy.ndarray的shape属性表示矩阵的行数与列数
    nPoints = dataSet.shape[0]
    # (1)标记所有对象为unvisited
    # 在这里用一个类vPoints进行实现
    vPoints = visitlist(count=nPoints)
    # 初始化簇标记列表C,簇标记k
    k = -1;
    C = [-1 for i in range(nPoints)]
    while (vPoints.unvisitednum > 0):
        # (3) 随机选择一个unvisited对象p
        p = random.choice(vPoints.unvisitedlist)
        # (4) 标记p为visited
        vPoints.visit(p)
        # (5) if p的ε-邻域至少有MinPts个对象
        # N是p的ε-邻域点列表
        N = [i for i in range(nPoints) if dist(dataSet[i], dataSet[p]) <= eps]
        if len(N) >= minPts:
            # (6) 创建一个新簇C, 并把p添加到C
            # 这里的C是一个标记列表, 直接对第p个结点进行赋值
            k += 1
            C[p] = k
            # (7) 令N为p的ε-邻域中的对象的集合
            # N是p的ε-邻域点集合
            # (8) for N中的每个点p1
            for p1 in N:
                # (9)if p1是unvisited
                if p1 in vPoints.unvisitedlist:
                    # (10) 标记p1为visited
                    vPoints.visit(p1)
                    # (11) if p1的ε邻域至少有MinPts个点,把这些点添加到N
                    # 找出p1的ε-邻域点,并将这些点去重添加到N
                    M = [i for i in range(nPoints) if dist(dataSet[i], dataSet[p1]) <= eps]
                    if len(M) >= minPts:
                        for i in M:
                            if i not in N:
                                N.append(i)
                    # (12) if p1还不是任何簇的成员,把p1添加到C
                    # C是标记列表,直接把p1分到对应的簇里即可
                    if C[p1] == -1:
                        C[p1] = k
        # (15) else标记p为噪声
        else:
            C[p] = -1

    # (16) until没有标记为unvisited的对象
    return C

In [6]:
import time

start = time.time()
X = np.concatenate((X1, X2))
C1 = my_dbscan1(X, 0.1, 10)
end = time.time()
print("运行时间: ",end-start)
plt.scatter(X[:, 0], X[:, 1], c = C1, marker='.')
plt.show()
plt.savefig('results1.png')

运行时间:  43.851200580596924


In [7]:
#利用scipy实现KD-Tree的构造和查询,对dbscan1进行改进,代码如下：
import numpy as np
import matplotlib.pyplot as plt
import math
import random
from scipy.spatial import KDTree

def my_dbscan2(dataSet, eps, minPts):
    # numpy.ndarray的shape属性表示矩阵的行数与列数
    # 行数即表示所有点的个数
    nPoints = dataSet.shape[0]
    # (1) 标记所有对象为unvisited
    # 在这里用一个类vPoints进行实现
    vPoints = visitlist(count = nPoints)
    # 初始化簇标记列表C,簇标记k
    k = -1; C= [-1 for i in range(nPoints)]
    # 构建KD-Tree, 并生成所有距离<=eps的点对集合
    kd =KDTree(X)
    while(vPoints.unvisitednum > 0):

        # (3) 随机选择一个unvisited对象p
        p = random.choice(vPoints.unvisitedlist)
        # (4)标记p为visited
        vPoints.visit(p)
        # (5) if p的ε-邻域至少有MinPts个对象
        # N是p的ε-邻域点列表
        N = kd.query_ball_point(dataSet[p], eps)
        if len(N) >= minPts:
            # (6) 创建一个新簇C,并把p添加到C
            # 这里的C是一个标记列表,直接对第p个结点进行赋值
            k += 1
            C[p] = k
            # (7) 令N为p的ε-邻域中的对象的集合
            # N是p的ε-邻域点集合
            # (8) for N中的每个点p1
            for p1 in N:
                # (9) if p1是unvisited
                if p1 in vPoints.unvisitedlist:
                    # (10) 标记p1为visited
                    vPoints.visit(p1)
                    # (11) if p1的ε-邻域至少有MinPts个点,把这些点添加到N
                    # 找出p1的ε-邻域点,并将这些点去重添加到N
                    M = kd.query_ball_point(dataSet[p1], eps)
                    if len(M) >= minPts:
                        for i in M:
                            if i not in  N:
                                N.append(i)
                    # (12) if p1还不是任何簇的成员,把p1添加到C
                    # C是标记列表,直接把p1分到对应的簇里即可
                    if C[p1] == -1:
                        C[p1] = k
        # (15) else 标记p为噪声
        else:
            C[p] = -1
    
    # (16) until没有标记为unvisited的对象
    return C

In [8]:
import time

start = time.time()
X = np.concatenate((X1, X2))
C2 = my_dbscan2(X, 0.1, 10)
end = time.time()
print("运行时间: ",end-start)
plt.scatter(X[:, 0], X[:, 1], c = C2, marker='.')
plt.show()
plt.savefig('results2.png')

运行时间:  6.906914472579956


In [6]:
# DBSCAN eps = 0.1, min_samples = 10
import time
from sklearn.cluster import DBSCAN
start = time.time()
X = np.concatenate((X1, X2))
C3 = DBSCAN(eps = 0.1, min_samples = 10).fit_predict(X)
end = time.time()
print("运行时间: ",end-start)
plt.scatter(X[:, 0], X[:, 1], c = C3, marker='.')
plt.show()
plt.savefig('results3.png')

运行时间:  0.12207889556884766
