**<font color = black size=6>实验七:聚类</font>**

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import math
import matplotlib as mpl
import warnings
import random
warnings.filterwarnings('ignore')
from pandas.core.frame import DataFrame
from matplotlib.axes._axes import _log as matplotlib_axes_logger
matplotlib_axes_logger.setLevel('ERROR')

**<font color = blue size=4>第一部分:实验任务</font>**

本任务使用train.csv数据集，共有二维特征【weight】,【height】.本次实验检测使用二类聚类算法: 原型聚类法【K-means】和密度聚类法【DBSCAN】.

1)对该数据集进行聚类处理

2)聚类完成后进行可视化处理

由于层次聚类法计算量大，复杂度高，本次实验任务不做要求，感兴趣的同学可以自行实现。

<span style="color:purple">1.首先编写计算衡量样本间的相似度的距离，这里列举两种距离公式.之后的任务中从两个距离公式中选择一种使用，但需要保证两个任务要使用同样的距离公式</span>
    
<span style="color:purple">a.曼哈顿距离计算公式:  
    对于两个d维的样本$x_i$,$x_j$,他们的曼哈顿距离计算公式为:  
    $$dist_{man}(x_i,x_j)=\sum_{u=1}^d |x_{iu}-x_{ju}|$$
其中$x_{iu}$和$x_{ju}$分别为样本$x_i$和$x_j$的第u维特征值</span>

<span style="color:purple">b.欧式距离计算公式:  
    对于两个d维的样本$x_i$,$x_j$,他们的欧式距离计算公式为:  
    $$dist_{ed}(x_i,x_j)=\sqrt{\sum_{u=1}^d (x_{iu}-x_{ju})^2}$$
其中$x_{iu}$和$x_{ju}$分别为样本$x_i$和$x_j$的第u维特征值</span>

In [None]:
#曼哈顿距离
def manhattan_distance(x, y):
    return abs(x - y).sum()

#欧式距离
def euclidean_distance(x,y):
    return math.sqrt(((x - y)**2).sum())

**<font color = green size=3>1):常用聚类算法一: 原型聚类法</font>**

使用K-means算法对数据集进行聚类处理，具体逻辑参照下面图片所给的伪代码

In [14]:
%%html
<img src="K_means Pseudocode.png", width=720, heigth=240>

<span style="color:purple">1) 确定聚类数量$k$，然后从数据集D中随机选取$k$个样本作为初始均值向量$\{\mu_1,\mu_2,...,\mu_{k}\}$</span>


In [None]:
#加载数据集
df = pd.read_csv('train.csv')
D = np.array(df)
# print(D)

#聚类数量
k = 5

#初始化每个聚类的簇心向量
u = [None for i in range(k)]
u_prime = [None for i in range(k)]

#随机选取k个样本作为初始均值向量
for i in range(k):
    #随机选取一个样本的索引
    index = random.randint(0, len(D) - 1)
    #将该样本作为初始均值向量
    u_prime[i] = D[index]

<span style="color:purple">2)开始进行迭代。每一轮更新均值向量，直到均值向量不再变化则停止迭代</span>

<span style="color:purple">迭代步骤1).遍历每个样本$x_j$,计算其与当前的各个均值向量$\mu_i$的距离$d_{ji}$，比较与每个均值向量的距离大小:
   $$\lambda_j=arg min_{i \in \{1,2,...,k\}}d_{ji}$$
   将其划入与其距离最近的簇中,
   $$C_{\lambda_j}=C_{\lambda_j}\bigcup{x_j}$$</span>
<span style="color:purple">迭代步骤2).将所有样本划分完成生成k个簇$\{C_1,C_2,...,C_k\}$。对于每个簇$C_i$，计算该簇的新均值向量，公式为:
$$\mu_i^{'}=\frac{1}{|C_i|}\sum_{x \in C_i}x$$</span>
<span style="color:purple">迭代步骤3).将更新的均值向量$\{\mu_1^{'},\mu_2^{'},...,\mu_k^{'}\}$与该轮未更新前的均值向量$\{\mu_1,\mu_2,...,\mu_k\}$进行比较.  如果完全一样，则结束迭代；如果不一样，则继续迭代.</span>

In [None]:
#比较均值向量是否相同
def equallist(x,y):
    
    return 

#迭代过程
while(equallist(,)):
    
    #初始化
    
        
    #计算每个样本与k个聚类的簇心的距离，将其划入距离最近的簇
    
    
    #更新这轮迭代的簇心
    
            C = [[] for i in range(k)]
#迭代过程
while(not equallist(u, u_prime)):

    u = u_prime.copy()
    #初始化
    C = [[] for i in range(k)]
    #计算每个样本与k个聚类的簇心的距离，将其划入距离最近的簇
    for i in range(len(D)):
        d = [0 for _ in range(k)]
        for j in range(k):
            d[j] = euclidean_distance(D[i], u[j])
        C[d.index(min(d))].append(D[i])
    
    #更新这轮迭代的簇心
    for i in range(k):
        u_prime[i] = np.mean(C[i], axis=0)

#输出划分的聚类情况  
# print(u)
# print(C)
#输出划分的聚类情况   


<span style="color:purple">3)判断是否有空簇,返回所有非空的簇,空簇丢弃</span>

In [None]:
# 判断是否有空簇,返回所有非空的簇,空簇丢弃
def check_null(C):
    C_new = []
    for i in range(len(C)):
        if len(C[i]) == 0:
            continue
        else:
            C_new.append(C[i])
    return C_new

C = check_null(C)

<span style="color:purple">4)将数据集的二维特征值作为绘图的横纵坐标，将所有样本绘制到一张图中，其中同一聚类的样本点绘制为相同颜色</span>

In [None]:
#your code here
plt.figure(figsize=(10, 10))
plt.title('K-means')
plt.xlabel('x')
plt.ylabel('y')
color = ['r', 'g', 'b', 'y', 'c', 'm', 'k', 'w']
for i in range(len(C)):
    for j in range(len(C[i])):
        plt.scatter(C[i][j][0], C[i][j][1], c=color[i], marker='o')
plt.show()

**<font color = green size=3>2):常用聚类算法二: 密度聚类法</font>**

本任务依然使用train.csv数据集，使用DBSCAN算法对数据集进行聚类处理，具体逻辑参照"图片2:DBSCAN伪代码"中的伪代码

<span style="color:purple">1)首先编写函数,根据“邻域”参数（epsilon,MinPts），输出该样本的领域对象的样本索引列表.    
    【输入】：输入数据集D、当前样本的索引index、 邻域半径epsilon   
    【输出】：该样本的邻域对象的样本索引列表</span>

In [None]:
def get_neighbors(D, index, epsilon):
    neighbors = []
    # 遍历所有样本
    for i in range(len(D)):
        if  i == index:
            continue
        # 如果样本与当前样本的距离小于等于邻域半径，则将其加入邻域内
        if euclidean_distance(D[i], D[index]) <= epsilon:
            neighbors.append(i)
        
    return neighbors

<span style="color:purple">2)编写函数,根据“邻域”参数（epsilon,MinPts），输出数据集D的所有的核心对象.    
    【输入】：输入数据集D、当前样本的索引index、邻域参数（epsilon,MinPts）   
    【输出】：该数据集D的所有的核心对象</span>

In [None]:
def core_set(D,epsilon,MinPts):
    # 初始化核心对象集合
    core = set()

    # 对每个样本进行遍历
    for i in range(len(D)):
        # 获取邻域内的所有样本的索引
        neighbors = get_neighbors(D, i, epsilon)

        # 如果邻域内的样本数量大于等于最小样本数，则将当前样本标记为核心对象
        if len(neighbors) >= MinPts:
            core.add(i)
        
    return list(core)

<span style="color:purple">3)遍历核心对象集合中的所有元素，直至所有核心对象被访问,具体逻辑参照下面图片的伪代码</span>

In [15]:
%%html
<img src="DBSCAN Pseudocode.png", width=720, heigth=240>

In [None]:
df = pd.read_csv('train.csv')

#初始化参数epsilon,MinPts
D = np.array(df)
epsilon = 5
MinPts = 8

# 初始化标签数组，0表示未分类
labels = [0 for i in range(len(D))]

# 生成核心对象集合
core = core_set(D,epsilon,MinPts)
# print(core)

# 定义当前簇的标签
cluster_id = 1

# 对核心对象集合进行遍历
for i in range(len(core)):
    
    # 如果核心对象已经分类，则跳过
    if labels[core[i]] != 0:
        continue

    # 创建一个新的簇，将核心对象标记为该簇
    labels[core[i]] = cluster_id

    # 获取由核心对象密度直达的样本集合Δ
    s = get_neighbors(D, core[i], epsilon)

    # 遍历样本集合Δ
    while s:
        # print(s)
        
        # 取出一个样本
        t = s.pop()

        # 如果样本已经分类，则跳过
        if labels[t] != 0:
            continue
        
        # 将样本标记为当前簇
        labels[t] = cluster_id

        # 获取由样本密度直达的样本集合Δ'
        s_prime = get_neighbors(D, t, epsilon)

        # 如果样本是核心对象，则将Δ'中的样本加入Δ
        if t in core:
            for i in range(len(s_prime)):
                if labels[s_prime[i]] != 0:
                    s.append(s_prime[i])
    # print("yes")
    cluster_id += 1

<span style="color:purple">4)将数据集的二维特征值作为绘图的横纵坐标，将所有样本绘制到一张图中，其中同一聚类的样本点绘制为相同颜色</span>

In [None]:
# your code here


**<font color = blue size=4>第二部分:作业提交</font>**

一、实验课下课前提交完成代码，如果下课前未完成，请将已经完成的部分进行提交，未完成的部分于之后的实验报告中进行补充  
要求:  
1)文件格式为：学号-姓名.ipynb  
2)【不要】提交文件夹、压缩包、数据集等无关文件，只需提交单个ipynb文件即可，如果交错请到讲台前联系助教，删掉之前的错误版本后再进行提交

二、本次实验报告下周（11.3 14:20）交  
要求：  
1)文件格式为：学号-姓名.pdf  
2)【不要】提交文件夹、压缩包、代码文件、数据集等任何与实验报告无关的文件，只需要提交单个pdf文件即可  
3)文件命名时不需要额外添加“实验几”等额外信息，按照格式提交  
4)每周的实验报告提交地址会变化，且有时间限制，提交时间为下周的实验课开始时，请注意及时提交。

实验七(聚类)的实验报告:  
截止时间：2023-11-3 14:20  
提交地址：https://send2me.cn/iELj8D1c/SQ2D4iOn-q0vHQ

三、课堂课件获取地址:https://www.jianguoyun.com/p/DU6WTlcQp5WhChiKxZkFIAA  
实验内容获取地址:https://www.jianguoyun.com/p/DTeJc2sQp5WhChiv96IFIAA