In [8]:
import numpy as np

In [11]:
#定义一个类对K-means算法进行封装
class Kmeans:
    #初始化设置
    def __init__(self,n_clusters=3,max_iter=300,tol=1e-4):
        '''
        n_clusters:簇的数量（人为定义）
        max_iter：最大迭代次数（防止无限循环）
        tol；收敛临界值（当中心点的移动距离小于此值时退出循环）
        centroids：簇中心（初始化时不设置）
        labels；数据的标签（初始化时不设置）
        '''
        #定义簇的数量
        self.n_clusters=n_clusters
        #设置最大迭代次数
        self.max_iter=max_iter
        #设置收敛阈值
        self.tol=tol
        #设置簇中心
        self.centroids=None
        #样本所属簇标签
        self.labels=None
    
    #机器学习数据的过程
    def fit(self,X):
        '''
        n_samples：数据的数量
        random_idx：随机取出的三个簇中心的索引
        X：数据集
        centroids：经过随机选择后成为了簇中心
        distances：二维数组，储存了每一个样本到各个簇的距离
                   例如：distances = [
                            [1.2, 5.6, 3.4],  # 样本0到簇0、簇1、簇2的距离
                            [4.5, 2.1, 6.7],  # 样本1到各簇的距离
                            [0.8, 3.2, 7.9],  # 样本2到各簇的距离
                            # ... 其他样本
                          ]
        np.argmin（）：沿着指定的axis找到最小值的索引，输出值为索引
        axis： 为1是按行操作（即对每个样本操作），为0是按列（对簇操作）
        labels：数组，存了每个数据的最小值对应的索引，即簇的标号（相当于对各数据分类）
        n_clusters：簇的数量
        average: 簇内样本的均值
        new_centroids：用来装新的簇中心
        cluster_samples：属于当前簇（第i个簇）的所有样本点的集合
        '''
        #初始化中心
        n_samples=X.shape[0]   #0表示行数（一般行数与数据的个数相等），1表示列数
        #从n_samples对应的整数序列中选self.n_clusters个数据的索引（不是数据本身），不允许重复
        random_idx=np.random.choice(n_samples,self.n_clusters,replace=False)
        #将索引存在了数据集中，从数据集X找那个提取对应索引的数据
        self.centroids = X[random_idx]
        for _ in range(self.max_iter):
            #计算每个点到各个簇中心的距离
            distances = self._calc_distances(X)
            #对数据分类
            self.labels = np.argmin(distances, axis=1)
            '''
            下面是计算新的簇中心的代码
            '''
            #在上面的操作中，已经将所有的数据归类在各个簇下，
            #现在通过遍历对应的簇标签的数据并求平均值，作为新的簇中心。
            new_centroids = np.zeros((self.n_clusters, X.shape[1]))  # 根据数据维度初始化
            for i in range(self.n_clusters):
                #筛选出属于第i个簇的样本（0表示第一个簇，1表示第二个簇，以此类推）
                cluster_samples=X[self.labels == i] 
                #计算簇内样本的均值（使用sum函数）
                if len(cluster_samples) > 0:
                    new_centroids[i] = np.mean(cluster_samples, axis=0)
                else:
                # 处理空簇（例如随机选择一个样本作为新质心）
                    new_centroids[i] = X[np.random.choice(n_samples, 1)]
            #判断收敛
            if np.linalg.norm(new_centroids - self.centroids) < self.tol:
                break
            self.centroids = new_centroids
    #预测数据所属簇       
    def predict(self,X):
        X = X.astype(np.float64)
        distances = self._calc_distances(X)
        return np.argmin(distances, axis=1)
    #计算所有样本到各簇中心的距离（欧式距离）(内部调用)
    def _calc_distances(self, X):
        #强制将数据转化成浮点类型
        X = X.astype(np.float64)
        return np.sqrt(((X[:, np.newaxis] - self.centroids) ** 2).sum(axis=2))

In [14]:
'''
接下来将此算法应用于iris数据集
'''

import pandas as pd
from sklearn.datasets import load_iris
#先导入相关的数据集
iris=pd.read_csv("C:/Users/asus/Desktop/工作室学习/数据资料/iris.csv")
#把它变成矩阵形式
X=np.array(iris)
print(X)



[[1 5.1 3.5 1.4 0.2 'setosa']
 [2 4.9 3.0 1.4 0.2 'setosa']
 [3 4.7 3.2 1.3 0.2 'setosa']
 [4 4.6 3.1 1.5 0.2 'setosa']
 [5 5.0 3.6 1.4 0.2 'setosa']
 [6 5.4 3.9 1.7 0.4 'setosa']
 [7 4.6 3.4 1.4 0.3 'setosa']
 [8 5.0 3.4 1.5 0.2 'setosa']
 [9 4.4 2.9 1.4 0.2 'setosa']
 [10 4.9 3.1 1.5 0.1 'setosa']
 [11 5.4 3.7 1.5 0.2 'setosa']
 [12 4.8 3.4 1.6 0.2 'setosa']
 [13 4.8 3.0 1.4 0.1 'setosa']
 [14 4.3 3.0 1.1 0.1 'setosa']
 [15 5.8 4.0 1.2 0.2 'setosa']
 [16 5.7 4.4 1.5 0.4 'setosa']
 [17 5.4 3.9 1.3 0.4 'setosa']
 [18 5.1 3.5 1.4 0.3 'setosa']
 [19 5.7 3.8 1.7 0.3 'setosa']
 [20 5.1 3.8 1.5 0.3 'setosa']
 [21 5.4 3.4 1.7 0.2 'setosa']
 [22 5.1 3.7 1.5 0.4 'setosa']
 [23 4.6 3.6 1.0 0.2 'setosa']
 [24 5.1 3.3 1.7 0.5 'setosa']
 [25 4.8 3.4 1.9 0.2 'setosa']
 [26 5.0 3.0 1.6 0.2 'setosa']
 [27 5.0 3.4 1.6 0.4 'setosa']
 [28 5.2 3.5 1.5 0.2 'setosa']
 [29 5.2 3.4 1.4 0.2 'setosa']
 [30 4.7 3.2 1.6 0.2 'setosa']
 [31 4.8 3.1 1.6 0.2 'setosa']
 [32 5.4 3.4 1.5 0.4 'setosa']
 [33 5.2 4.1 1.5 

In [15]:
#定义一个对象
kmeans=Kmeans()
#因为源数据最后为花的类型，第一列为标号，不在数据处理范围内，
#要对源数据进行处理，保留参与计算的数据
data=X[:,:-1].astype(np.float64)  #将数据类型换为float
data_final= np.delete(data, 0, axis=1)
print(data_final)



[[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 [4.7 3.2 1.3 0.2]
 [4.6 3.1 1.5 0.2]
 [5.  3.6 1.4 0.2]
 [5.4 3.9 1.7 0.4]
 [4.6 3.4 1.4 0.3]
 [5.  3.4 1.5 0.2]
 [4.4 2.9 1.4 0.2]
 [4.9 3.1 1.5 0.1]
 [5.4 3.7 1.5 0.2]
 [4.8 3.4 1.6 0.2]
 [4.8 3.  1.4 0.1]
 [4.3 3.  1.1 0.1]
 [5.8 4.  1.2 0.2]
 [5.7 4.4 1.5 0.4]
 [5.4 3.9 1.3 0.4]
 [5.1 3.5 1.4 0.3]
 [5.7 3.8 1.7 0.3]
 [5.1 3.8 1.5 0.3]
 [5.4 3.4 1.7 0.2]
 [5.1 3.7 1.5 0.4]
 [4.6 3.6 1.  0.2]
 [5.1 3.3 1.7 0.5]
 [4.8 3.4 1.9 0.2]
 [5.  3.  1.6 0.2]
 [5.  3.4 1.6 0.4]
 [5.2 3.5 1.5 0.2]
 [5.2 3.4 1.4 0.2]
 [4.7 3.2 1.6 0.2]
 [4.8 3.1 1.6 0.2]
 [5.4 3.4 1.5 0.4]
 [5.2 4.1 1.5 0.1]
 [5.5 4.2 1.4 0.2]
 [4.9 3.1 1.5 0.2]
 [5.  3.2 1.2 0.2]
 [5.5 3.5 1.3 0.2]
 [4.9 3.6 1.4 0.1]
 [4.4 3.  1.3 0.2]
 [5.1 3.4 1.5 0.2]
 [5.  3.5 1.3 0.3]
 [4.5 2.3 1.3 0.3]
 [4.4 3.2 1.3 0.2]
 [5.  3.5 1.6 0.6]
 [5.1 3.8 1.9 0.4]
 [4.8 3.  1.4 0.3]
 [5.1 3.8 1.6 0.2]
 [4.6 3.2 1.4 0.2]
 [5.3 3.7 1.5 0.2]
 [5.  3.3 1.4 0.2]
 [7.  3.2 4.7 1.4]
 [6.4 3.2 4.5 1.5]
 [6.9 3.1 4.

In [16]:
#代入算法进行计算
kmeans.fit(data_final)
#打印一下三个簇中心
print(kmeans.centroids)

[[5.88360656 2.74098361 4.38852459 1.43442623]
 [5.006      3.428      1.462      0.246     ]
 [6.85384615 3.07692308 5.71538462 2.05384615]]


In [17]:
#通过原数据确定簇编码和花名的关系
#"setosa"
data0=[[5.1,3.5,1.4,0.2]]
#转化为numpy数组
data0_final=np.array(data0)
print(kmeans.predict(data0_final))


[1]


In [18]:
#"versicolor"
import numpy as np
data1=[[7.0,3.2,4.7,1.4]]
#转化为numpy数组
data1_final=np.array(data1)
print(kmeans.predict(data1_final))

[2]


In [20]:
#"virginica"
import numpy as np
data2=[[5.8,2.7,5.1,1.9]]
#转化为numpy数组
data2_final=np.array(data2)
print(kmeans.predict(data2_final))

[0]


In [27]:
#将簇的编码与花的类型对应
def color(data1):
    '''
    data1:数据，形式为二维数组
    '''
    #转化为numpy数组
    data1_final=np.array(data1)
    a=kmeans.predict(data1_final)
    number=a[0]
    if (a==0):
        print("花的类型为：virginica")
    if (a==1):
        print("花的类型为：setosa")
    if (a==2):
        print("花的类型为：versicolor")




In [30]:
#测试
color([[5.1,3.5,1.4,0.2]])


花的类型为：setosa
