# 机器学习与社会科学应用

# 第六章 无监督学习算法

# 第二节 K-means聚类

<font face="宋体" >郭峰    
    教授、博士生导师  
上海财经大学公共经济与管理学院  
上海财经大学数实融合与智能治理实验室    
    邮箱：guofengsfi@163.com</font> 

<font face="宋体" >本节目录  
2.1.演示性案例  
2.2.手写数字识别  
2.3.K-meas参数 </font> 

## 2.1. 演示性案例

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import load_iris
from sklearn.cluster import KMeans

# 加载鸢尾花数据集
iris = load_iris()
X = iris.data  # 特征矩阵
X[0:5]

In [None]:
# 创建K-means模型
kmeans = KMeans(n_clusters=3, random_state=0)

# 拟合模型到数据
kmeans.fit(X)

In [None]:
# 获取聚类中心点的坐标
cluster_centers = kmeans.cluster_centers_
print("Cluster centers:")
print(cluster_centers)

In [None]:
# 预测每个数据点的簇标签
labels = kmeans.labels_
print("Labels:")
print(labels)

In [None]:
# 可视化聚类结果
plt.scatter(X[:, 0], X[:, 1], c=labels)
plt.scatter(cluster_centers[:, 0], cluster_centers[:, 1], marker='x', s=200, linewidths=3, color='r')
plt.xlabel("Feature 1")
plt.ylabel("Feature 2")
plt.title("K-means Clustering")
plt.show()

## 2.2 手写数字识别

In [None]:
from numpy import *
import os
from os import listdir
import operator
from sklearn.cluster import KMeans
from sklearn import metrics

#步骤1：路径与标签
path1='D:/python/机器学习与社会科学应用/演示数据/06无监督学习/digits/trainingDigits/'
path2='D:/python/机器学习与社会科学应用/演示数据/06无监督学习/digits/testDigits/'
print(path1)
#将训练数据存储到一个矩阵中1024维，并存储对应的标签
trainName=listdir(path1)
trainNum=len(trainName)
trainNumpy = zeros((trainNum,1024))
#print("trainNum=%d"%trainNum)
#对文件名进行分析，训练文本对应的标签
print(trainNum)
print(trainName[0])


#将测试数据存储到一个矩阵中1024维，并存储对应的标签
testName=listdir(path2)
testNum=len(testName)
testNumpy = zeros((testNum,1024))

In [None]:
#步骤2：将像素数据转换成向量数据
#这个函数是1024长度的向量
def img2vector(filename):
    vect=zeros((1,1024))
    f=open(filename)
    for i in range(32):
        line=f.readline()
        for j in range(32):
            vect[0,32*i+j]=int(line[j])
    return vect
handlabel=[]

#训练集
for i in range(trainNum):
    filename=trainName[i]#文件名
    filestr=filename.split('.')[0]#不带后缀的文件名
    filelabel=int(filestr.split('_')[0])#文件的标签,0,1,2,....,9
    #将标签添加至handlabel中
    handlabel.append(filelabel)
    trainNumpy[i,:]=img2vector(path1+str(filename))#转成1024
    #print(handlabel[:20])

print(trainNumpy[0][0:40])
print(trainNumpy.shape[0])
print(handlabel[0:40])
print(len(handlabel))


handlabel_test=[]
for i in range(testNum):
    filename_test=testName[i]#文件名
    filestr_test=filename_test.split('.')[0]#不带后缀的文件名
    filelabel_test=int(filestr_test.split('_')[0])#文件的标签,0,1,2,....,9
    #将标签添加至handlabel中
    handlabel_test.append(filelabel_test)
    testNumpy[i,:]=img2vector(path1+str(filename_test))#转成1024

In [None]:
y_train=handlabel
x_train=trainNumpy  #列表，1934个元素，每个元素又是一个1024长度的列表
print(len(x_train))
print(len(y_train))
kmeans = KMeans(n_clusters=10, random_state=100)
kmeans.fit(x_train)
#测试集
print(y_train[0:189])
y_pred = kmeans.predict(x_train)
print(y_pred[0:189])
print(1-len([y for y in y_pred[0:189] if y!=8])/len(y_train[0:189]))
#print(adjusted_rand_score(y_train, y_pred))
#随机试验中，把0可能会随机分配给某个"标签"

#结果评价：根据已知分类标签
for num in range(0,10):
    x_train_temp=[x_train[j] for j in [i for i,y in enumerate(y_train) if y==num]]
    y_train_temp=[y for y in y_train if y==num]
    y_pred_temp=kmeans.predict(x_train_temp)
    y_pred_dict=dict((a,list(y_pred_temp).count(a)) for a in y_pred_temp)
    y_pred_value=[k for k,v in y_pred_dict.items() if max(y_pred_dict.values())==v]
    print("数值%d对应的预测\"聚类代码\"为:%d,准确率为：%.4f"
          %(num,y_pred_value[0],sum(y_pred_temp==y_pred_value[0])/len(y_train_temp)))
#3和9没有区分开
#1和8没有区分开

In [None]:
kmeans.get_params()

In [None]:
#结果评价：兰德指数
#https://blog.csdn.net/sinat_26917383/article/details/70577710

In [None]:
for k in range(2,15):
    kmeans = KMeans(n_clusters=k)
    kmeans.fit(x_train)
    y_pred = kmeans.predict(x_train)
    print(k,metrics.adjusted_rand_score(y_train, y_pred))

In [None]:
#轮廓系数
for k in range(2,15):
    kmeans = KMeans(n_clusters=k)
    kmeans.fit(x_train)
    y_pred = kmeans.predict(x_train)
    print(k,metrics.silhouette_score(x_train, y_pred, metric='euclidean'))

## 2.3. K-Means参数

In [None]:
# n_clusters：整型，缺省值=8 ，生成的聚类数。
# max_iter：整型，缺省值=300 。执行一次k-means算法所进行的最大迭代数。 
# n_init：整型，缺省值=10 。用不同的聚类中心初始化值运行算法的次数，最终解是在inertia意义下选出的最优结果。 
# init：有三个可选值：’k-means++’， ‘random’，或者传递一个ndarray向量。 此参数指定初始化方法，默认值为 ‘k-means++’。 
# 　　（１）‘k-means++’ 用一种特殊的方法选定初始聚类中发，可加速迭代过程的收敛。
# 　　（２）‘random’ 随机从训练数据中选取初始质心。 
# 　　（３）如果传递的是一个ndarray，则应该形如 (n_clusters, n_features) 并给出初始质心。 
# precompute_distances：三个可选值，‘auto’，True 或者 False。 预计算距离，计算速度更快但占用更多内存。 
# 　　（１）‘auto’：如果 样本数乘以聚类数大于 12million 的话则不预计算距离。
# 　　（２）True：总是预先计算距离。 
# 　　（３）False：永远不预先计算距离。 
# tol：float类型，默认值= 1e-4　与inertia结合来确定收敛条件。 
# n_jobs：整形数。　指定计算所用的进程数。内部原理是同时进行n_init指定次数的计算。 
# 　　（１）若值为 -1，则用所有的CPU进行运算。若值为1，则不进行并行运算。
# 　　（２）若值小于-1，则用到的CPU数为(n_cpus + 1 + n_jobs)。因此如果 n_jobs值为-2，则用到的CPU数为总CPU数减1。 
# random_state：整型或 numpy.RandomState 类型，可选 用于初始化质心的生成器（generator）。如果值为一个整数，则确定一个seed。此参数默认值为numpy的随机数生成器。 
# copy_x：布尔型，默认值=True 　　
# 当我们precomputing distances时，将数据中心化会得到更准确的结果。如果把此参数值设为True，则原始数据不会被改变。如果是False，则会直接在原始数据 
# 上做修改并在函数返回值时将其还原。但是在计算过程中由于有对数据均值的加减运算，所以数据返回后，原始数据和计算前可能会有细小差别。

<font face="微软雅黑" size=3>本节结束</font> 