## 实训3　构建`K-Means`聚类模型

1. 训练要点

    1. 掌握`K-Means`聚类算法的应用。
    2. 掌握聚类算法结果分析的方法。

2. 需求说明

    &emsp;&emsp;构建信用卡高风险客户识别模型可以分为两部分：第一部分，根据构建的3个特征对客户进行分群，对客户做聚类分群；第二部分，结合业务对每个客户群进行特征分析，分析其风险，并对每个客户群进行排名。

3. 实现思路及步骤

    1. 构建`K-Means`聚类模型，聚类数为5.
    2. 训练`K-Means`聚类模型，并求出聚类中心、每类的用户数目。

In [1]:
# 读入数据
import numpy
from sklearn.cluster import KMeans
credit_cards = numpy.load('stash/credit_card.npz')['arr_0']
# 构建模型
model = KMeans(n_clusters=5, n_jobs=4, random_state=0x6A1B)
# 模型训练
fitted_model = model.fit(credit_cards)
# 查看聚类中心
print('K-Means模型的聚类中心为：', model.cluster_centers_, sep='\n')

K-Means模型的聚类中心为：
[[ 0.29977654 -0.89336888  0.99719767]
 [ 0.30275004  0.76516772  1.14140772]
 [ 0.30690064 -0.877853   -0.78044033]
 [ 0.31301576  0.81268231 -0.60618854]
 [-3.12880076 -0.22652632 -0.07645585]]


In [2]:
# 查看样本的类别标签
print('模型的样本标签为：', model.labels_, sep='\n')

模型的样本标签为：
[2 0 2 ... 3 4 2]


In [3]:
# 统计不同类别的数目
import pandas
stats = pandas.Series(model.labels_).value_counts()
print('每个聚类所包含的客户数量为：', stats, sep='\n')

每个聚类所包含的客户数量为：
3    21632
2    14573
0    12918
1    10559
4     5853
dtype: int64
