In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from scipy.stats import zscore
from scipy.spatial.distance import pdist, squareform
from scipy.cluster.hierarchy import dendrogram, fcluster, linkage

plt.style.use('matlab')
plt.rcParams['font.family'] = 'sans-serif'
plt.rcParams['font.sans-serif'] = ['Microsoft YaHei']

# 系统聚类法

## `例1. 设有五个销售员，他们的销售业绩由销售量和回收款项描述，请对销售员的业绩进行分类。`

| 销售员 | $v_1$(销售量)百件 | $v_2$(回收款项)万元 |
|:------:|:----------------:|:------------------:|
| $w_1$ |         1         |          0         |
| $w_2$ |         1         |          1         |
| $w_3$ |         3         |          2         |
| $w_4$ |         4         |          3         |
| $w_5$ |         2         |          5         |

In [None]:
data = np.array([[1, 0], [1, 1], [3, 2], [4, 3], [2, 5]])
# 打印分类结果
T = fcluster(z, 3, 'maxclust')
for i in range(1, 4):
    tm = np.where(T == i)
    print('第{}类的有'.format(i), tm)

## 求矩阵中的两两绝对值距离

In [None]:
distance_vec = pdist(data, 'cityblock')
distance_mat = squareform(distance_vec)

## 使用最小距离法进行分类


In [None]:
z = linkage(distance_vec)

## 绘制树形图

In [None]:
fig_1, ax_1 = plt.subplots(num='系统聚类法——最小距离法')
R = dendrogram(z, labels=['工人1', '工人2',
                          '工人3', '工人4', '工人5'])
ax_1.set_ylabel('等级')                         

## 查看分类结果

In [None]:
T = fcluster(z, 3, 'maxclust')
for i in range(1, 4):
    tm = np.where(T == i)
    print('第{}类的有'.format(i), tm)

## `例2. 对我国各地区普通高等教育的发展状况进行聚类分析，明确各类地区普通高等教育发展状况的差异与特点`

In [None]:
df_1 = pd.read_excel('resource\\我国各地区普通高等教育发展状况数据.xlsx', index_col=0)
df_1 = (df_1-df_1.mean())/df_1.std()
# 标准化数据
# data = zscore(df_1)
distances = pdist(df_1)
z = linkage(distances)
fig_2, ax_2 = plt.subplots(num='系统聚类法——高等教育')
dendrogram(z, labels=df_1.index, leaf_font_size=5, leaf_rotation=30)
ax_2.set(ylabel='等级', title='我国各地区普通高等教育发展状况聚类')

# 变量聚类法

## `例3. 对例2中的10个教育指标进行聚类分析。`

## 最小系数法

In [None]:
z = linkage(df_1.corr())
R = dendrogram(z, labels=df_1.columns, leaf_font_size=5, leaf_rotation=30)

## `例4. 在服装标准制定中，对某地成年女子的各部位尺寸进行了统计，通过14个部位的测量资料，获得各因素之间的相关系数表，请对这14个指标进行分类`。

## 最大系数法

In [None]:
df_1 = pd.read_excel('resource\\成年女子各部位相关系数表.xlsx', index_col=0)
z = linkage(df_1, 'complete')    # 最大系数法
fig_3, ax_3 = plt.subplots(num='变量聚类法——最大系数法')
dendrogram(z, labels=df_1.index, leaf_font_size=6, leaf_rotation=0)
ax_3.set(ylabel='等级', title='成年女子各部位数据聚类')