In [1]:
import numpy as np
from scipy import sparse
from sklearn.metrics.cluster import contingency_matrix

In [4]:
# ground true 真实分类情况
label_true = [1, 2, 1, 1, 3]
# 预测分类结果
label_pred = [1, 3, 1, 2, 2]

In [13]:
# 可能性矩阵
contingency = contingency_matrix(label_true, label_pred)
print('可能性矩阵(contingency matrix)：')
print(contingency)

可能性矩阵(contingency matrix)：
[[2 1 0]
 [0 0 1]
 [0 1 0]]


上面 contingency matrix 得到的结果含义如下：

$
\begin{bmatrix}
    C_{11} & C_{12} & C_{13} \\
    C_{21} & C_{22} & C_{23} \\
    C_{31} & C_{32} & C_{13} \\
\end{bmatrix}
$

其中 $C_{ij}$ 中的 $i$ 表示 `label_true` 的分类 $\{1,2,3\}$, $j$ 表示 `label_pred` 的分类 $\{1,2,3\}$

In [14]:
# 非零行索引，非零列索引，非零数据值
# contingency[nzx, nzy] 能得到所有非零的数据
nzx, nzy, nz_val = sparse.find(contingency)

print(f'非零行索引: {nzx}')
print(f'非零列索引: {nzy}')
print(f'非零数据值: {nz_val}')

非零行索引: [0 0 1 2]
非零列索引: [0 1 2 1]
非零数据值: [2 1 1 1]


In [15]:
# 求可能性矩阵的合计值
contingency_sum = contingency.sum()
# 按行合计可能性矩阵
pi = np.ravel(contingency.sum(axis=1))
# 按列合计可能性矩阵
pj = np.ravel(contingency.sum(axis=0))

print(f'求可能性矩阵的合计值: {contingency_sum}')
print(f'按行合计可能性矩阵: {pi}')
print(f'按列合计可能性矩阵: {pj}')

求可能性矩阵的合计值: 5
按行合计可能性矩阵: [3 1 1]
按列合计可能性矩阵: [2 2 1]
