# 5장 분할표와 희소행렬
## (Contingency Tables Using Sparse Coordinate Matrices)

In [2]:
def variation_of_information(x, y):
    # 혼동행렬(contingency table)를 계산한다. 
    # 결합 확률 행렬(joint probability matrix)이라고도 한다.
    n = x.size
    Pxy = sparse.coo_matrix((np.full(n, 1/n), (x.ravel(), y.ravel())),
                            dtype=float).tocsr()

    # 1차원 배열로 변환하여, 주변 확률(marginal probabilities)을 계산한다.
    px = np.ravel(Pxy.sum(axis=1))
    py = np.ravel(Pxy.sum(axis=0))

    # 정보 변형을 계산하는 데 희소행렬 선형 대수를 사용한다.
    # 역 대각행렬(inverse diagonal matrices)을 계산한다.
    Px_inv = sparse.diags(invert_nonzero(px))
    Py_inv = sparse.diags(invert_nonzero(py))

    # 엔트로피(entropy)를 계산한다.
    hygx = px @ xlog1x(Px_inv @ Pxy).sum(axis=1)
    hxgy = xlog1x(Pxy @ Py_inv).sum(axis=0) @ py

    # 엔트로피의 합을 반환한다.
    return float(hygx + hxgy)

## 5.1 분할표

In [10]:
import numpy as np

pred = np.array([0, 1, 0, 0, 1, 1, 1, 0, 1, 1])
gt   = np.array([0, 0, 0, 0, 0, 1, 1, 1, 1, 1])

In [12]:
def confusion_matrix(pred, gt):
    cont = np.zeros((2, 2))
    for i in [0, 1]:
        for j in [0, 1]:
            cont[i, j] = np.sum((pred == i) & (gt == j))
    return cont

confusion_matrix(pred, gt)

array([[ 3.,  1.],
       [ 2.,  4.]])

### 5.1.1 연습문제 : 혼동행렬의 계산 복잡성
### 5.1.2 연습문제 : 혼동행렬을 계산하는 대체 알고리즘
### 5.1.3 연습문제 : 다중 혼동행렬 계산하기

## 5.2 scipy.sparse 데이터 형식

In [14]:
s = np.array([[ 4,  0, 3],
              [ 0, 32, 0]], dtype=float)

from scipy import sparse

data = np.array([4, 3, 32], dtype=float)
row = np.array([0, 0, 1])
col = np.array([0, 2, 1])

s_coo = sparse.coo_matrix((data, (row, col)))
s_coo.toarray()

array([[  4.,   0.,   3.],
       [  0.,  32.,   0.]])

In [15]:
s_coo.A

array([[  4.,   0.,   3.],
       [  0.,  32.,   0.]])

### 5.2.2 연습문제 : COO 형식 표현하기

### 5.2.3 압축된 희소 행 형식