<a href="https://colab.research.google.com/github/kazu-gor/nlp/blob/main/basic.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Module

In [None]:
import numpy as np

# 相互情報量 (Pointwise Mutual Information)
出現回数を考慮することで，単語の関係性を適切に抽出することができる．
<br><br>
${PMI(x, y) = \log _2\frac{P(x, y)}{P(x)P(y)}}$
<br><br>
共起行列を${C}$，出現回数を${N}$とすると以下のような式になる．　

${PMI(x, y) = \log _2\frac{C(x, y)\cdot N}{C(x)C(y)}}$
<br><br>
この状態での問題点は，共起する列が0の場合， ${\log_2 0=-\infty}$となってしまうため，<b>正の相互情報量<b>(Positive PMI)が使われる．
<br><br>
${PPMI(x, y) = \max(0, PMI(x, y))}$



In [None]:
def ppmi(C: np.array, verbose=False, eps=1e-8):
    M = np.zeros_like(C, dtype=np.float32)
    N = np.sum(C)
    S = np.sum(C, axis=0)
    total = C.shape[0] * C.shape[1]
    cnt = 0

    for i in range(C.shape[0]):
        for j in range(C.shape[1]):
            pmi = np.log2(C[i, j] * N / (C[i] * C[j]) * eps)
            M[i, j] = max(0, pmi)

            if verbose:
                cnt += 1
                if cnt % (total//100) == 0:
                    print('%.1f%% done' % (100*cnt / total))
    return M