##**PMI (Pointwise Mutual Information)**


*   PMI是利用分散式表示法，表達字詞意思的其中一種
*   分散的定義，就是一個詞並非本身所決定，是「分散在其旁」的其它元素所決定
*   PMI則是計算那些字比較容易一起出現
*   例如：在新聞報導中，有"New"，"York"這兩個字一起出現，代表一個地名，所以當出現了New這個字，則有可能出現York，這個可能性就是計算其PMI
*   下面的範例，則是給定一個M擁有十個字詞，每個字詞與其他字詞的出現次數統計，然後去計算其PMI
*  



In [2]:
import numpy as np
# 定義一個矩陣 M
M = np.array([[0, 2, 1, 1, 1, 1, 1, 2, 1, 3],
              [2, 0, 1, 1, 1, 0, 0, 1, 1, 2],
              [1, 1, 0, 1, 1, 0, 0, 0, 0, 1],
              [1, 1, 1, 0, 1, 0, 0, 0, 0, 1],
              [1, 1, 2, 1, 0, 0, 0, 0, 0, 1],
              [1, 0, 0, 0, 0, 0, 1, 1, 0, 1],
              [1, 0, 2, 0, 0, 1, 0, 1, 0, 1],
              [2, 2, 0, 0, 0, 1, 1, 0, 1, 2],
              [1, 1, 0, 0, 0, 0, 0, 1, 0, 1],
              [3, 2, 1, 2, 4, 1, 1, 2, 1, 0]])

def pmi(M, positive=True):
   # 計算列和行的總和
    col_totals = M.sum(axis=0)
    row_totals = M.sum(axis=1)
    total = col_totals.sum()
    # 計算期望值
    expected = np.outer(row_totals, col_totals) / total
    M = M / expected
     # 使用 np.log 計算 PMI
    with np.errstate(divide='ignore'):
        M = np.log(M)
    M[np.isinf(M)] = 0.0  # log(0) = 0
     # 如果 positive 為 True，則將負值設為 0
    if positive:
        M[M < 0] = 0.0
    return M
# 計算 PMI
M_pmi = pmi(M)
# 設定印出數值的精確度
np.set_printoptions(precision=2)
# 顯示計算後的 PMI 矩陣
print(M_pmi)


[[0.   0.18 0.   0.   0.   0.41 0.41 0.41 0.41 0.33]
 [0.29 0.   0.08 0.37 0.08 0.   0.   0.08 0.77 0.29]
 [0.18 0.44 0.   0.96 0.67 0.   0.   0.   0.   0.18]
 [0.18 0.44 0.67 0.   0.67 0.   0.   0.   0.   0.18]
 [0.   0.26 1.18 0.77 0.   0.   0.   0.   0.   0.  ]
 [0.41 0.   0.   0.   0.   0.   1.58 0.89 0.   0.41]
 [0.   0.   1.18 0.   0.   1.18 0.   0.49 0.   0.  ]
 [0.29 0.55 0.   0.   0.   0.77 0.77 0.   0.77 0.29]
 [0.41 0.67 0.   0.   0.   0.   0.   0.89 0.   0.41]
 [0.06 0.   0.   0.42 0.83 0.14 0.14 0.14 0.14 0.  ]]
