
#!/usr/bin/env python
# coding: utf-8

 #### Wasserstein distance
 分布を荷物量とみなし、荷物を他の分布に移し替えるときにかかる最小コストを距離とする。  
 コンピュータサイエンスの領域では**Earth Mover's distance**と呼ばれる。  

 ## Code for NeurIPS 2019 paper "Hierarchical Optimal Transport for Document Representation"
 
 #### どんな論文？
 
 文書間の類似距離測度における新しい尺度を提案。  
 Hierarchical Optimal Transport：Word Mover’s Distanceをさらに発展させた手法  
 
 
 #### Word Mover's Distanceとは？
 
 文書間の距離をEarth Mover's Distanceをもって尺度とする手法  
 
 #### Earth Mover's Ditanceとは？
   
 対象の分布を荷物量とみなし、荷物を他の分布に移し替えるときに掛る最小コストを距離と考えるアプローチ。  
 Wasserstein distanceとも呼ばれる。
 
 以下の図において、
 
 
 Pの各場所 $P_1,...,P_m$ には、重みの量だけ荷物が積まれているとします。  
 そして、Qの各場所　$Q_1,...,Q_n$ には重みの量だけ格納できる倉庫があるとします。  
 
hierarchical optimal topic transport 
 
 このとき、Pにある荷物全て・またはQに入る上限まで運ぶとすると、  
 どこからどこへどのくらい運ぶと最も効率が良いかを考えます。   
 
 
 
 ここで、$Pi$から$Qj$へ輸送する距離を $C_{ij}$ とし、$P_i$から$Q_j$へ輸送する荷物量を$Γ_{ij}$と定義します。  
 そして$P_i$から$Q_j$へ運ぶのに要する仕事量を$C_{ij}・Γ_{ij}$と定義します。 
 
 ここで、$P_i$から$Q_j$から輸送されるコストは下のように定義されます。  
 
 $$ W = \sum^{m}_{i=1}\sum^n_{j=1}C_{ij}Γ_{ij}$$
 
 EMDではこの最小値を距離とします。  
 距離$C_{ij}$は固定されているので、最適化する変数は輸送量$Γ_{ij}$だけです。  
 
 
 解き方は省略しますが、Hungarian algorithm(Kuhn,1955)を用いて解くと最適な$Γ^*_{ij}$が求まります。  
 EMDはこの$Γ^*_{ij}$を適用した場合の仕事量$W$（を輸送量について正規化したもの）です。
 
 EMDは輸送に必要な最小の仕事量が小さいほど二つの距離は近いという考え方になります。
 
 
 #### Word Mover's Distanceとは？
 
 EMDを文書間の類似度の計測に適用する手法。  
 文書間の類似度を測る方法は、代表的なものとしてBag-of-Words表現のコサイン値があるが、  
 これは文書同士の共通語が少ない場合、BoWでは文書間の意味的な類似度を測ることが困難です。
 
 
 上記の通り文書D0,D１には共通語こそありませんが、人間の目にはmediaとpressのようなそれぞれの語動詞は非常に近い意味を持つように見えますword2vecを用いればこのような語の意味理維持度をとらえた分散表現ベクトルが得られます。  


 $$X_w = (x_{x1},...,x_{wn})$$
 
 
 WMDではこの性質を利用して文書間の距離を求めます。  
 その考え方は大雑把に言えば、文書Aの語を類似する（＝分散表現間の距離が小さい）語で置き換えて文書Bに変換できるならば文書A,Bの類似度は大きい（＝距離は小さい）というようなものです。  
 
 
 単語間の対応関係などわかりようないですし、そもそも文章間で単語の数から異なるでしょう。ですので、単語を一対一で対応づけるのではなく、下図のような重み付きの対応関係を考えます。  
 重みには、図中の青線のように単語に紐つく重みの和が頻度に等しくなるよう制約をかけ、重みと単語間距離の積の総和が最小となるように重みを調整します。調整済みの重みと単語間距離の積の総和が2文間の距離（＝Word Mover’s Distance）となります。
 https://www.ogis-ri.co.jp/otc/hiroba/technical/similar-document-search/part1.html  
 
 
# 
# 
# 
 #### Word Mover's Distanceを扱う利点・不利な点
 
 - 利点
 精度が高い  
 解釈可能性が高い  
 
 
 - 不利な点  
 計算量が大きい  
 計算に時間がかかる
 
 
 #### Hierarchical Optimal Transportではこんな改善がありました
 WMDより計算時間が短い  
 大きいサイズのコーパスにも適用可能  
 （WMDと同様）解釈可能性が高い  
 
# 
 https://ercim-news.ercim.eu/en112/r-i/faster-text-similarity-using-a-linear-complexity-relaxed-word-mover-s-distance
# 
 最適化問題を解く際の制約を緩くすることで、文書中のすべての単語に対応しなくてもよい手法も提案している  
 (Relaxed Word Mover's Distance)
 
# 
 #### Hierarchical Optimal Transport
# 
 LDAで文書からトピックを抽出し、そのトピックにWMDを適用する手法
# 
# 
 あるトピックモデルがコーパス固有のトピック $T=(t_1, t_2, ..., t_{|T|}) \in Δ^{|V|}$ を生成していると仮定します。  
 ここで、これは単語の分布であり、また文書の分布は次のように表せる。$\bar{d^i} \in Δ^{|T|}$  
 今回WMDではトピックT間の離散的な輸送問題を考える。  
 ２つの文書$d^1, d^2$間の hierarchical optimal transoport distance(HOTT) を以下のように定義する。
 
 $$HOTT(d^1,d^2) = W_1(\sum^{|T|}_{k=1}\bar{d^1_k}\delta_{tk}, \sum^{|T|}_{k=1}\bar{d^2_k}\delta_{tk})$$



ここで、|T|は全文書間のトピック数、$\bar{d^1_k}, \bar{d^2_k}$は対象の文書のトピックの分布  

$\delta_{t_k}$ はそれぞれトピック$t_k$に対応するディラックデルタ関数です
 
 
 
それぞれトピック$t_k$に対応する確率分布




 where each Dirac delta $\delta_{tk}$ is a probability distribution only supported on the corresponding topic $t_k$ and where the ground metric is WMD between topics as distributions over words.   
#   
 The resulting transport problem leverages topic correspondances provided by WMD in the base metric.
# 
 Out construction 
# 
# 
 #### 実験・評価
 
 実験内容：
 処理時間  
 k-nn近傍法  
 t-SNE Visualization  
 Sentivity to Parameters
# 
# 
 Baseline手法：  
 nBOW  
 LSI  
 SIF  
 LDA  
 Cosine  
 RWMD  
 TF-IDF  
 HOFTT  
 HOTT  
 WMD-T20  
# 
 使用したデータ：  
 ohsumed  
 20news  
 twitter  
 gutenberg  
 amazon  
 r8  
 bbcsport  
 classic  
# 
# 
# 
# 
 #### Summary
# 
 この論文ではWMDの代替としてトピックモデルの階層的な潜在構造と、単語の埋め込みからのジオメトリを組み合わせます。
 単語の埋め込みからの言語情報と、潜在ディレクれ割り当てからのコーパス固有の意味的に意味のあるトピック分布を組み合わせた階層的な最適トピック転送（）HOTTドキュメントを提案します。
 このドキュメント距離はWMDよりも効率的で解釈しやすい。

