# 確率的言語モデル

## 数学記号
- 総乗 $ \prod_{ a }^{b } $
- バーティカルバー 
    - 絶対値 |x|
    - 単語数 |W|
    - 条件付き確率 P(A|B)
    - 定義 {x | x<2}
- 約 $ \approx $
- 中央値 $ \tilde{w} $

### 言語モデル
- 言語モデルが各文(W)に確率を与える  
W = speech recognition system
- 変数で以下のようにあらわす  
P(|W|=3, w1="speech", w2="recognition", w3="system")
- 文の確率がほしい **総乗**

>P(|W|=3, w1="speech", w2="recognition", w3="system") =   
 P(w1="speech"|w_0="<\s>")  
 x P(w2="recognition" | w_0="<\s>", w_1="speech")  
 x P(w3="system" | w_0="<\s>", w_1="speech", w_2="recognition")  
 x P(w4="<\s>" | w_0="<\s>", w_1="speech", w_2="recognition", w3="system")

### 定義：
- 確率の漸次的(ぜんじ、しだいに）な計算：
$$ P(W)= \prod_{ i =1 }^{ |W|+1 } P(w_i∣w_0…w_{i−1}) $$
- 条件付き確率の決め方は？
$$ P(w_i|w_0 ... w_{i-1}) $$  
- 最尤推定: コーパスの単語列を数え上げて割ることで計算
$$ P(w_i|w_0 ... w_{i-1}) = \frac{c(w_1 ... w_i)}{c_(w_1 ... w_{i-1})} $$

###  1-gram モデル
- 履歴を用いないことで低頻度の現象を減らす
  - approx(約), tilde(中央値)
$$ P(w_i|w_0 ... w_{i-1}) \approx P(wi) = \frac{c(w_i)}{\sum_{ \tilde{w} }^{  } c(\tilde{w})} $$
- 未知語への対応
  - 多くの場合、無視される
  - 少しの確率を未知語に割り当てる  $ \lambda_{unk} = 1- \lambda_1 $
  - 未知語を含む語彙数 N  例えば$ N= 10^6 $
  $ P(w_i) = \lambda_1P_{ML}(w_i)+(1-\lambda_1)\frac{1}{N} $

### モデルの評価
- 尤度（ゆうど）: モデルMが与えられた時の観測されたデータの確率
$$ P(W_{test} | M) = \prod_{w \in w_{test}}^{ } P(w|M) $$
- 対数尤度: 尤度を対数にすることで桁あふれを解決
$$ \log P(W_{test} | M) = \prod_{w \in w_{test}}^{ } \log P(w|M) $$
- エントロピー H: 負の底2の対数尤度を単語数で割った値
$$ H(W_{test} | M) = \frac {1}{|W_{test}|} \prod_{w \in w_{test}}^{ } \ -log_2 P(w|M) $$
- パープレキシティ: 2のエントロピー乗
$$ PPL = 2^H $$
- カバレージ：評価データに現れた単語（n-gram)の中でモデルに含まれている割合

### 実装

In [47]:
def count_words(lines):
    total_count = 0
    counts = {}
    for line in lines:
        words = line.strip().split()
        words.append("</s>")
        for word in words:
            counts[word] = counts.get(word, 0) + 1
            total_count += 1
    return total_count, counts

def build_model(counts, total_count):
    probabilities = {}
    for word, count in counts.items():
        probability = counts[word] / total_count
        probabilities[word] = probability
    return probabilities

def use_model(model, counts):
    probabilities = {}
    for word, _ in counts.items():
        probabilities[word] = model.get(word, 0)
    return probabilities

In [48]:
# build model
with open('01-train-input.txt', 'r') as f:
    lines = f.readlines()

total_count, counts = count_words(lines)
model = build_model(counts, total_count)
print(model)

{'b': 0.25, 'c': 0.125, 'd': 0.125, '</s>': 0.25, 'a': 0.25}


In [53]:
# use model
with open('01-test-input.txt') as f:
    lines = f.readlines()

total_count, counts = count_words(lines)
probabilities = use_model(model, counts)
print(probabilities)

{'e': 0, 'c': 0.125, '</s>': 0.25, 'a': 0.25}


In [58]:
# build model
with open('../data/wiki-en-train.word', encoding='utf-8') as f:
    lines = f.readlines()
total_count, counts = count_words(lines)

In [60]:
counts

{'texts': 17,
 'automatizing': 1,
 'deploy': 1,
 'easy': 3,
 'loud': 1,
 'availability': 1,
 'isloated': 1,
 'letter': 6,
 'SpeechTEK': 2,
 'among': 8,
 'gaming': 1,
 'impossible': 2,
 'simplification': 1,
 'polynomial-size': 1,
 'multitude': 1,
 'compactly': 1,
 'encoding': 1,
 'masculine': 1,
 'reports': 5,
 '1997': 2,
 'cosine': 3,
 'crossed': 1,
 'Clancy': 1,
 ':': 102,
 'limiting': 1,
 'MIT': 2,
 'Translator': 1,
 'relief': 1,
 'improvements': 2,
 'modeling': 7,
 'Commissioned': 1,
 'progress': 7,
 'Variation': 1,
 'valid': 1,
 'transformations': 2,
 'characterize': 2,
 'devices': 4,
 '1953': 1,
 'closed-captioning': 1,
 'interoperability': 1,
 'spelled': 1,
 'pattern': 6,
 'contextual': 2,
 'meantime': 1,
 'test': 10,
 'seek': 1,
 'anymore': 1,
 'Lauriault\\/Loriot': 2,
 'experimented': 1,
 'fashion': 1,
 'demonstration': 5,
 'storing': 1,
 'distinctive': 2,
 'commercially': 2,
 'studying': 1,
 'alignment': 2,
 'capitalizes': 1,
 'and': 692,
 'able': 16,
 'foreign': 2,
 'consisti