# 1.4: Examining language models

`ARPA` (그리고 `iARPA`) 포맷은 해석하기 매우 쉽습니다. 만약 아직 확인하지 않았다면 [이 곳](https://cmusphinx.github.io/wiki/arpaformat/)에서 내용을 확인하세요. 

In [None]:
%%bash
cat resource_files/language_model/animal_lm-2_gram.iarpa

## Using `PyNLPl`

우리는 `python`에 있는 [`PyNLPl`](http://pynlpl.readthedocs.io/en/latest/) (pronounced "pineapple") 패키지를 이용하여서 language model을 확인해볼 수 있습니다.

In [None]:
import pynlpl.lm.lm as lm

### loading in `.iARPA` files

`ARPALanguageModel()`은 **`iARPA`** 포맷의 language model을 불러오는 명령어입니다.

**Note:** 이전 노트북에서 우리는 `sed` 명령어를 활용하여 `.iarpa` 포맷의 파일들을 약간 손을 보았습니다. 그 이유는 `1-gram`과 그 `probability` 사이의 공백이 `\t(탭)`이 아니라 `\s(" ")`으로 처리된 곳이 있었기 때문입니다.

In [None]:
bi_gram_lm = lm.ARPALanguageModel(
    filename="resource_files/language_model/animal_lm-2_gram.iarpa",
    base_e=False,  # this will keep the log probabilities in `base 10` so that they match up with the original file
    debug=True     # this argument will allow you to more easily see how the data is stored in the object
)

여기서 우리는 각각의 `n-gram`이 `<tuple>`의 형태로 저장된 것을 알 수 있습니다. 심지어 `1-gram` 또한 `([word],)`로 저장되어 있습니다.

### looking up **existing** `n-gram`s

`.ngrams`는 language model에 존재하는 모든 `n-gram`의 정보를 담고 있습니다. 다음과 같은 명령어를 통해 `n-gram`의 세부 정보를 확인할 수 있습니다.
 - the probability ==> `.prob()`
 - the backoff probability ==> `.backoff()`

In [None]:
bi_gram_lm.ngrams.prob(("dog",)), bi_gram_lm.ngrams.backoff(("dog",))

기존 파일의 값과 비교하여 *probability*나 *backoff*가 제대로 읽혔는지 확인할 수 있습니다. 

In [None]:
%%bash
cat resource_files/language_model/animal_lm-2_gram.iarpa | grep -P "\tdog\t"

In [None]:
bi_gram_lm.ngrams.prob(("the", "dog")), bi_gram_lm.ngrams.backoff(("the", "dog"))

In [None]:
%%bash
cat resource_files/language_model/animal_lm-2_gram.iarpa | grep -P "the dog"

존재하지 않는 `n-gram`의 probability를 확인하려고 하는 경우, `KeyError`가 발생합니다.

In [None]:
try:
    bi_gram_lm.ngrams.prob(("human", "ate"))
except Exception as e:
    print("n-gram {} doesn't exist in language model".format(e))

In [None]:
try:
    bi_gram_lm.ngrams.prob(("the", "dog", "ate"))
except Exception as e:
    print("n-gram {} doesn't exist in language model".format(e))

### calculating new `n-gram` probabilities

`KeyError`가 발생하는 경우는 두 가지가 있습니다. 

 1. `n-gram`의 사이즈는 language model에 포함되어 있지만 **해당 n-gram이 language model에 존재하지 않을 경우**.
 2. **해당 n-gram의 사이즈가 language model보다 클 경우**. (*i.e.,* `2-gram` language model을 불러온 상황에서 `3-gram` probability를 찾으려는 경우)
 
두 경우 모두에서 `.score()` 명령어를 사용할 수 있습니다. 에러가 발생한 `n-gram`의 확률을 계산하기 위해서는 해당 `n-gram`을 `<tuple>`의 형태로 명령어에 입력하면 됩니다. 

#### `n-gram` is **not present** in language model

이러한 상황에서는 `backoff` probability를 활용하게 됩니다. `backoff` probability는 해당 `n-gram`이 데이터에 없을 경우의 probability를 계산하기 위해서 측정된 probability입니다. `2-gram` language model에서는 `1-gram`에만 backoff probability가 존재합니다. backoff probability는 *단어 다음*에 나오는 숫자입니다. 

In [None]:
cat resource_files/language_model/animal_lm-2_gram.iarpa | grep -A15 -E "1-grams"

만약 우리가 toy corpus에 존재하지 않는 `"human ate"`라는 `n-gram`의 probability를 계산하려고 할 경우, 다음과 같은 방법으로 probability는 계산됩니다.

$p(human\_ate) = p(human) + p(ate|human) = p(human) + p(ate) + bWt(human)$

**Note:** 모든 probability가 **log**로 변환되었기 때문에, 확률을 **곱하지 않고 더하게** 됩니다. 그리고 모든 probability가 `음수`이기 때문에, `0`에 **가까울 수록** corpus에서 더 빈번하게 나타난다는 것을 의미합니다. 

In [None]:
bi_gram_lm.score(("human", "ate"))

직접 더해보면 해당 식이 맞아 들어간다는 것을 확인할 수 있습니다. 

In [1]:
bi_gram_lm.ngrams.prob(("human",)) + \
bi_gram_lm.ngrams.prob(("<ate>",)) + \
bi_gram_lm.ngrams.backoff(("human",))

NameError: name 'bi_gram_lm' is not defined

**Note:** 만약 `n-gram`을 `<tuple>`로 입력하지 않았다면, `<string>`은 각각의 글자를 이용한 `n-gram`으로 인식됩니다. 각각의 글자는 language model에 존재하지 않기 때문에, 그 결과는 $p(UNK) * len(string)$과 동일하게 될 것입니다. 
.

In [None]:
bi_gram_lm.score("human ate")

In [None]:
result = 0
for i in "human ate":
    result += bi_gram_lm.scoreword(i)
result

#### `n-gram` is **larger** than language model

만약 `"the dog ate"`의 probability를 `2-gram` language model을 이용하려고 구하려고 할 경우, 다음과 같은 방법으로 계산됩니다. 

$p(the\_dog\_ate) = p(the) + p(dog|the) + p(ate|dog)$

In [None]:
bi_gram_lm.score(("the", "dog", "ate"))

직접 각각을 계산해 보면 그 결과가 동일함을 알 수 있습니다. 

In [None]:
bi_gram_lm.ngrams.prob(("the",)) + \
bi_gram_lm.ngrams.prob(("the", "dog")) + \
bi_gram_lm.ngrams.prob(("dog", "ate"))

하지만 만약 `n-gram` 중 하나라도 language model에 존재하지 않을 경우, 다른 경우와 마찬가지로 `backoff` probability를 활용하여 계산하게 됩니다. 

$p(the\_triceratops\_ate) = p(the) + p(triceratops|the) + p(ate|triceratops) = p(the) + p(UNK) + bWt(the) + p(ate) + bWt(triceratops)$

In [None]:
bi_gram_lm.score(("the", "triceratops", "ate"))

In [None]:
bi_gram_lm.ngrams.prob(("the",)) + \
bi_gram_lm.ngrams.prob(("<unk>",)) + \
bi_gram_lm.ngrams.backoff(("the",)) + \
bi_gram_lm.ngrams.prob(("ate",))

### `pruning` a language model

`pruning`을 통해서 language model을 더욱 간단하게 할 수 있습니다. `n-gram`에서 많은 수의 n-gram이 굉장히 낮은 빈도로 나타납니다. 심지어 **한 번** 등장한 n-gram 또한 language model에 포함됩니다. 그렇기 때문에 `backoff` probability를 활용하면 빈도가 낮은 `n-gram`을 "accuracy"를 크게 낮추지 않고도 제거할 수 있습니다. 

`IRSTLM` 매뉴얼은 `pruning`을 이렇게 설명합니다. 

```
Large LMs files can be pruned in a smart way by means of the command prune-lm that removes n-grams for which resorting to the back-off results in a small loss.
```

`librispeech` 데이터는 서로 다른 `pruning` threshold를 가진 두 개의 `pruned 3-gram` language model을 제공합니다. 

In [None]:
%%bash
ls -lh raw_data/ | grep 3-gram

`pruning`의 결과로 파일 크기가 작아진 것을 확인할 수 있습니다. `2-gram`과 `3-gram`의 갯수를 확인해 보아도 그 차이는 확연합니다. 

In [None]:
%%bash
head -n5 raw_data/3-gram.arpa
echo ...
head -n5 raw_data/3-gram.pruned.1e-7.arpa
echo ...
head -n5 raw_data/3-gram.pruned.3e-7.arpa

While it's not necessary to `prune` our toy animal language models, it **is** easy to do with `IRSTLM`.

toy corpus에 `pruning`을 적용할 필요는 없지만, `IRSTLM`을 이용하면 쉽게 `pruning`을 적용할 수 있습니다. 

In [None]:
%%bash
export IRSTLM=${KALDI_PATH}/tools/irstlm
export PATH=${PATH}:${IRSTLM}/bin
prune-lm

**Note:** 각각의 `n-gram`에 서로 다른 threshold를 적용할 수 있습니다. `librispeech` language model에서도 `1-gram`에는 `pruning`이 적용되지 않은 것을 확인할 수 있습니다. 