# 2. 통계 언어 모델링
## 2) MLE 모델의 스무딩 적용

* 스무딩 : 이전에 발생하지 않은 단어를 처리하는 데 사용

에드온(Add-one) 스무딩

In [1]:
import nltk

In [5]:
corpus = u"<s> hello how are you doing ? Hope you find the book interesting. </s>".split()

In [10]:
sentence = u"<s>how are you doing</s>".split()

In [6]:
vocabulary = set(corpus)

In [7]:
len(vocabulary)

13

In [8]:
cfd = nltk.ConditionalFreqDist(nltk.bigrams(corpus))

In [11]:
# 문장의 각 바이그램의 코퍼스 카운트
[cfd[a][b] for (a, b) in nltk.bigrams(sentence)]

[0, 1, 0]

In [12]:
# 문장의 각 단어의 카운트
[cfd[a].N() for (a, b) in nltk.bigrams(sentence)]

[0, 1, 2]

In [13]:
# 이미 MLE 확률에 대한 FreqDist 메소드가 있다.
[cfd[a].freq(b) for (a, b) in nltk.bigrams(sentence)]

[0, 1.0, 0.0]

In [14]:
# 각 바이그램 수의 라플라스 스무딩
[1 + cfd[a][b] for (a, b) in nltk.bigrams(sentence)]

[1, 2, 1]

In [15]:
# 각 단어의 수 정규화
[len(vocabulary) + cfd[a].N() for (a, b) in nltk.bigrams(sentence)]

[13, 14, 15]

In [16]:
[1.0 * (1 + cfd[a][b]) / (len(vocabulary) + cfd[a].N()) for (a, b) in nltk.bigrams(sentence)]

[0.07692307692307693, 0.14285714285714285, 0.06666666666666667]

에드온 스무딩을 수행하거나 라플라스 확률 분포를 생성하는 다른 방법

In [18]:
# MLEProbDist는 스무딩하지 않은 확률 분포
cpd_mle = nltk.ConditionalProbDist(cfd, nltk.MLEProbDist, bins=len(vocabulary))

In [19]:
# 이제 .prob 메소드를 사용하여 MLE 확률을 얻을 수 있다
[cpd_mle[a].prob(b) for (a, b) in nltk.bigrams(sentence)]

[0, 1.0, 0.0]

In [20]:
# LaplaceProbDist는 스무딩된 ProbDist 추가 기능이다.
cpd_laplace = nltk.ConditionalProbDist(cfd, nltk.LaplaceProbDist, bins=len(vocabulary))

In [21]:
# 라플라스 확률을 얻는 것은 MLE와 동일하다
[cpd_laplace[a].prob(b) for (a, b) in nltk.bigrams(sentence)]

[0.07692307692307693, 0.14285714285714285, 0.06666666666666667]