# 확률론적 언어 모형

확률론적 언어 모형(Probabilistic Language Model)은 $m$개의 단어 $w_1, w_2, \ldots, w_m$ 열(word sequence)이 주어졌을 때 문장으로써 성립될 확률 $P(w_1, w_2, \ldots, w_m)$ 을 출력함으로써 이 단어 열이 실제로 현실에서 사용될 수 있는 문장(sentence)인지를 판별하는 모형이다.


이 확률은 각 단어의 확률과 단어들의 조건부 확률을 이용하여 다음과 같이 계산할 수 있다.

$$
\begin{eqnarray}
P(w_1, w_2, \ldots, w_m) &=& P(w_1, w_2, \ldots, w_{m-1}) \cdot P(w_m\;|\; w_1, w_2, \ldots, w_{m-1}) \\
&=& P(w_1, w_2, \ldots, w_{m-2}) \cdot P(w_{m-1}\;|\; w_1, w_2, \ldots, w_{m-2}) \cdot P(w_m\;|\; w_1, w_2, \ldots, w_{m-1}) \\
&=& P(w_1) \cdot P(w_2 \;|\; w_1) \cdot  P(w_3 \;|\; w_1, w_2) P(w_4 \;|\; w_1, w_2, w_3) \cdots P(w_m\;|\; w_1, w_2, \ldots, w_{m-1})
\end{eqnarray}
$$

여기에서 $P(w_m\;|\; w_1, w_2, \ldots, w_{m-1})$ 은 지금까지 $w_1, w_2, \ldots, w_{m-1}$라는 단어 열이 나왔을 때, 그 다음 단어로 $w_m$이 나올 조건부 확률을 말한다. 여기에서 지금까지 나온 단어를 **문맥(context)** 정보라고 한다.

이 때 조건부 확률을 어떻게 모형화하는냐에 따라 
* 유니그램 모형 (Unigram Model)
* 바이그램 모형 (Bigram Model)
* N-그램 모형 (N-gram Model)

등으로 나뉘어 진다.

## 유니그램 모형 (Unigram  Model)

만약 모든 단어의 활용이 완전히 서로 독립이라면 단어 열의 확률은 다음과 같이 각 단어의 확률의 곱이 된다. 이러한 모형을 유니그램 모형 (Unigram  Model)이라고 한다.

$$ P(w_1, w_2, \ldots, w_m) = \prod_{i=1}^m P(w_i) $$

## 바이그램 모형 (Bigram Model)

만약 단어의 활용이 바로 전 단어에만 의존한다면 단어 열의 확률은 다음과 같다. 이러한 모형을 Bigram 모형 또는 마코프 모형(Markov Model)이라고 한다.

$$ P(w_1, w_2, \ldots, w_m) = P(w_1) \prod_{i=2}^{m} P(w_{i}\;|\; w_{i-1}) $$

## N-그램 모형 (N-gram Model)

만약 단어의 활용이 바로 전 $n$개의 단어에만 의존한다면 단어 열의 확률은 다음과 같다. 이러한 모형을 N-gram 모형이라고 한다.

$$ P(w_1, w_2, \ldots, w_m) = P(w_1) \prod_{i=n}^{m} P(w_{i}\;|\; w_{i-1}, \ldots, w_{i-n}) $$

## 확률 추정 방법

실제 텍스트 코퍼스(corpus)에서 확률을 추정하는 방법은 다음과 같다. 여기에서는 바이그램의 경우를 살펴본다.

일단 모든 문장에 문장의 시작과 끝을 나타내는 특별 토큰을 추가한다. 예를 들어 문장의 시작은 `SS`, 문장의 끝은 `SE` 이라는 토큰을 사용할 수 있다.  

바이그램 모형에서는 전체 문장의 확률은 다음과 같이 조건부 확률의 곱으로 나타난다.

$$ P(\text{SS I am a boy SE}) = P(\text{I}\;|\; \text{SS}) \cdot P(\text{am}\;|\; \text{I}) \cdot P(\text{a}\;|\; \text{am}) \cdot P(\text{boy}\;|\; \text{a}) \cdot P(\text{SE}\;|\; \text{boy}) $$

조건부 확률은 다음과 같이 추정한다.

$$ P(w_{i}\;|\; w_{i-1}) = \dfrac{C(w_{i}, w_{i-1})}{C(w_{i-1})} $$

위 식에서 $C(w_{i}, w_{i-1})$은 전체 코퍼스에서 $(w_{i}, w_{i-1})$라는 바이그램이 나타나는 횟수이고 $C(w_{i-1})$은 전체 코퍼스에서 $(w_{i-1})$라는 유니그램(단어)이 나타나는 횟수이다.

## 바이그램 예

다음은 nltk 패키지의 샘플 코퍼스인 movie_reviews의 텍스트를 기반으로 바이그램 모형을 추정하고 모형 확률로부터 랜덤하게 문장을 생성하는 예제이다.

우선 다음과 같이 문장(단어 리스트)의 리스트를 만든다.

In [1]:
import nltk
nltk.download('movie_reviews')
nltk.download('punkt')

[nltk_data] Downloading package movie_reviews to
[nltk_data]     /home/dockeruser/nltk_data...
[nltk_data]   Package movie_reviews is already up-to-date!
[nltk_data] Downloading package punkt to /home/dockeruser/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [2]:
from nltk.corpus import movie_reviews

sentences = []
for s in movie_reviews.sents():
    s.insert(0, "SS")
    s.append("SE")
    if len(s) > 4:
        sentences.append(s)

In [3]:
sentences[1]

['SS', 'they', 'get', 'into', 'an', 'accident', '.', 'SE']

이제 이 텍스트 정보로부터 확률값을 추정한다.

In [4]:
from collections import Counter

def calculate_bigram(sentences):
    bigram = {}
    for s in sentences:
        context = "SS"
        for i, w in enumerate(s[1:]):
            if context not in bigram:
                bigram[context] = Counter()
            if bigram[context][w] == 0:
                bigram[context][w] = 1
            bigram[context][w] += 1
            context = w
    for context in bigram.keys():
        total = sum(bigram[context].values())
        for w in bigram[context]:
            bigram[context][w] /= total
    return bigram

In [5]:
bigram = calculate_bigram(sentences)

* 문장의 처음에 올 수 있는 단어들

In [6]:
bigram["SS"].most_common(10)

[('the', 0.11231263830320237),
 ('it', 0.043575076893101194),
 ('i', 0.03379121261464379),
 ('but', 0.02523207103391647),
 ('and', 0.024160438673402642),
 ('he', 0.023269731256871668),
 ('in', 0.023102723616272112),
 ('this', 0.022963550582439148),
 ('there', 0.0180507424881355),
 ('as', 0.013249272820898222)]

* we 다음에 올 수 있는 단어들

In [7]:
bigram["we"].most_common(10)

[("'", 0.12985751295336787),
 ('are', 0.07674870466321243),
 ('see', 0.059261658031088085),
 ('get', 0.052461139896373056),
 ('have', 0.05116580310880829),
 ('can', 0.0391839378238342),
 ('don', 0.03756476683937824),
 ('know', 0.03432642487046632),
 ('never', 0.01878238341968912),
 ('learn', 0.018458549222797927)]

### 컨텍스트-단어 조합의 확률

트레이닝이 끝나면 조건부 확률의 값을 보거나 샘플 문장을 입력해서 문장의 로그 확률을 구할 수 있다.

"i" 라는 단어가 나온 뒤에 "was"이라는 단어가 나올 확률을 계산하면

In [8]:
bigram["i"]["was"]

0.053622421998942356

In [9]:
bigram["i"]["am"]

0.017556848228450557

In [10]:
bigram["i"]["is"]

0.00031729243786356425

In [11]:
bigram["i"]["are"]

0.00021152829190904283

In [12]:
bigram["."]["SE"]

0.9612387969875893

In [13]:
bigram["."]

Counter({'SE': 0.9612387969875893,
         "'": 0.0010735373054213634,
         '"': 0.02922949299760894,
         ')': 0.00821418695814831,
         "''": 6.506286699523415e-05,
         ']': 0.0001789228842368939})

### 문장의 확률

In [14]:
def sentence_score(s):
    p = 0.0
    for i in range(len(s) - 1):
        c = s[i]
        w = s[i + 1]
        p += np.log(bigram[c][w] + np.finfo(float).eps)
    return np.exp(p)

In [15]:
test_sentence = ["i", "am", "a", "boy", "."]
sentence_score(test_sentence)

3.288036438066686e-08

In [16]:
test_sentence = ["i", "is", "boy", "a", "."]
sentence_score(test_sentence)

1.9683389110380156e-38

### 문장의 생성

이 모형을 기반으로 임의의 랜덤한 문장을 생성할 수 있다. 

In [17]:
def generate_sentence(seed=None):
    if seed is not None:
        np.random.seed(seed)
    c = "SS"
    sentence = []
    while True:
        if c not in bigram:
            break
        words, probs = zip(*[(k, v) for k, v in bigram[c].items()])
        idx = np.argmax(np.random.multinomial(1, probs, (1,)))
        w = words[idx]
        
        if w == "SE":
            break
        elif w in ["i", "ii", "iii"]:
            w2 = w.upper()
        elif w in ["mr", "luc", "i", "robin", "williams", "cindy", "crawford"]:
            w2 = w.title()
        else:
            w2 = w
        
        if c == "SS":
            sentence.append(w2.title())
        elif c in ["`", "\"", "'", "("]:
            sentence.append(w2)
        elif w in ["'", ".", ",", ")", ":", ";", "?"]:
            sentence.append(w2)
        else:
            sentence.append(" " + w2)
            
        c = w
    return "".join(sentence)

In [18]:
generate_sentence(82)

'Alexandre dumas may suspect he at being can be honest here goes awol, but he trusts affleck - see this documentary.'

이번에는 한글 자료를 이용해보자 코퍼스로는 아래의 웹사이트에 공개된 Naver sentiment movie corpus 자료를 사용한다.
* https://github.com/e9t/nsmc


In [19]:
%%time
!wget -nc -q https://raw.githubusercontent.com/e9t/nsmc/master/ratings_train.txt

CPU times: user 0 ns, sys: 20 ms, total: 20 ms
Wall time: 470 ms


In [20]:
import codecs
with codecs.open("ratings_train.txt", encoding='utf-8') as f:
    data = [line.split('\t') for line in f.read().splitlines()]
    data = data[1:]   # header 제외
    
docs = [row[1] for row in data]

In [21]:
from konlpy.tag import Twitter
tagger = Twitter()

def tokenize(doc):
    return ["SS"] + ['/'.join(t) for t in tagger.pos(doc, norm=True, stem=True)] + ["SE"]

In [23]:
%%time
sentences = [tokenize(d) for d in docs]

CPU times: user 3min 27s, sys: 1.52 s, total: 3min 28s
Wall time: 3min 24s


In [24]:
bigram = calculate_bigram(sentences)

In [25]:
def korean_most_common(c, n, pos=None):
    if pos is None:
        return bigram[tokenize(c)[0]].most_common(n)
    else:
        return bigram["/".join([c, pos])].most_common(n)

In [26]:
korean_most_common("나", 10)

[('이/Determiner', 0.01753546464438441),
 ('정말/Noun', 0.0164754624638085),
 ('이/Noun', 0.015282202866245896),
 ('진짜/Noun', 0.01355591360073655),
 ('영화/Noun', 0.01299259815620192),
 ('재밌다/Adjective', 0.011248137424739846),
 ('아/Exclamation', 0.011193623026881655),
 ('너무/Noun', 0.010363792748373653),
 ('평점/Noun', 0.00959453402304142),
 ('내/Noun', 0.009328019189068046)]

In [27]:
korean_most_common("의", 10)

[('이/Determiner', 0.01753546464438441),
 ('정말/Noun', 0.0164754624638085),
 ('이/Noun', 0.015282202866245896),
 ('진짜/Noun', 0.01355591360073655),
 ('영화/Noun', 0.01299259815620192),
 ('재밌다/Adjective', 0.011248137424739846),
 ('아/Exclamation', 0.011193623026881655),
 ('너무/Noun', 0.010363792748373653),
 ('평점/Noun', 0.00959453402304142),
 ('내/Noun', 0.009328019189068046)]

In [28]:
korean_most_common(".", 10, "Punctuation")

[('SE', 0.34900406798404404),
 ('영화/Noun', 0.009070682868389525),
 ('이/Noun', 0.007806843165391856),
 ('이/Determiner', 0.006753643412893798),
 ('정말/Noun', 0.006332363511894575),
 ('그리고/Conjunction', 0.006016403586145158),
 ('./Punctuation', 0.005937413604707803),
 ('이렇다/Adjective', 0.005687278663489514),
 ('하지만/Conjunction', 0.004871048855303519),
 ('보다/Verb', 0.004489263945022973)]

In [95]:
def korean_bigram_prob(c, w):
    context = tokenize(c)[1]
    word = tokenize(w)[1]
    return bigram[context][word]

In [96]:
korean_bigram_prob("이", "영화")

0.34717143471714346

In [97]:
korean_bigram_prob("영화", "이")

0.00024180648041367508

In [32]:
def korean_generate_sentence(seed=None, debug=False):
    if seed is not None:
        np.random.seed(seed)
    c = "SS"
    sentence = []
    while True:
        if c not in bigram:
            break
        words, probs = zip(*[(k, v) for k, v in bigram[c].items()])
        idx = np.argmax(np.random.multinomial(1, probs, (1,)))
        w = words[idx]
        
        if w == "SE":
            break            
        
        w2 = w.split("/")[0]
        pos = w.split("/")[1]
        
        if c == "SS":
            sentence.append(w2.title())
        elif c in ["`", "\"", "'", "("]:
            sentence.append(w2)
        elif w2 in ["'", ".", ",", ")", ":", ";", "?"]:
            sentence.append(w2)
        elif pos in ["Josa", "Punctuation", "Suffix"]:
            sentence.append(w2)
        elif w in ["임/Noun", "것/Noun", "는걸/Noun", "릴때/Noun",
                   "되다/Verb", "이다/Verb", "하다/Verb", "이다/Adjective"]:
            sentence.append(w2)
        else:
            sentence.append(" " + w2)
        c = w
        
        if debug:
            print(w)
            
    return "".join(sentence)

In [39]:
korean_generate_sentence(1)

'김재중 연기 너무 부족하다.'

In [57]:
korean_generate_sentence(17)

'비디오 값을 당한 졸작...;;'

In [73]:
korean_generate_sentence(32)

'다 잘되다 바랬는데 ㅠㅠ 나빳음 ㅜㅜ 말에 의 노래가 받다 순신와 코드랑은 너무 어이가 안 보이다 야하다 솔직하다 난 결국 영화장르는 짐작. 악역 등장 시키다 비겁 한시도 아니다. 해외 영화 다'

In [76]:
korean_generate_sentence(35)

'재미도 개 꿀잼'

In [87]:
korean_generate_sentence(46)

'이영화를 봣는데... 가치도 마찬가지 아니다 사담에 이렇다 상황 설정을하다 잖다 유머로 소름 끼가 맞다 재미 없다 이 영화를 너무 웃기다 컨셉을 바탕이라곤 해도 과언이 이렇다 막장해 주기에도 긴장감이라고는 생각 쓰다 ㅋ 키 센빠이 없다 괴상하고 드라마가 이것 같다 영화 수준의 관계를 자다 들리다 박세영 애교 부리는 범인 잡다 사람들 도덕 차리다 그것이 원하다 배우가 대중화되다 많다 때 ㅠ'

## 확률론적 언어 모형의 활용

확률론적 언어 모형은 다음과 같은 분야에 광범위하게 활용할 수 있다.

* 철자 및 문법 교정(Spell Correction)
* 음성 인식(Speech Recognition)
* 자동 번역(Machine Translation)
* 자동 요약(Summarization)
* 챗봇(Question-Answering)