---
---
---
# ***LANGUAGE MODEL***
---
---
---

1. *What is Language Model?*
2. *Statistical Language Model, SLM*
3. *N-gram Language Model*
4. *Language Model for Korean Sentences*
5. *Perplexity*
6. *Conditional Probability*


---
## 1. ***What is Language Model?***
---


<br>

#### 1. ***Language Model***

 - 단어 시퀀스에 확률을 할당하는 모델. 즉, 가장 자연스러운 단어 시퀀스를 찾아내는 모델
 - 이전 단어들이 주어졌을 때 다음 단어를 예측
 
<br>

#### 2. ***Probability Assign***

- 확률을 통해 보다 적절한 문장을 판단

1) Machine Translation : $P(나는\;버스를\;탔다) > P(나는\;버스를\;태운다)$ <br>
2) Spell Correction : 선생님이 교실로 부리나케 $P(달려갔다) > P(잘려갔다)$ <br>
3) Speech Recognition : $P(나는\;메롱을\;먹는다) < P(나는\;메론을\;먹는다)$

<br>

#### 3. ***Word Prediction***

>  w = 단어, W = 시퀀스, n = 단어 수
1) 단어 시퀀스의 확률 : $P(W) = P(w_1, w_2, w_3, ..., w_n)$ <br>
2) 다음 단어 등장 확률 : $P(W) = \prod_{i=1}^n P(w_n|w_1,...,w_{n-1})$


---
## 2. ***Statistical Language Model, SLM***
---


<br>

#### 1. ***Conditional Probability***
*Conditional Probability ->* $P(A,B) = P(A)P(B|A)$ <br>
*Chian Rule of 4 Probability ->*$P(A,B,C,D) = P(A)P(B|A)P(C|A,B)P(D|A,B,C)$ <br>
*Chian Rule of n Probability ->*$P(x_1,x_2...x_n) = P(x_1)P(x_2|x_1)P(x_3|x_1,x_2)...P(x_n|x_1,x_2,...,x_{n-1})$

<br>

#### 2. ***Sentence Probability***
*TEXT = "An adorable little boy is spreading smiles"* <br>
$P(An\,adorable\;little\;boy\;is\;spreading\;smiles) =$ <br>
$P(An) * P(adorable|An) * P(little|An\;adorable) * P(boy|An\;adorable\;little) * P(is|An\;adorable\;little\;boy)$ <br>
$* P(spreading|An\;adorable\;little\;boy\;is) * P(smiles|An\;adorable\;little\;boy\;is\;spreading)$

<br>

#### 3. ***Count-based Approach***
$P(is|An\;adorable\;little\;boy) = \frac{count(An\;adorable\;little\;boy\;is)}{count(An\;adorable\;little\;boy)}$ <br>
> "An adorable little boy" 문장이 100번 등장 <br>
"An adorable little boy is" 문장이 30번 등장했다면 <br>
$P(is|An\;adorable\;little\;boy)$ 확률은 30%

<br>

#### 4. ***Sparsity Problem***
- 충분한 데이터를 관측하지 못하여 언어를 정확히 모델링하지 못하는 문제
- SLM의 한계는 훈련 코퍼스에 확률을 계산하고 싶은 문장이나 단어가 없을 수 있다는 점
- 확률을 계산하고 싶은 문장이 길어질수록 갖고있는 코퍼스에서 그 문장이 존재하지 않을 가능성이 높음

---
## 3. ***N-gram Language Model***
---

- n-gram 언어 모델은 여전히 카운트에 기반한 통계적 접근을 사용하고 있으므로 SLM의 일종
- 앞서 배운 언어 모델과는 달리 이전에 등장한 모든 단어를 고려하는 것이 아니라 일부 단어만 고려하는 접근 방법을 사용
- 일부 단어를 몇 개 보느냐를 결정하는데 이것이 n-gram에서의 n이 가지는 의미

<br>

#### 1. ***코퍼스에서 카운트하지 못하는 경우의 감소***
$P(is|An\;adorable\;little\;boy) \approx P(is|boy)$ <br>
> An adorable little boy가 나왔을 때 is가 나올 확률에 비해 boy가 나왔을때 is가 나올 확률을 고려 <br>
 
$P(is|An\;adorable\;little\;boy) \approx P(is|little \; boy)$ <br>
> 위의 사례가 지나친 일반화로 느껴진다면 앞 단어의 한두개 정도를 더 포함해도 좋음

<br>

#### 2. ***N-gram***
 - 임의의 개수를 정하기 위한 기준을 위해 사용하는 것 
 
*TEXT = "An adorable little boy is spreading smiles"* <br>
> **unigrams** : an, adorable, little, boy, is, spreading, smiles <br>
**bigrams** : an adorable, adorable little, little boy, boy is, is spreading, spreading smiles <br>
**trigrams** : an adorable little, adorable little boy, little boy is, boy is spreading, is spreading smiles <br>
**4-grams** : an adorable little boy, adorable little boy is, little boy is spreading, boy is spreading smiles
 
- n-gram을 통한 언어 모델에서는 다음에 나올 단어의 예측은 오직 n-1개의 단어에만 의존
*TEXT = "An adorable little boy is spreading"* <br>
> n=4라고 한 4-gram을 이용한 언어 모델을 사용한다면 n-1에 해당되는 앞 3개의 단어만 고려됨. <br>
$P(w|boy\;is\;spreading) = \frac{count(boy\;is\;spreading\;w)}{count(boy\;is\;spreading)}$ <br>

<br>

#### 3. ***N-gram의 한계***
 - 일부 단어만을 보는 것으로 현실적으로 코퍼스에서 카운트 할 수 있는 확률을 높일 수는 있었지만, n-gram 언어 모델도 여전히 n-gram에 대한 희소 문제가 존재
 - 전체 문장을 고려한 언어 모델보다는 정확도가 떨어짐
 - 결국 n을 선택하는 것은 trade-off 문제
     1. n을 크게 선택하면 실제 훈련 코퍼스에서 해당 n-gram을 카운트할 수 있는 확률은 적어지므로 희소 문제는 점점 심각. (모델 사이즈도 커짐)
     2. 을 작게 선택하면 훈련 코퍼스에서 카운트는 잘 되겠지만 근사의 정확도는 현실의 확률분포와 멀어짐
     
> ***n은 최대 5를 넘게 잡아서는 안 된다고 권장됨***

---
## 4. ***Language Model for Korean Sentences***
---


<br>

#### 1. ***한국어는 어순이 중요하지 않다***

 - 한국어는 영어와 비교해 어순이 중요하지 않기 때문에 확률에 기반한 언어 모델이 다음 단어를 예측하기 어려움

Ex) <br>
① 나는 운동을 합니다 체육관에서. <br>
② 나는 체육관에서 운동을 합니다. <br>
③ 체육관에서 운동을 합니다. <br>
④ 나는 운동을 체육관에서 합니다.

<br>

#### 2. ***한국어는 교착어이다***

<br>

#### 3. ***한국어는 띄어쓰기가 제대로 지켜지지 않는다***

---
## 5. ***Perplexity***
---


<br>

#### 1. ***Evaluation Metric : PPL***
