# 10-1 Language Model
언어라는 현상을 모델링하고자 단어 시퀀스(문장)에 확률을 할당하는 모델

- 통계를 이용한 방법
- 인공 신경망을 이용한 방법(GPT, BERT)

## 1. Language Model
Language Model(LM): 단어 시퀀스에 확률을 할당.
> - 이전 단어들이 주어졌을 때 다음 단어를 예측하도록(보편적)
- 양쪽의 단어들로부터 가운데 비어있는 단어를 예측하는 언어 모델(BERT)

## 2. 주어진 이전 단어들로부터 다음 단어 예측하기
### A. 단어 시퀀스의 확률
하나의 단어를 $w$, 단어 시퀀스를 대문자 $W$라고 한다면, $n$개의 단어가 등장하는 단어 시퀀스 $W$의 확률은  
$$P(W)=P(w_1, w_2, w_3, w_4, w_5, ..., w_n)$$

### B. 다음 단어 등장 확률
$n-1$개의 단어가 나열된 상태에서 $n$번째 단어의 확률은  
$$P(w_n|w_1, ..., w_{n-1})$$
전체 단어 시퀀스 $W$의 확률은 모든 단어가 예측되고 나서야 알 수 있으므로 단어 시퀀스의 확률은  
$$P(W)=P(w_1, w_2, w_3, ..., w_n)=Π_{i=1}^n(Pw_i|w_1, ..., w_{i-1})$$

# 10-2 Statistical Language Model, SLM

## 1. 조건부 확률

- 두 확률에 대해
$$P(B|A) = P(A,B)/P(A)$$
$$P(A,B) = P(A)P(B|A)$$

- 4개의 확률일 때
$$P(A,B,C,D) = P(A)P(B|A)P(C|A,B)P(D|A,B,C)$$

- n개에 대해
$$P(x_1, x_2, x_3, ..., x_n) = P(x_1)P(x_2|x_1)P(x_3|x_1,x_2)...P(x_n|x_1,...,x_{n-1})$$

## 2. 문장에 대한 확률
문장 'An adorable little boy is spreading smile' 의 확률 *P(An adorable little boy is spreading smiles)*를 식으로 표현
  
$P(An adorable little boy is spreading smiles)=\\
P(An)×P(adorable|An)×P(little|An\,adorable)×\\...×P(smiles|An\,adorable\,little\,boy\,is\,spreading)$

## 3. 카운트 기반의 접근
An adorable little boy가 나왔을 때, is가 나올 확률인
$$P(is|An\,\,adorable\,\,little\,\,boy)=\frac{count(An\,\,adorable\,\,little\,\,boy\,\,is)}{count(An\,\,adorable\,\,little\,\,boy)}$$

### 한계 - Sparsity Problem
카운트 기반으로 접근하려면 갖고 있는 corpus가 정말 많이 필요함  
위 식을 기반으로 하였을 때 An adorable little boy가 한 번도 나오지 않으면 분모가 0이 되어 확률이 정의되지 않음  
하지만 이렇다고 해서 현실에 사용되지 않는다는 말이 아니기 때문에 그저 충분한 데이터가 없어서 발생하는 문제  
-> Sparsity Problem

# 10-3 N-gram Language Model
카운트에 기반한 통계적 접근을 사용하는 SLM의 일종  
But, 모든 단어를 고려하는 것이 아니라 일부 단어만 고려하는 접근 방법을 사용

## 1. Corpus에서 카운트하지 못하는 경우의 감소
SLM의 한계: 훈련 코퍼스에 확률을 계산하고 싶은 문장이나 단어가 없을 수 있음!!
또한, 확률을 게산하고 싶은 문장이 길어질수록 갖고있는 corpus에서 그 문장이 존재하지 않을 가능성이 높음 => 참고하는 단어를 줄여 카운트
<br>
<br>
$$P(is|An\,\,adorable\,\,little\,\,boy)≈P(is|boy)$$
$$P(is|An\,\,adorable\,\,little\,\,boy)≈P(is|little\,\,boy)$$

## 2. N-gram
corpus에서 n개의 단어 뭉치 단위로 끊어서 이를 하나의 토큰으로 간주

n-gram: n개의 연속적인 단어 나열  
>Ex: An adorable little boy is spreading smiles
<br><br>
**uni**grams: an, adorable, little, boy, is, spreading, smiles  
**bi**grams: an adorable, adorable little, little boy, boy is, is spreading, spreading smiles  
**tri**grams: an adorable little, adorable little boy, little boy is, boy is spreading, is spreading smiles  
**4**-grams: an adorable little boy, adorable little boy is, little boy is spreading, boy is spreading smiles



n-gram을 통한 LM에서는 n-1개의 단어에만 의존  
예를 들어, n = 4라고 하면, 3개의 앞의 단어만을 고려해 예측  
~~An adorable little~~ <span style="color:orange">boy is spreading</span> _
<br><br>
$$P(w|boy\,\,is\,\,spreading)=\frac{count(boy\,\,is\,\,spreading\,\,w)}{count(boy\,\,is\,\,spreading)}$$

## 3. N-gram Language Model의 한계
앞의 단어 몇 개만 보다 보니 의도하고 싶은대로 문장을 끝맺음하지 못하는 경우가 생김  
또한 문장을 읽다 보면 앞 부분과 뒷부분의 문맥이 전혀 연결이 안되는 경우도 생김  

### (1) Sparsity Problem
카운트 할 수 있는 확률을 전체 문장을 보는 것보다는 높일 수 있지만, 여전히 희소문제 존재

### (2) n을 선택하는 것은 trade-off 문제
앞의 몇 개의 단어를 볼 지는 결과론적 문제일 것으로 생각이 됨  
n을 크게 선택하면 실제 훈련 코퍼스에서 해당 n-gram을 카운트할 수 있는 확률은 적어지므로 희소 문제는 점점 심각해짐  
또한 n이 커질수록 모델 사이즈가 커짐  

n을 작게 선택하면 훈련 코퍼스에서 카운트는 잘 되지만 근사의 정확도는 현실의 확률분포와 멀어짐

**가능하면 n을 5이하로 잡는 것을 권장**

# 10-4 한국어에서의 언어 모델

## 1. 한국어는 어순이 중요하지 않다
이전 단어가 주어졌을때, 다음 단어로 어떤 단어든 등장할 수 있음  
>1. 나는 운동을 합니다 체육관에서  
2. 나는 체육관에서 운동을 합니다  
3. 체육관에서 운동을 합니다  
4. 나는 운동을 체육관에서 합니다


4개의 문장은 전부 의미가 통하는 것을 볼 수 있고, 3번을 보면 '나는'을 생략해도 말이 됨  
즉, 한국어는 언어 모델이 제대로 다음 단어를 예측하기가 어려움

## 2. 한국어는 교착어이다
한국어에는 조사가 존재하므로 토큰화를 통해 조사나 접사를 분리하는 것이 중요한 작업이 됨

## 3. 한국어는 띄어쓰기가 제대로 지켜지지 않음
띄어쓰기를 제대로 하지 않아도 의미가 전달되고, 띄어쓰기 규칙 또한 상대적으로 까다로운 언어이므로 자연어 처리하는 것에 있어 한국어 corpus는 띄어쓰기가 제대로 지켜지지 않는경우가 많음

# 10-5 Perplexity
두 개의 모델 A, B가 있을 때 모델의 성능은 perplexity를 이용  
perplexity: 모델 내에서 자신의 성능을 수치화하여 결과를 내놓음

## 1. 언어모델의 평가 방법: PPL
PPL은 '낮을수록' 언어 모델의 성능이 좋다는 것을 의미  
PPL은 문장의 길이로 정규화된 문장 확률의 역수, 문장 W의 길이가 N이라고 하였을 때 PPL은 다음과 같음  
<br>
$$PPL(W)=P(w_1, w_2, w_3, ..., w_N)^{-\frac{1}{N}}=\frac{1}{P(w_1, w_2, w_3, ..., w_N)}^{\frac{1}{N}}$$

문장의 확률에 chain rule을 적용하면 아래와 같음  
<br>
$$PPL(W)=\frac{1}{P(w_1, w_2, w_3, ..., w_N)}^{\frac{1}{N}}=\frac{1}{Π^N_{i=1}P(w_i|w_1, w_2, ..., w_{i-1})}^\frac{1}{N}$$

여기에 n-gram(bigram)을 적용하면  
<br>
$$PPL(W)=\frac{1}{\Pi^N_{i=1}P(w_i|w_{i-1})}^\frac{1}{N}$$

## 2. 분기 계수(Branching factor)
PPL은 선택할 수 있는 가능한 경우의 수를 의미하는 분기계수  
즉, 몇 개의 선택지를 가지고 고민하고 있는지를 의미  

가령, 언어 모델에 어떤 테스트 데이터를 주고 측정했더니 PPL이 10이 나왔다고 할 때 해당 언어 모델은 테스트 데이터에 대해 다음 단어를 예측하는 모든 시점(time step)마다 평균 10개의 단어를 가지고 어떤 것이 정답인지 고민하고 있다고 볼 수 있음  

$$PPL(W)=P(w_1, w_2, w_3, ..., w_N)^{-\frac{1}{N}}=(\frac{1}{10}^N)^{-\frac{1}{N}}=\frac{1}{10}^{-1}=10$$