
# How to generate text: using different decoding methods for language generation with Transformers

### **GPT-2**

#### ***Language Modeling***
- 기존 GPT-1은 pre-training과 supervised fine-tuning의 결합
- GPT-2는 language modeling(token sequence를 사용해 문장의 비지도 분포를 측정하는 방법)

#### ***Various Training Dataset***
- GPT-2의 가장 큰 목적은 Fine-tuning 없이 unsupervised pre-training 만을 Zero-shot으로 통해 다양한 task를 진행할 수 있는 General Language Model을 만드는 것
- GPT-1은 news article, wikipedia를 주로 사용. GPT-2는 Web Text 사용

#### ***Byte Pair Encoding(BPE)***
- subword 기반의 인코딩 방법으로 문자 단위로 단어를 분해해 vocab 생성
- OOV(Out Of Vocabulary) 문제 해결 

### **Introduction**

최근, 대량의 weppage 데이터로 학습 된 transformer-based language models의 등장으로 open-ended language generation에 대한 관심이 높아졌습니다.(ex. GPT-2) 

향상된 tranformer architecure와 대량의 unsupervised trainig data외에도 더 나은 decoding methods 또한 중요한 역할을 했습니다.


본 자료에서는 다양한 decoding strategies에 대한 간략한 개요와  `transformers` library를 사용해 손쉽게 이러한 decoding strategies를 구현하는 방법을 다룹니다.


모든 방법들은 **auto-regressive** language generation([here](http://jalammar.github.io/illustrated-gpt2/) a refresher)를 사용할 수 있습니다. 

![GPT-2 Auto regressive](http://jalammar.github.io/images/xlnet/gpt-2-autoregression-2.gif)

*Auto-regressive* language generation는 word sequence의 확률은 next word의 conditional distribution으로 decompose할 수 있다는 것이 기본 가정입니다. 
$$ P(w_{1:T} | W_0 ) = \prod_{t=1}^T P(w_{t} | w_{1: t-1}, W_0) \text{ ,with }  w_{1: 0} = \emptyset, $$

$W_0$는 initial *context* word sequence를 의미합니다. Word sequence의 길이인 $T$는 $P(w_{t} | w_{1: t-1}, W_{0})$으로 부터 EOS token이 나온 timestep $t=T$를 의미합니다.


Auto-regressive language generation은 `GPT2`, `XLNet`, `OpenAi-GPT`, `CTRL`, `TransfoXL`, `XLM`, `Bart`, `T5` in both PyTorch and Tensorflow >= 2.0!에서 사용 가능합니다.

이번 실습 시간에는 현재 유명한 decoding 방법들인 *Greedy search*, *Beam search*, *Top-K sampling*, *Top-p sampling* 를 다룹니다.

Transformer를 설치하고 Model을 load 해봅시다.

In [4]:
!pip install transformers

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


이번 실습 시간에서는 SKT에서 공개한 KoGPT-2 모델을 사용합니다.

In [5]:
!curl -s https://packagecloud.io/install/repositories/github/git-lfs/script.deb.sh | sudo bash
!apt-get install git-lfs
!git lfs install
!git clone https://huggingface.co/taeminlee/kogpt2

Detected operating system as Ubuntu/bionic.
Checking for curl...
Detected curl...
Checking for gpg...
Detected gpg...
Running apt-get update... done.
Installing apt-transport-https... done.
Installing /etc/apt/sources.list.d/github_git-lfs.list...done.
Importing packagecloud gpg key... done.
Running apt-get update... done.

The repository is setup! You can now install packages.
Reading package lists... Done
Building dependency tree       
Reading state information... Done
The following package was automatically installed and is no longer required:
  libnvidia-common-460
Use 'apt autoremove' to remove it.
The following packages will be upgraded:
  git-lfs
1 upgraded, 0 newly installed, 0 to remove and 56 not upgraded.
Need to get 7,168 kB of archives.
After this operation, 7,962 kB of additional disk space will be used.
Get:1 https://packagecloud.io/github/git-lfs/ubuntu bionic/main amd64 git-lfs amd64 3.2.0 [7,168 kB]
Fetched 7,168 kB in 1s (11.7 MB/s)
(Reading database ... 155689 file

In [6]:
import torch
from tokenizers import SentencePieceBPETokenizer
from transformers import GPT2Config, GPT2LMHeadModel

tokenizer = SentencePieceBPETokenizer("/content/kogpt2/vocab.json", "/content/kogpt2/merges.txt")

# 이 모델같은 경우 vocab_size가 50000로 되어있음.
# 그래서 config GPT2 load를 할 때 반드시 vocab size를 맞춰줘야 함.
config = GPT2Config(vocab_size=50000)
config.pad_token_id = tokenizer.token_to_id('<pad>')
model = GPT2LMHeadModel(config)

model_dir = '/content/kogpt2/pytorch_model.bin'

# map_location을 해줘야 GPU에 올라가서 사용할 수 있다.
model.load_state_dict(torch.load(model_dir, map_location='cuda'), strict=False)
model.to('cuda')

GPT2LMHeadModel(
  (transformer): GPT2Model(
    (wte): Embedding(50000, 768)
    (wpe): Embedding(1024, 768)
    (drop): Dropout(p=0.1, inplace=False)
    (h): ModuleList(
      (0): GPT2Block(
        (ln_1): LayerNorm((768,), eps=1e-05, elementwise_affine=True)
        (attn): GPT2Attention(
          (c_attn): Conv1D()
          (c_proj): Conv1D()
          (attn_dropout): Dropout(p=0.1, inplace=False)
          (resid_dropout): Dropout(p=0.1, inplace=False)
        )
        (ln_2): LayerNorm((768,), eps=1e-05, elementwise_affine=True)
        (mlp): GPT2MLP(
          (c_fc): Conv1D()
          (c_proj): Conv1D()
          (act): NewGELUActivation()
          (dropout): Dropout(p=0.1, inplace=False)
        )
      )
      (1): GPT2Block(
        (ln_1): LayerNorm((768,), eps=1e-05, elementwise_affine=True)
        (attn): GPT2Attention(
          (c_attn): Conv1D()
          (c_proj): Conv1D()
          (attn_dropout): Dropout(p=0.1, inplace=False)
          (resid_dropout): Dro

### **Greedy Search**

Greedy search는 다음 단어를 선택할 때, 가장 높은 확률을 가진 단어를 선택하는 단순한 방법입니다.

$w_t = argmax_{w}P(w | w_{1:t-1})$ at each timestep $t$. 

다음 그림은 greedy search를 나타낸 것 입니다.

![Greedy Search](https://raw.githubusercontent.com/patrickvonplaten/scientific_images/master/greedy_search.png)


알고리즘은 $\text{"The"}$에서 시작하여 가장 높은 확률을 가진 $\text{"nice"}$ 등을 선택하는 탐욕스러운(Greedy) 방법입니다. 따라서 최종적으로 생성 된 word sequence는 $\text{"The", "nice", "woman"}$이고 전체 확률은 $0.5 \times 0.4 = 0.2$ 입니다.

`Transformers` greedy search를 사용해봅시다.

In [33]:
# encode context the generation is conditioned on
def tokenizing(text):
    return torch.tensor(tokenizer.encode(text, add_special_tokens=False).ids).unsqueeze(0).to('cuda')

input_ids = tokenizing("자연어 처리는 어렵지만 재미있는 분야다.")

# generate text until the output length (which includes the context length) reaches 100
# 생성 모델은 generate 함수를 통해 다음 token을 생성해낼 수 있습니다.
# 그냥 넣어주면 자동으로 greedy search를 시작.
greedy_output = model.generate(input_ids, max_length=100)

print("Output:\n" + 100 * '-')
print(tokenizer.decode(greedy_output.tolist()[0], skip_special_tokens=True))


Output:
----------------------------------------------------------------------------------------------------
자연어 처리는 어렵지만 재미있는 분야다.</s><s> 이 같은 사실은 지난 4월 말 한 인터넷 커뮤니티 게시판에 ‘이모(이모)가 ‘이모’라는 이름으로 올린 글의 일부다.</s><s> 이 글은 ‘이모’라는 이름으로 ‘이모’라는 이름으로 ‘이모’라는 이름으로 글을 올렸다.</s><s> 이 글에는 ‘이모’라는 이름으로 ‘이모’라는 이름으로 ‘이모’라는 이름으로 ‘이모’라는 이름으로 글을 올렸다.</s>


GPT2를 사용해 짧은 텍스트를 생성했습니다.

생성된 단어들의 문맥은 합리적이지만, 모델이 반복된 단어들을 생성합니다. 

이러한 현상은 일반적인 언어 생성 모델에서 나타나는 공통된 문제인데, 특히 Greedy Search와 Beam Search에서 그러한 현상이 더욱 두드러지게 나타납니다.

Greedy Search의 주요 단점은 그림에서 볼 수 있듯이 낮은 확률 단어 이후에 나올 수 있는 더 높은 확률의 단어를 놓친다는 점입니다. 

예를 들어 단어 $\text{has}$는 0.9로 높은 확률을 갖지만 첫번째 단어 후보 중 두번째로 높은 conditional probability를 갖는 $\text{dog}$ 이후에 숨어 있는 형태입니다. 따라서 Greedy Search는 $\text{"The"}, \text{"dog"}, \text{"has"}$ 라는 word sequence를 놓치게 됩니다.

### **Beam search**

Beam search는 각 time step에서 가장 확률이 높은 hypothesis의 `num_beams`를 유지하고 전체 확률이 가장 높은 hypothesis를 선택하는 방법입니다. 즉, 해당 시점에서 유망한 빔의 개수만큼(num_beams) 골라서 진행하는 방식으로 높은 확률을 가지고 있지만 숨어있는 word sequence를 놓칠 위험을 줄입니다.다음 그림은 `num_beams=2`로 설정한 Beam search의 예시입니다:

![Beam search](https://raw.githubusercontent.com/patrickvonplaten/scientific_images/master/beam_search.png)


Time step $1$ : 가장 가능성이 높은 hypothesis인 $\text{"The", "nice"}$ 외에도 beam search는 두번째로 가능성이 높은 $\text{"The", "dog"}$를 추적합니다. 

Time step $2$ : beam search는 $0.2$의 가능성을 가진  $\text{"The", "nice", "woman"}$보다 $0.36$의 가능성을 가진 $\text{"The", "dog", "has"}$가 확률이 더 높다는 것을 찾습니다. 

이 방법은 우리의 toy example에서 가장 가능성이 높은 word sequence를 찾아냈습니다.

Beam search는 항상 Greedy search보다 높은 확률의 결과 sequence를 찾는 것이 가능하지만, 이게 가장 가능성이 높은 결과라고는 보장할 수 없습니다.

`transformers`에서 beam search를 사용하는 방법을 살펴 봅시다. 우리는 `num_beams > 1`, `early_stopping=True` 으로 설정하여 모든 beam hypothesis가 eos토큰에 닿으면 생성을 마치도록 합니다.

In [34]:
# activate beam search and early_stopping
beam_output = model.generate(
    input_ids,  
    max_length=100, 
    num_beams=5, 
    early_stopping=True
)

print("Output:\n" + 100 * '-')
print(tokenizer.decode(beam_output.tolist()[0], skip_special_tokens=True))

Output:
----------------------------------------------------------------------------------------------------
자연어 처리는 어렵지만 재미있는 분야다.</s><s> 그는 이어 “지난 5년간 우리 경제는 저성장, 저성장에 직면해 왔다”며 “저성장·저금리·고령화·고령화 등 3저(低)가 우리 경제를 위협하는 가장 큰 원인”이라고 지적했다.</s><s> 그는 “저성장·저금리·고령화라는 3저 현상이 우리 경제를 위협하는 가장 큰 원인”이라며 “저성장·저금리·고령화라는 3저 현상이 우리 경제를 위협하는 가장 큰 원인”이라고


결과는 더 유창하게 보이지만 여전히 동일한 word sequence를 반복하는 문제를 포함합니다. 

단순한 해결법은 [Paulus et al. (2017)](https://arxiv.org/abs/1705.04304)와 [Klein et al. (2017)](https://arxiv.org/abs/1701.02810)의 논문에서 제안 된 n-grams 페널티를 도입하는 것입니다. 가장 일반적인 n-grams 페널티는 이미 나타난 n-gram에 대해 다음 단어로 생성 될 확률을 0으로 설정하여 두번 나타나지 않도록 하는 방법입니다. 

`no_repeat_ngram_size=2`를 설정해 2-gram이 두번 나타나는 것을 막을 수 있습니다.

In [36]:
# set no_repeat_ngram_size to 2
beam_output = model.generate(
    input_ids, 
    max_length=100, 
    num_beams=5, 
    no_repeat_ngram_size=2, 
    early_stopping=True
)

print("Output:\n" + 100 * '-')
print(tokenizer.decode(beam_output.tolist()[0], skip_special_tokens=True))

Output:
----------------------------------------------------------------------------------------------------
자연어 처리는 어렵지만 재미있는 분야다.</s><s> 한편, 이날 방송에서는 ‘남자가 사랑할 때’의 신세경과 채정안, 연우진, 김성오, 송승헌, 윤승아, 이성민, 채상우, 이재룡, 최진혁, 오영실 등이 출연해 화려한 입담을 과시하며 시청자들의 눈길을 끌었다. tvN '꽃보다 할배'는 평균 연령 76세의 대한민국 대표 청춘남녀가 배낭여행의 메카 유럽으로 떠나는 리얼리티 예능 프로그램이다.


더이상 반복이 나타나지 않는 것을 볼 수 있습니다.

하지만, n-gram 페널티는 신중하게 사용되어야 합니다. 예를 들어, city New York에 대해 생성된 기사는 n-gram을 사용하지 않는 것이 좋습니다. 2-gram을 사용하게 될 경우 시의 이름이 전체 텍스트에서 한 번만 나타나기 때문입니다.

Beam search의 또 다른 중요한 특징은 생성된 Top beam을 비교하여 목적에 가장 적합한 Beam을 선택할 수 있다는 것입니다.

`Transformers`에서 우리는 `num_return_sequences`를 top-n개의 높은 scoring을 가진 beam을 return할 것인지 설정 할 수 있습니다.

단, num_return_sequences는 num_beams보다 같거나 작아야합니다.

In [40]:
# set return_num_sequences > 1
beam_outputs = model.generate(
    input_ids, 
    max_length=50, 
    num_beams=5, 
    no_repeat_ngram_size=2, 
    num_return_sequences=5, 
    early_stopping=True
)

# now we have 3 output sequences
print("Output:\n" + 100 * '-')
for i, beam_output in enumerate(beam_outputs):
  print("{}: {}".format(i, tokenizer.decode(beam_output.tolist(), skip_special_tokens=True)))

Output:
----------------------------------------------------------------------------------------------------
0: 자연어 처리는 어렵지만 재미있는 분야다.</s><s> 한편 이날 방송에서는 ‘짝’ 모태솔로 특집이 전파를 탄 가운데, 남자 1호와 여자 2호는 애정촌에 입소하는 모습이 전파를 탔다. c SBS '짝' 방송캡처</s>
1: 자연어 처리는 어렵지만 재미있는 분야다.</s><s> 한편 이날 방송에서는 ‘짝’ 모태솔로 특집이 전파를 탄 가운데, 남자 1호와 여자 2호는 애정촌에 입소하는 모습이 전파를 탔다. c SBS '짝' 방송화면 캡처</s>
2: 자연어 처리는 어렵지만 재미있는 분야다.</s><s> 한편 이날 방송에서는 ‘짝’ 모태솔로 특집이 전파를 탄 가운데, 남자 1호와 여자 2호는 애정촌에 입소하는 모습이 전파를 탔다. c SBS '짝' 방송화면 캡쳐</s>
3: 자연어 처리는 어렵지만 재미있는 분야다.</s><s> 한편 이날 방송에서는 ‘짝’ 모태솔로 특집이 전파를 탄 가운데, 남자 1호와 여자 2호는 애정촌에 입소하는 모습이 전파를 탔다. c SBS '짝' 방송캡처,
4: 자연어 처리는 어렵지만 재미있는 분야다.</s><s> 한편 이날 방송에서는 ‘짝’ 모태솔로 특집이 전파를 탄 가운데, 남자 1호와 여자 2호는 애정촌에 입소하는 모습이 전파를 탔다. c SBS '짝' 방송캡처 방송


위에서 볼 수 있듯이 Top 5의 Beam hypothesis는 서로 약간만 다를 뿐이며 5개만 사용했을 경우 별로 놀랄만한 결과는 아닙니다.

Open-ended generation에서, beam search가 최선의 선택이 아닐 수 있는 몇가지 이유가 제시 되었습니다.

- Beam search는 Machine translation 또는 Text summarization처럼 원하는 문장 생성 길이가 예측 가능한 task에서는 잘 작동 될 수 있습니다. 하지만 Dialog 또는 Story generation task처럼 출력 길이가 크게 달라질 수 있는 open-ended generation에서는 원활하게 작동하지 않습니다 - see [Murray et al. (2018)](https://arxiv.org/abs/1808.10006) and [Yang et al. (2018)](https://arxiv.org/abs/1808.09582). 

- Beam search는 반복 생성 문제에 취약합니다. 특히 Story generation task에서 n-gram 또는 기타 페널티를 통해 문장을 제어하는 것이 어렵습니다. *반복이 없는 구문* 과 *n-gram*의 반복 주기 사이에서 적당한 trade-off를 찾기 위해 많은 fine-tuning이 필요하기 때문입니다.

- [Ari Holtzman et al. (2019)](https://arxiv.org/abs/1904.09751)는 고품질 인간 언어는 높은 확률의 다음 단어 분포를 따르지 않는다고 주장합니다. 쉽게 말하자면 인간 입장에서 우리는 지루하거나 예측 가능한 문장이 아니라 우리를 놀라게 할 수 있는 문장 생성을 원한다고 합니다. 저자는 모델이 human text vs. beam seach를 graph로 보여주면서 beam search text가 그다지 놀랍지 않은 문장임을 보여주었습니다.

![alt text](https://blog.fastforwardlabs.com/images/2019/05/Screen_Shot_2019_05_08_at_3_06_36_PM-1557342561886.png)


So let's stop being boring and introduce some randomness 🤪.

### **Sampling**

가장 기본적인 형태의 sampling은 조건부 확률 분포에 따라 다음 단어 $w_t$를 무작위로 선택하는 것을 의미합니다.

$$w_t \sim P(w|w_{1:t-1})$$

아래 사진은 sampling 할 때, 언어 생성을 시각화한 형태입니다.

![vanilla_sampling](https://raw.githubusercontent.com/patrickvonplaten/scientific_images/master/sampling_search.png)

Sampling을 이용한 언어 생성은 더이상 *deterministic*하지 않습니다. 

단어 $\text{"car"}$ 는 contional probability distribution $P(w | \text{"The"})$에서 샘플링 되고, $P(w | \text{"The"}, \text{"car"})$는 $\text{"drives"}$를 샘플링 합니다.


`Transformers`에서 우리는 `do_sample=True` 를 설정하고 `top_k=0`로 두어 *Top-K* 를 비활성화합니다.(뒤에서 다룰 것)



In [50]:
# torch.manual_seed(53) #원한다면 random seed를 지정 할 수 있습니다.

# activate sampling and deactivate top_k by setting top_k sampling to 0

sample_output = model.generate(
    input_ids, 
    do_sample=True, 
    max_length=50, 
    top_k=0
)

print("Output:\n" + 100 * '-')
print(tokenizer.decode(sample_output.tolist()[0], skip_special_tokens=True))

Output:
----------------------------------------------------------------------------------------------------
자연어 처리는 어렵지만 재미있는 분야다.</s><s> 171년 순천 달동에 지모 60 만 원 벌던 아낙의 유산은 청구했다.</s><s> 군정과정은 아름다웠다.</s><s> 옛날 노인들의 감정에 숨소리도 적어져 무지개


괜찮아 보이지만 일관성이 없습니다. 이것은 sampling word sequences를 할때 모델이 일관성없이 횡설수설하는 문장을 발생시키는 큰 문제입니다. ([Ari Holtzman et al. (2019)](https://arxiv.org/abs/1904.09751)).


한가지 트릭은 [softmax](https://en.wikipedia.org/wiki/Softmax_function#Smooth_arg_max) 의 이른바 `temperature`를 낮추어 분포 $P(w|w_{1:t-1})$를 더 선명하게 만드는 것입니다. 높은 확률의 단어의 가능성은 증가시키고 낮은 확률의 단어 가능성은 감소시키는 효과가 있습니다. 

temperature를 적용한다면 다음과 같은 그림을 보일 수 있습니다.


![top_p_sampling](https://github.com/patrickvonplaten/scientific_images/blob/master/sampling_search_with_temp.png?raw=true)

step=1의 다음 단어 분포는 더욱 선명해졌기 때문에 단어 $\text{"car"}$를 선택할 확률이 거의 없습니다.


`temperature=0.7`를 설정하여 라이브러리에서 분포를 어떻게 변화시키는지 알아보겠습니다.

In [51]:
# use temperature to decrease the sensitivity to low probability candidates
sample_output = model.generate(
    input_ids, 
    do_sample=True, 
    max_length=100, 
    top_k=0, 
    temperature=0.7
)

print("Output:\n" + 100 * '-')
print(tokenizer.decode(sample_output.tolist()[0], skip_special_tokens=True))

Output:
----------------------------------------------------------------------------------------------------
자연어 처리는 어렵지만 재미있는 분야다.</s><s> [사진]김연아,'카리브해컵 국제대회'</s><s> 이번 대회에는 스즈키 아키히사, 요코타 메구미, 스즈키 아키히로, 후루하시 다이스케, 후쿠하라 미네오, 후쿠이 마사미, 후쿠이 유이치로, 후지타 아야코, 이치로, 무라카미 가나오, 오오시마 나오미 등 6명의 선수가 출전한다.</s><s> 지난 시즌 시니어 무대에서 5차례 우승을 차지한 '


이제 이상한 n-gram이 적고 출력 문장이 조금 더 일관성 있게 생성됩니다. temperature를 적용하면 분포가 덜 random하지만 `temperature` $ \to 0$로 설정한다면 temperature가 적용된 sampling은 greedy decoding과 같아지며 이전과 동일한 문제를 겪게 됩니다.

### **Top-K Sampling**

[Fan et. al (2018)](https://arxiv.org/pdf/1805.04833.pdf) 은 간단하지만 매우 강력한 샘플링 방식을 도입했습니다. . *Top-K* sampling에서 높은 가능성을 가진 k개를 제외한 단어는 필터링 되고 k 이후의 probablity mass는 재분배됩니다. GPT2는 Top-K Sampling방식을 채택했는데, 이것이 Story Gerneration Task에 성공한 이유중 하나입니다.

Top-K Sampling을 더 잘 설명하기 위해 위의 예제에서 두 Sampling step에 사용되는 범위를 3단어에서 10단어로 확장합니다.

![top_k_sampling](https://raw.githubusercontent.com/patrickvonplaten/scientific_images/master/top_k_sampling.png)


K=6을 설정하면 두 Sampling steps에서 Sampling pool을 6개의 단어로 제한합니다.

$\text{"The"}$ 다음으로 나올 수 있는 6개를 선택하고 $\text{"The:, "car"}$ 뒤에 올 수 있는 6개를 선택합니다. 

첫 step에서 전체 확률 질량의 2/3인 0.68정도에 해당하는 단어에서 디코딩되지만, 두번째 step에서 거의 모든 확률질량인 0.99에서 디코딩합니다.

그럼에도 불구하고 그것이 두번째 sampling step에서 $\text{"not", "the", "small", "told"}$ 와 같은 다소 이상한 후보들을 성공적으로 제거가 가능했습니다.


In [53]:
# set top_k to 50
sample_output = model.generate(
    input_ids, 
    do_sample=True, 
    max_length=50, 
    top_k=50
)

print("Output:\n" + 100 * '-')
print(tokenizer.decode(sample_output.tolist()[0], skip_special_tokens=True))

Output:
----------------------------------------------------------------------------------------------------
자연어 처리는 어렵지만 재미있는 분야다.</s><s> 두 후보 간 ‘새정치공동선언’은 이번 주 중으로 실무팀이 발표될 것으로 예상된다.</s><s> 앞서 두 후보는 ‘새정치 선언문 부속자료’를 문 후보 측이 아직 내놓지 않은 점을 들어


지금까지 봐온 decoding methods 중 가장 사람다워 보이는 텍스트를 생성했습니다. Top-K Sampling의 한가지 우려되는 점은 다음 단어 확률 분포 $P(w|w_{1:t-1})$에서 필터링 된 단어 수를 동적으로 조정하지 않는 점입니다. 예를들어 위 그림에서 첫번째 step의 단어들은 전반적으로 평평한 분포에서 sampling되지만, 두번째 step의 어떤 단어들은 매우 sharp한 분포에서 sampling 될 수 있기 때문에 문제가 될 수 있습니다.

Step $t=1$에서 Top-K은 꽤 합리적인 후보처럼 보이는 $\text{"people", "big", "house", "cat"}$을 샘플링하는 가능성을 배제합니다. 반면에 Step $t=2$에서 단어 Sample pool에 단어 $\text{"down", "a"}$와 같은 부적절한 단어를 포함합니다. 그러므로 Sample pool이 고정크기 K로 제한되면 모형이 Sharp한 분포에서 횡설수설한 단어를 고를 위험이있고 평평한 분포에서는 문장의 창의성이 제한될 수 있습니다. ([Ari Holtzman et al. (2019)](https://arxiv.org/abs/1904.09751))


### **Top-p (nucleus) sampling**

*Top-p* sampling은 가장 가능성이 높은 K개에서만 sample을 추출하는 것이 아니라 누적 확률이 확률 p를 초과하는 최소한의 단어 집합에서 sample을 추출합니다.

그 후 확률 질량이 단어 집합 사이에 재분배 됩니다. 이 방법은 다음 단어의 확률 분포에 따라 단어 집합의 크기가 동적으로 증가하거나 감소할 수 있습니다.


![top_p_sampling](https://github.com/patrickvonplaten/scientific_images/blob/master/top_p_sampling.png?raw=true)

$p=0.92$로 설정할 경우, *Top-p* 는 $p=92\%$를 초과할 수 있는 최소 단어 수를 선택합니다. 첫번째 스텝에서 가장 가능성 높은 단어 9개가 포함된 반면, 두번째 스텝에서는 top 3개만 선택해도 $p=92\%$를 초과하게 됩니다. 즉, 높은 확률의 단어에만 sampling을 하고 그렇지 않은 단어는 sampling할 확률이 매우 적어집니다.

`Transformers`에서 `top_p ∈ (0,1)`을 설정하여 *Top-p* sampling을 설정할 수 있습니다.

In [55]:
# deactivate top_k sampling and sample only from 92% most likely words
sample_output = model.generate(
    input_ids, 
    do_sample=True, 
    max_length=50, 
    top_p=0.92, 
    top_k=0
)

print("Output:\n" + 100 * '-')
print(tokenizer.decode(sample_output.tolist()[0], skip_special_tokens=True))

Output:
----------------------------------------------------------------------------------------------------
자연어 처리는 어렵지만 재미있는 분야다.</s><s> 또 모든 장비가 언제든 운영이 가능하고 보안 컨트롤러에 관심이 있는 사용자에게도 활용도가 높다.</s><s> 회사가 현재 미리 보유하고 있는 모든 장비가 해킹에 노출되면 관리자나 운영체제 관리자는 감염돼도 원격으로


이론적으로는 *Top-p*가 *Top-K*보다 성능이 좋아 보이지만, 두 방법 모두 실제로 잘 작동합니다. 

*Top-p*와 *Top-K*는 함께 사용될 수 있는데, 이는 매우 낮은 순위의 단어를 피하면서도 일부 동적 선택을 허용할 수 있습니다.

독립적으로 sampling된 multiple outputs를 얻기 위해 `num_return_sequences > 1`로 설정해봅시다.

In [56]:
# set top_k = 50 and set top_p = 0.95 and num_return_sequences = 3
sample_outputs = model.generate(
    input_ids,
    do_sample=True, 
    max_length=50, 
    top_k=50, 
    top_p=0.95, 
    num_return_sequences=3
)

print("Output:\n" + 100 * '-')
for i, sample_output in enumerate(sample_outputs):
  print("{}: {}".format(i, tokenizer.decode(sample_output.tolist(), skip_special_tokens=True)))

Output:
----------------------------------------------------------------------------------------------------
0: 자연어 처리는 어렵지만 재미있는 분야다.</s><s> 문 의원은 "당연히 국민의 선택이다.</s><s> 그렇다면 민주당이 해야 할 일은 분명히 있다"면서 "민주당은 민생을 최우선하고 민생이 회복되지 않으면 안 된다.</s><s> 민주당의 진정한 책무는
1: 자연어 처리는 어렵지만 재미있는 분야다.</s><s> 하지만 지난해 3월 한국갤럽에서 실시한 정례 여론조사 결과를 보면, 박근혜 대통령의 직무수행이 ‘잘 하고 있다’는 응답비율(복수응답 가능)은 27.5%, ‘잘못하고 있다’
2: 자연어 처리는 어렵지만 재미있는 분야다.</s><s> 박 전 대통령은 지난 8일 박 전 대통령의 육사 후배가 영관급 장교 40명에게 골프채로 가격방아 는 사건에 연루된 뒤 두 달 동안 연락이 끊긴 상태다.</s>


Cool, now you should have all the tools to let your model write your stories with `transformers`!

### **Conclusion**

*ad-hoc* decoding methods에 따르면 open-ended generation에서 *top-p* and *top-K*는 *greedy*, *beam search*보다 더욱 유창한 text를 생성합니다.

하지만  [Welleck et al. (2020)](https://arxiv.org/abs/2002.02492)에 따르면 *top-K*와 *top-p*는 여전히 반복되는 word sequences를 생성하는 문제(*greedy*, *beam search*와 같이)를 겪고 있다고 합니다.

[Welleck et al. (2019)](https://arxiv.org/pdf/1908.04319.pdf)는 human evalutation 관점에서, model training 목적 함수를 잘 조정하면, *beam search*가 *Top-p*보다 유창한 text를 생성한다고 주장합니다.

Open-ended language generation은 빠르게 발전하는 분야이며, 무엇이 적합하다고 단정할 수 없으므로 특정 사용 사례에서 가장 잘 작동하는 방법이 무엇인지 고려해야합니다.

### **Appendix**

There are a couple of additional parameters for the `generate` method that were not mentioned above. We will explain them here briefly!

- `min_length` can be used to force the model to not produce an EOS token (= not finish the sentence) before `min_length` is reached. This is used quite frequently in summarization, but can be useful in general if the user wants to have longer outputs.
- `repetition_penalty` can be used to penalize words that were already generated or belong to the context. It was first introduced by [Kesker et al. (2019)](https://arxiv.org/abs/1909.05858) and is also used in the training objective in [Welleck et al. (2019)](https://arxiv.org/pdf/1908.04319.pdf). It can be quite effective at preventing repetitions, but seems to be very sensitive to different models and use cases, *e.g.* see this [discussion](https://github.com/huggingface/transformers/pull/2303) on Github.

- `attention_mask` can be used to mask padded tokens
- `pad_token_id`, `bos_token_id`, `eos_token_id`: If the model does not have those tokens by default, the user can manually choose other token ids to represent them.

For more information please also look into the `generate` function [docstring](https://huggingface.co/transformers/main_classes/model.html?highlight=generate#transformers.TFPreTrainedModel.generate).