#### Byte-Pait Encoding (BPE)
##### Baixando as dependências

In [2]:
#!pip install transformers

##### Baixando córpus do Wikepedia para treinar o tokenizador

In [3]:
import urllib.request
import zipfile

# Define o URL do arquivo a ser baixado
url = 'https://s3.amazonaws.com/research.metamind.io/wikitext/wikitext-103-raw-v1.zip'

# Define o nome do arquivo local
filename = 'wikitext-103-raw-v1.zip'

# Faz o download do arquivo usando urllib
urllib.request.urlretrieve(url, filename)

# Abre o arquivo ZIP e extrai o conteúdo
with zipfile.ZipFile(filename, 'r') as zip_ref:
    zip_ref.extractall('.')

##### iniciando o tokoneziador

In [4]:
from tokenizers import Tokenizer
from tokenizers.models import BPE

tokenizer = Tokenizer(BPE(unnk_token="[UNK]"))

##### iniciando o mòdulo de Treinamento
##### Define-se um vocabulário desejado com 30000 símbolos

In [5]:
from tokenizers.trainers import BpeTrainer

trainer = BpeTrainer(special_tokens=["[UNK]", "[CLS]", "[SEP]", "[PAD]", "[MASK]"],
                    vocab_size = 30000,
                     min_frequency=0,
                     continuing_subword_prefix="##"
                    )

##### Definindo pré-tokenizador por espaço

In [6]:
from tokenizers.pre_tokenizers import Whitespace

tokenizer.pre_tokenizer = Whitespace()

files = [f"wikitext-103-raw/wiki.{split}.raw" for split in ["test", "train", "valid"]]
tokenizer.train(files, trainer)

##### Salvando o Tokenizador

In [7]:
tokenizer.save("tokenizer-wiki.json")

##### Carregando o Tokenizador

In [8]:
tokenizer = Tokenizer.from_file("tokenizer-wiki.json")

##### Tokenizando textos

In [9]:
texto = "No início de julho, em um calor sufocante, às quatro horas da tarde, um jovem saiu do quartinho alugado de uma casa de dois andares no beco de S. e caminhou lentamente, como se estivesse hesitando, em direção à ponte de K. Ele era um jovem de cerca de vinte e cinco anos, magro e baixo, de cabelos castanhos, rosto pálido e que parecia doente. Vestia uma jaqueta de verão e um boné de palha velho, e carregava uma mochila grande nas costas."
output = tokenizer.encode(texto)
output.tokens

['No',
 'in',
 '##í',
 '##c',
 '##io',
 'de',
 'j',
 '##ul',
 '##ho',
 ',',
 'em',
 'u',
 '##m',
 'cal',
 '##or',
 'su',
 '##f',
 '##oc',
 '##ante',
 ',',
 'à',
 '##s',
 'qu',
 '##at',
 '##ro',
 'hor',
 '##as',
 'da',
 't',
 '##ard',
 '##e',
 ',',
 'u',
 '##m',
 'j',
 '##ov',
 '##em',
 's',
 '##ai',
 '##u',
 'do',
 'qu',
 '##art',
 '##in',
 '##ho',
 'al',
 '##ug',
 '##ado',
 'de',
 'u',
 '##ma',
 'cas',
 '##a',
 'de',
 'do',
 '##is',
 'and',
 '##ares',
 'no',
 'bec',
 '##o',
 'de',
 'S',
 '.',
 'e',
 'c',
 '##amin',
 '##hou',
 'lent',
 '##ament',
 '##e',
 ',',
 'com',
 '##o',
 'se',
 'est',
 '##iv',
 '##ess',
 '##e',
 'hes',
 '##it',
 '##ando',
 ',',
 'em',
 'dire',
 '##ç',
 '##ão',
 'à',
 'p',
 '##on',
 '##te',
 'de',
 'K',
 '.',
 'Ele',
 'era',
 'u',
 '##m',
 'j',
 '##ov',
 '##em',
 'de',
 'cer',
 '##ca',
 'de',
 'vin',
 '##te',
 'e',
 'c',
 '##inc',
 '##o',
 'an',
 '##os',
 ',',
 'mag',
 '##ro',
 'e',
 'ba',
 '##ix',
 '##o',
 ',',
 'de',
 'cab',
 '##el',
 '##os',
 'cast',
 '##an',
 