# Tokenizadores de rostos abra√ßados

A biblioteca Hugging Face `tokenizers` fornece uma implementa√ß√£o dos tokenizadores mais usados atualmente, com foco no desempenho e na versatilidade. Na postagem [tokens](https://maximofn.com/tokens/), j√° vimos a import√¢ncia dos tokens no processamento de texto, pois os computadores n√£o entendem palavras, mas n√∫meros. Portanto, √© necess√°rio converter palavras em n√∫meros para que os modelos de linguagem possam process√°-las.

Este caderno foi traduzido automaticamente para torn√°-lo acess√≠vel a mais pessoas, por favor me avise se voc√™ vir algum erro de digita√ß√£o..

## Instala√ß√£o

Para instalar o `tokenizers` com o pip:

````bash
pip install tokenizers
```

para instalar o `tokenizers` com o conda:

````bash
conda install conda-forge::tokenizers
```

## O pipeline de tokeniza√ß√£o

Para tokenizar uma sequ√™ncia, √© usado o `Tokenizer.encode`, que executa as seguintes etapas:

 * Padroniza√ß√£o
 * pr√©-tokeniza√ß√£o
 * Tokeniza√ß√£o
 * P√≥s-tokeniza√ß√£o

Vamos dar uma olhada em cada um deles

Para esta postagem, usaremos o conjunto de dados [wikitext-103] (https://blog.einstein.ai/the-wikitext-long-term-dependency-language-modeling-dataset/)

In [2]:
!wget https://dax-cdn.cdn.appdomain.cloud/dax-wikitext-103/1.0.1/wikitext-103.tar.gz

--2024-02-26 08:14:11--  https://dax-cdn.cdn.appdomain.cloud/dax-wikitext-103/1.0.1/wikitext-103.tar.gz
Resolving dax-cdn.cdn.appdomain.cloud (dax-cdn.cdn.appdomain.cloud)... 23.200.169.125
Connecting to dax-cdn.cdn.appdomain.cloud (dax-cdn.cdn.appdomain.cloud)|23.200.169.125|:443... connected.
HTTP request sent, awaiting response... 

200 OK
Length: 189603606 (181M) [application/x-gzip]
Saving to: ‚Äòwikitext-103.tar.gz‚Äô


2024-02-26 08:14:42 (5,95 MB/s) - ‚Äòwikitext-103.tar.gz‚Äô saved [189603606/189603606]



In [3]:
!tar -xvzf wikitext-103.tar.gz

wikitext-103/
wikitext-103/wiki.test.tokens
wikitext-103/wiki.valid.tokens
wikitext-103/README.txt
wikitext-103/LICENSE.txt
wikitext-103/wiki.train.tokens


In [4]:
!rm wikitext-103.tar.gz

### Padroniza√ß√£o

As normaliza√ß√µes s√£o opera√ß√µes aplicadas ao texto antes da tokeniza√ß√£o, como a remo√ß√£o de espa√ßos em branco, a convers√£o para letras min√∫sculas, a remo√ß√£o de caracteres especiais etc. As seguintes normaliza√ß√µes s√£o implementadas no Hugging Face:

|Normalizaci√≥n|Descripci√≥n|Ejemplo|
|---|---|---|
|NFD (Normalization for D)|Los caracteres se descomponen por equivalencia can√≥nica|`√¢` (U+00E2) se descompone en `a` (U+0061) + `^` (U+0302)|
|NFKD (Normalization Form KD)|Los caracteres se descomponen por compatibilidad|`Ô¨Å` (U+FB01) se descompone en `f` (U+0066) + `i` (U+0069)|
|NFC (Normalization Form C)|Los caracteres se descomponen y luego se recomponen por equivalencia can√≥nica|`√¢` (U+00E2) se descompone en `a` (U+0061) + `^` (U+0302) y luego se recompone en `√¢` (U+00E2)|
|NFKC (Normalization Form KC)|Los caracteres se descomponen por compatibilidad y luego se recomponen por equivalencia can√≥nica|`Ô¨Å` (U+FB01) se descompone en `f` (U+0066) + `i` (U+0069) y luego se recompone en `f` (U+0066) + `i` (U+0069)|
|Lowercase|Convierte el texto a min√∫sculas|`Hello World` se convierte en `hello world`|
|Strip|Elimina todos los espacios en blanco de los lados especificados (izquierdo, derecho o ambos) del texto|`  Hello World  ` se convierte en `Hello World`|
|StripAccents|Elimina todos los s√≠mbolos de acento en unicode (se utilizar√° con NFD por coherencia)|`√°` (U+00E1) se convierte en `a` (U+0061)|
|Replace|Sustituye una cadena personalizada o [regex](https://maximofn.com/regular-expressions/) y la cambia por el contenido dado|`Hello World` se convierte en `Hello Universe`|
|BertNormalizer|Proporciona una implementaci√≥n del Normalizador utilizado en el BERT original. Las opciones que se pueden configurar son `clean_text`, `handle_chinese_chars`, `strip_accents` y `lowercase`|`Hello World` se convierte en `hello world`|

Vamos criar um normalizador para ver como ele funciona.

In [1]:
from tokenizers import normalizers

bert_normalizer = normalizers.BertNormalizer()

input_text = "H√©ll√≤ h√¥w are √º?"
normalized_text = bert_normalizer.normalize_str(input_text)
normalized_text

'hello how are u?'

Para usar v√°rios normalizadores, podemos usar o m√©todo `Sequence`.

In [2]:
custom_normalizer = normalizers.Sequence([normalizers.NFKC(), normalizers.BertNormalizer()])

normalized_text = custom_normalizer.normalize_str(input_text)
normalized_text

'hello how are u?'

Para modificar o normalizador de um tokenizador

In [3]:
import tokenizers

tokenizer = tokenizers.BertWordPieceTokenizer() # or any other tokenizer

In [4]:
tokenizer.normalizer = custom_normalizer

### Pr√©-tokeniza√ß√£o

Pretokeniza√ß√£o √© o ato de dividir o texto em objetos menores. O pretokenizador dividir√° o texto em "palavras" e os tokens finais ser√£o partes dessas palavras.

O PreTokenizer se encarrega de dividir a entrada de acordo com um conjunto de regras. Esse pr√©-processamento permite que voc√™ garanta que o tokenizador n√£o crie tokens em v√°rias "divis√µes". Por exemplo, se voc√™ n√£o quiser ter espa√ßos em branco em um token, poder√° ter um pr√©-tokenizador que divida as palavras em espa√ßos em branco.

Os seguintes pr√©-tokenizadores s√£o implementados no Hugging Face

|PreTokenizer|Descripci√≥n|Ejemplo|
|---|---|---|
|ByteLevel|Divide en espacios en blanco mientras reasigna todos los bytes a un conjunto de caracteres visibles. Esta t√©cnica fue introducida por OpenAI con GPT-2 y tiene algunas propiedades m√°s o menos buenas: Como mapea sobre bytes, un tokenizador que utilice esto s√≥lo requiere 256 caracteres como alfabeto inicial (el n√∫mero de valores que puede tener un byte), frente a los m√°s de 130.000 caracteres Unicode. Una consecuencia del punto anterior es que es absolutamente innecesario tener un token desconocido usando esto ya que podemos representar cualquier cosa con 256 tokens. Para caracteres no ascii, se vuelve completamente ilegible, ¬°pero funciona!|`Hello my friend, how are you?` se divide en `Hello`, `ƒ†my`, `ƒ†friend`, `,`, `ƒ†how`, `ƒ†are`, `ƒ†you`, `?`|
|Whitespace|Divide en l√≠mites de palabra usando la siguiente expresi√≥n regular: `\w+[^\w\s]+`. En mi post sobre [expresiones regulares](https://maximofn.com/regular-expressions/) puedes entender qu√© hace|`Hello there!` se divide en `Hello`, `there`, `!`|
|WhitespaceSplit|Se divide en cualquier car√°cter de espacio en blanco|`Hello there!` se divide en `Hello`, `there!`|
|Punctuation|Aislar√° todos los caracteres de puntuaci√≥n|`Hello?` se divide en `Hello`, `?`|
|Metaspace|Separa los espacios en blanco y los sustituye por un car√°cter especial "‚ñÅ" (U+2581)|`Hello there` se divide en `Hello`, `‚ñÅthere`|
|CharDelimiterSplit|Divisiones en un car√°cter determinado|Ejemplo con el caracter `x`: `Helloxthere` se divide en `Hello`, `there`|
|Digits|Divide los n√∫meros de cualquier otro car√°cter|`Hello123there` se divide en `Hello`, `123`, `there`|
|Split|Pretokenizador vers√°til que divide seg√∫n el patr√≥n y el comportamiento proporcionados. El patr√≥n se puede invertir si es necesario. El patr√≥n debe ser una cadena personalizada o una [regex](https://maximofn.com/regular-expressions/). El comportamiento debe ser `removed`, `isolated`, `merged_with_previous`, `merged_with_next`, `contiguous`. Para invertir se indica con un booleano|Ejemplo con pattern=`" "`, behavior=`isolated`, invert=`False`: `Hello, how are you?` se divide en `Hello,`, ` `, `how`, ` `, `are`, ` `, `you?`|

Vamos criar um pr√©-tokenizador para ver como ele funciona.

In [5]:
from tokenizers import pre_tokenizers

pre_tokenizer = pre_tokenizers.Digits(individual_digits=True)

input_text = "I paid $30 for the car"
pre_tokenized_text = pre_tokenizer.pre_tokenize_str(input_text)
pre_tokenized_text

[('I paid $', (0, 8)),
 ('3', (8, 9)),
 ('0', (9, 10)),
 (' for the car', (10, 22))]

Para usar v√°rios pr√©-tokenizadores, podemos usar o m√©todo `Sequence`.

In [6]:
custom_pre_tokenizer = pre_tokenizers.Sequence([pre_tokenizers.Whitespace(), pre_tokenizers.Digits(individual_digits=True)])

pre_tokenized_text = custom_pre_tokenizer.pre_tokenize_str(input_text)
pre_tokenized_text

[('I', (0, 1)),
 ('paid', (2, 6)),
 ('$', (7, 8)),
 ('3', (8, 9)),
 ('0', (9, 10)),
 ('for', (11, 14)),
 ('the', (15, 18)),
 ('car', (19, 22))]

Para modificar o pr√©-tokenizador de um tokenizador

In [7]:
tokenizer.pre_tokenizer = custom_pre_tokenizer

### Tokeniza√ß√£o

Depois que os textos de entrada tiverem sido normalizados e pr√©-tokenizados, o tokenizador aplica o modelo aos pr√©-tokens. Essa √© a parte do processo que precisa ser treinada no corpus (ou j√° foi treinada se for usado um tokenizador pr√©-treinado).

A fun√ß√£o do modelo √© dividir as "palavras" em tokens usando as regras que aprendeu. Ele tamb√©m √© respons√°vel por atribuir esses tokens √†s suas IDs correspondentes no vocabul√°rio do modelo.

O modelo tem um tamanho de vocabul√°rio, ou seja, tem um n√∫mero finito de tokens, portanto, precisa decompor as palavras e atribu√≠-las a um desses tokens.

Esse modelo √© passado quando o Tokenizer √© inicializado. Atualmente, a biblioteca ü§ó Tokenizers √© compat√≠vel:

|Modelo|Descripci√≥n|
|---|---|
|WordLevel|Este es el algoritmo "cl√°sico" de tokenizaci√≥n. Te permite simplemente asignar palabras a IDs sin nada sofisticado. Tiene la ventaja de ser muy f√°cil de usar y entender, pero requiere vocabularios extremadamente grandes para una buena cobertura. El uso de este modelo requiere el uso de un PreTokenizer. Este modelo no realiza ninguna elecci√≥n directamente, simplemente asigna tokens de entrada a IDs.|
|BPE (Byte Pair Encoding)|Uno de los algoritmos de tokenizaci√≥n de subpalabras m√°s populares. El Byte-Pair-Encoding funciona empezando con caracteres y fusionando los que se ven juntos con m√°s frecuencia, creando as√≠ nuevos tokens. A continuaci√≥n, trabaja de forma iterativa para construir nuevos tokens a partir de los pares m√°s frecuentes que ve en un corpus. BPE es capaz de construir palabras que nunca ha visto utilizando m√∫ltiples subpalabras y, por tanto, requiere vocabularios m√°s peque√±os, con menos posibilidades de tener palabras `unk` (desconocidas).|
|WordPiece|Se trata de un algoritmo de tokenizaci√≥n de subpalabras bastante similar a BPE, utilizado principalmente por Google en modelos como BERT. Utiliza un algoritmo codicioso que intenta construir primero palabras largas, dividi√©ndolas en varios tokens cuando no existen palabras completas en el vocabulario. A diferencia de BPE, que parte de los caracteres y construye tokens lo m√°s grandes posible. Utiliza el famoso prefijo ## para identificar los tokens que forman parte de una palabra (es decir, que no empiezan una palabra).|
|Unigram|Unigram es tambi√©n un algoritmo de tokenizaci√≥n de subpalabras, y funciona tratando de identificar el mejor conjunto de tokens de subpalabras para maximizar la probabilidad de una frase dada. Se diferencia de BPE en que no es un algoritmo determinista basado en un conjunto de reglas aplicadas secuencialmente. En su lugar, Unigram podr√° calcular m√∫ltiples formas de tokenizar, eligiendo la m√°s probable.|

Quando voc√™ cria um tokenizador, precisa passar a ele o modelo

In [11]:
from tokenizers import Tokenizer, models

tokenizer = Tokenizer(models.Unigram())

Passaremos o normalizador e o pr√©-tokenizador que criamos para ele.

In [12]:
tokenizer.normalizer = custom_normalizer
tokenizer.pre_tokenizer = custom_pre_tokenizer

Agora temos que treinar o modelo ou carregar um modelo pr√©-treinado. Neste caso, vamos treinar um modelo com o corpus que baixamos.

#### Treinamento de modelos

Para treinar o modelo, temos v√°rios tipos de "treinadores".

|Trainer|Descripci√≥n|
|---|---|
|WordLevelTrainer|Entrena un tokenizador WordLevel|
|BpeTrainer|Entrena un tokenizador BPE|
|WordPieceTrainer|Entrena un tokenizador WordPiece|
|UnigramTrainer|Entrena un tokenizador Unigram|

Quase todos os treinadores t√™m os mesmos par√¢metros, que s√£o:

 * vocab_size: o tamanho do vocabul√°rio final, incluindo todos os tokens e o alfabeto.
 * show_progress: Mostrar ou n√£o barras de progresso durante o treinamento
 * special_tokens: Uma lista de tokens especiais dos quais o modelo deve estar ciente.

Al√©m desses par√¢metros, cada treinador tem seus pr√≥prios par√¢metros; consulte a documenta√ß√£o [Trainers](https://huggingface.co/docs/tokenizers/api/trainers) para obter mais informa√ß√µes.

Para treinar, precisamos criar um `Trainer`. Como o modelo que criamos √© um `Unigram`, criaremos um `UnigramTrainer`.

In [27]:
from tokenizers.trainers import trainers

trainer = trainers.UnigramTrainer(
    vocab_size=20000,
    initial_alphabet=pre_tokenizers.ByteLevel.alphabet(),
    special_tokens=["<PAD>", "<BOS>", "<EOS>"],
)

Depois de criarmos o `Trainer`, h√° duas maneiras de entrar, usando o m√©todo `train`, que recebe uma lista de arquivos, ou usando o m√©todo `train_from_iterator`, que recebe um iterador.

##### Treinamento do modelo com o m√©todo `train`.

Primeiro, criamos uma lista de arquivos com o corpus

In [28]:
files = [f"wikitext-103/wiki.{split}.tokens" for split in ["test", "train", "valid"]]
files

['wikitext-103/wiki.test.tokens',
 'wikitext-103/wiki.train.tokens',
 'wikitext-103/wiki.valid.tokens']

E agora treinamos o modelo

In [29]:
tokenizer.train(files, trainer)





##### Treinamento do modelo com o m√©todo `train_from_iterator`.

Primeiro, criamos uma fun√ß√£o que retorna um iterador.

In [30]:
def iterator():
    for file in files:
        with open(file, "r") as f:
            for line in f:
                yield line

Agora, treinamos novamente o modelo

In [31]:
tokenizer.train_from_iterator(iterator(), trainer)





##### Treinamento do modelo com o m√©todo `train_from_iterator` a partir de um conjunto de dados Hugging Face

Se tiv√©ssemos baixado o conjunto de dados Hugging Face, poder√≠amos ter treinado o modelo diretamente do conjunto de dados.

In [32]:
import datasets

dataset = datasets.load_dataset("wikitext", "wikitext-103-raw-v1", split="train+test+validation")

Agora podemos criar um iterador

In [33]:
def batch_iterator(batch_size=1000):
    for i in range(0, len(dataset), batch_size):
        yield dataset[i : i + batch_size]["text"]

Treinamos novamente o modelo

In [34]:
tokenizer.train_from_iterator(batch_iterator(), trainer=trainer, length=len(dataset))





#### Salvando o modelo

Depois que o modelo tiver sido treinado, ele poder√° ser salvo para uso futuro. Para salvar o modelo, √© necess√°rio salv√°-lo em um arquivo `json`.

In [35]:
tokenizer.save("wikitext-103-tokenizer.json")

#### Carregando o modelo pr√©-treinado

Podemos carregar um modelo pr√©-treinado a partir de um `json` em vez de precisar trein√°-lo.

In [36]:
tokenizer.from_file("wikitext-103-tokenizer.json")

<tokenizers.Tokenizer at 0x7f1dd7784a30>

Tamb√©m podemos carregar um modelo pr√©-treinado dispon√≠vel no Hugging Face Hub.

In [38]:
tokenizer.from_pretrained('bert-base-uncased')

<tokenizers.Tokenizer at 0x7f1d64a75e30>

### P√≥s-processamento

Talvez queiramos que nosso tokenizador adicione automaticamente tokens especiais, como `[CLS]` ou `[SEP]`.

Os seguintes p√≥s-processadores s√£o implementados no Hugging Face

|PostProcesador|Descripci√≥n|Ejemplo|
|---|---|---|
|BertProcessing|Este post-procesador se encarga de a√±adir los tokens especiales que necesita un modelo Bert (`SEP` y `CLS`)|`Hello, how are you?` se convierte en `[CLS]`, `Hello`, `,`, `how`, `are`, `you`, `?`, `[SEP]`|
|RobertaProcessing|Este post-procesador se encarga de a√±adir los tokens especiales que necesita un modelo Roberta (`SEP` y `CLS`). Tambi√©n se encarga de recortar los offsets. Por defecto, el ByteLevel BPE puede incluir espacios en blanco en los tokens producidos. Si no desea que las compensaciones incluyan estos espacios en blanco, hay que inicializar este PostProcessor con `trim_offsets=True`.|`Hello, how are you?` se convierte en `<s>`, `Hello`, `,`, `how`, `are`, `you`, `?`, `</s>`|
|ElectraProcessing|A√±ade tokens especiales para ELECTRA|`Hello, how are you?` se convierte en `[CLS]`, `Hello`, `,`, `how`, `are`, `you`, `?`, `[SEP]`|
|TemplateProcessing|Permite crear f√°cilmente una plantilla para el postprocesamiento, a√±adiendo tokens especiales y especificando el type_id de cada secuencia/token especial. La plantilla recibe dos cadenas que representan la secuencia √∫nica y el par de secuencias, as√≠ como un conjunto de tokens especiales a utilizar|Example, when specifying a template with these values: single:`[CLS] $A [SEP]`, pair: `[CLS] $A [SEP] $B [SEP]`, special tokens: `[CLS]`, `[SEP]`. Input: (`I like this`, `but not this`), Output: `[CLS] I like this [SEP] but not this [SEP]`|

Vamos criar um tokenizador de postagem para ver como ele funciona.

In [41]:
from tokenizers.processors import TemplateProcessing

post_processor = TemplateProcessing(
    single="[CLS] $A [SEP]",
    pair="[CLS] $A [SEP] $B:1 [SEP]:1",
    special_tokens=[("[CLS]", 1), ("[SEP]", 2)],
)

Para modificar o tokenizador de postagem de um tokenizador

In [42]:
tokenizer.post_processor = post_processor

Vamos ver como funciona

In [43]:
input_text = "I paid $30 for the car"
decoded_text = tokenizer.encode(input_text)

decoded_text.tokens

['[CLS]', 'i', 'paid', '$', '3', '0', 'for', 'the', 'car', '[SEP]']

In [49]:
input_text1 = "Hello, y'all!"
input_text2 = "How are you?"
decoded_text = tokenizer.encode(input_text1, input_text2)

print(decoded_text.tokens)

['[CLS]', 'hell', 'o', ',', 'y', "'", 'all', '!', '[SEP]', 'how', 'are', 'you', '?', '[SEP]']


Se salvarmos o tokenizador agora, o tokenizador de postagem ser√° salvo com ele.

### Codifica√ß√£o

Depois de treinar o tokenizador, podemos us√°-lo para tokenizar textos.

In [50]:
input_text = "I love tokenizers!"
encoded_text = tokenizer.encode(input_text)

Vejamos o que obtemos ao tokenizar um texto

In [51]:
type(encoded_text)

tokenizers.Encoding

Obtemos um objeto do tipo [Encoding](https://huggingface.co/docs/tokenizers/api/encoding#tokenizers.Encoding), contendo os tokens e os ids dos tokens.

Os `ids` s√£o os `id`s dos tokens no vocabul√°rio do tokenizador.

In [52]:
encoded_text.ids

[1, 17, 383, 10694, 17, 3533, 3, 586, 2]

Tokens s√£o os tokens aos quais os `ids` s√£o equivalentes.

In [54]:
encoded_text.tokens

['[CLS]', 'i', 'love', 'token', 'i', 'zer', 's', '!', '[SEP]']

Se tivermos v√°rias sequ√™ncias, poderemos codific√°-las todas de uma vez

In [85]:
encoded_texts = tokenizer.encode(input_text1, input_text2)

print(encoded_texts.tokens)
print(encoded_texts.ids)
print(encoded_texts.type_ids)

['[CLS]', 'hell', 'o', ',', 'y', "'", 'all', '!', '[SEP]', 'how', 'are', 'you', '?', '[SEP]']
[1, 2215, 7, 5, 22, 26, 81, 586, 2, 98, 59, 213, 902, 2]
[0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1]


No entanto, quando voc√™ tem v√°rias sequ√™ncias, √© melhor usar o m√©todo `encode_batch`.

In [86]:
encoded_texts = tokenizer.encode_batch([input_text1, input_text2])

type(encoded_texts)

list

Vemos que obtemos uma lista

In [87]:
print(encoded_texts[0].tokens)
print(encoded_texts[0].ids)
print(encoded_texts[1].tokens)
print(encoded_texts[1].ids)

['[CLS]', 'hell', 'o', ',', 'y', "'", 'all', '!', '[SEP]']
[1, 2215, 7, 5, 22, 26, 81, 586, 2]
['[CLS]', 'how', 'are', 'you', '?', '[SEP]']
[1, 98, 59, 213, 902, 2]


### Decodifica√ß√£o

Al√©m de codificar os textos de entrada, um Tokenizer tamb√©m tem um m√©todo para decodificar, ou seja, converter os IDs gerados pelo seu modelo de volta para um texto. Isso √© feito pelos m√©todos `Tokenizer.decode` (para um texto previsto) e `Tokenizer.decode_batch` (para um lote de previs√µes).

Os tipos de decodifica√ß√£o que podem ser usados s√£o:

|Decodificaci√≥n|Descripci√≥n|
|---|---|
|BPEDecoder|Revierte el modelo BPE|
|ByteLevel|Revierte el ByteLevel PreTokenizer. Este PreTokenizer codifica a nivel de byte, utilizando un conjunto de caracteres Unicode visibles para representar cada byte, por lo que necesitamos un Decoder para revertir este proceso y obtener algo legible de nuevo.|
|CTC|Revierte el modelo CTC|
|Metaspace|Revierte el PreTokenizer de Metaspace. Este PreTokenizer utiliza un identificador especial ‚ñÅ para identificar los espacios en blanco, por lo que este Decoder ayuda con la decodificaci√≥n de estos.|
|WordPiece|Revierte el modelo WordPiece. Este modelo utiliza un identificador especial ## para las subpalabras continuas, por lo que este decodificador ayuda a decodificarlas.|

O decodificador primeiro converter√° os IDs em tokens (usando o vocabul√°rio do tokenizador) e remover√° todos os tokens especiais e, em seguida, juntar√° esses tokens com espa√ßos em branco.

Vamos criar um decodificador

In [79]:
from tokenizers import decoders

decoder = decoders.ByteLevel()

N√≥s o adicionamos ao tokenizador

In [80]:
tokenizer.decoder = decoder

N√≥s decodificamos

In [81]:
decoded_text = tokenizer.decode(encoded_text.ids)

input_text, decoded_text

('I love tokenizers!', 'ilovetokenizers!')

In [90]:
decoded_texts = tokenizer.decode_batch([encoded_texts[0].ids, encoded_texts[1].ids])

print(input_text1, decoded_texts[0])
print(input_text2, decoded_texts[1])

Hello, y'all! hello,y'all!
How are you? howareyou?


## BERT tokenizer

Com tudo o que aprendemos, vamos criar o tokenizador BERT do zero. O Bert usa o `WordPiece` como modelo, ent√£o o passamos para o inicializador do tokenizador.

In [91]:
from tokenizers import Tokenizer
from tokenizers.models import WordPiece

bert_tokenizer = Tokenizer(WordPiece(unk_token="[UNK]"))

O BERT pr√©-processa os textos removendo acentos e letras min√∫sculas. Tamb√©m usamos um normalizador unicode

In [92]:
from tokenizers import normalizers
from tokenizers.normalizers import NFD, Lowercase, StripAccents

bert_tokenizer.normalizer = normalizers.Sequence([NFD(), Lowercase(), StripAccents()])

O pretokenizador divide apenas espa√ßos em branco e sinais de pontua√ß√£o.

In [93]:
from tokenizers.pre_tokenizers import Whitespace

bert_tokenizer.pre_tokenizer = Whitespace()

E o p√≥s-processamento usa o modelo que vimos na se√ß√£o anterior

In [94]:
from tokenizers.processors import TemplateProcessing

bert_tokenizer.post_processor = TemplateProcessing(
    single="[CLS] $A [SEP]",
    pair="[CLS] $A [SEP] $B:1 [SEP]:1",
    special_tokens=[
        ("[CLS]", 1),
        ("[SEP]", 2),
    ],
)

Treinamos o tokenizador com o conjunto de dados wikitext-103.

In [95]:
from tokenizers.trainers import WordPieceTrainer

trainer = WordPieceTrainer(vocab_size=30522, special_tokens=["[UNK]", "[CLS]", "[SEP]", "[PAD]", "[MASK]"])

In [96]:
files = [f"wikitext-103/wiki.{split}.tokens" for split in ["test", "train", "valid"]]
bert_tokenizer.train(files, trainer)






Agora vamos test√°-lo

In [97]:
input_text = "I love tokenizers!"

encoded_text = bert_tokenizer.encode(input_text)
decoded_text = bert_tokenizer.decode(encoded_text.ids)

print(f"El texto de entrada '{input_text}' se convierte en los tokens {encoded_text.tokens}, que tienen las ids {encoded_text.ids} y luego se decodifica como '{decoded_text}'")

El texto de entrada 'I love tokenizers!' se convierte en los tokens ['[CLS]', 'i', 'love', 'token', '##izers', '!', '[SEP]'], que tienen las ids [1, 51, 2867, 25791, 12213, 5, 2] y luego se decodifica como 'i love token ##izers !'
