In [1]:
train_file = "data/jawiki/20210301/data/train.txt"
spm_model_dir = "output/spm"
tf_model_dir = "output/model"
vocab_size = 32000
input_sentence_size = 10000000
add_dummy_prefix = False

In [2]:
sep_token = "<sep>"
cls_token = "<cls>"
pad_token = "<pad>"
unk_token = "<unk>"
bos_token = "<s>"
eos_token = "</s>"

In [3]:
from pathlib import Path

spm_model_dir = Path(spm_model_dir)
spm_model_prefix = Path(spm_model_dir) / Path("sp")
spm_model_path = Path(spm_model_dir) / Path("sp.model")

In [4]:
train_args = dict(
    model_prefix=spm_model_prefix,
    vocab_size=vocab_size,
    pad_id=0,
    unk_id=1,
    bos_id=2,
    eos_id=3,
    pad_piece=pad_token,
    unk_piece=unk_token,
    bos_piece=bos_token,
    eos_piece=eos_token,
    control_symbols=[cls_token, sep_token],
    input_sentence_size=input_sentence_size,
    shuffle_input_sentence=True,
    add_dummy_prefix=add_dummy_prefix,
)

## Train model

In [5]:
pip install sentencepiece==0.1.91

Collecting sentencepiece==0.1.91


  Downloading sentencepiece-0.1.91-cp38-cp38-manylinux1_x86_64.whl (1.1 MB)
[?25l[K     |▎                               | 10 kB 25.5 MB/s eta 0:00:01[K     |▋                               | 20 kB 11.0 MB/s eta 0:00:01[K     |█                               | 30 kB 9.8 MB/s eta 0:00:01[K     |█▏                              | 40 kB 12.6 MB/s eta 0:00:01[K     |█▌                              | 51 kB 11.3 MB/s eta 0:00:01[K     |█▉                              | 61 kB 10.4 MB/s eta 0:00:01[K     |██▏                             | 71 kB 11.0 MB/s eta 0:00:01[K     |██▍                             | 81 kB 10.4 MB/s eta 0:00:01[K     |██▊                             | 92 kB 11.5 MB/s eta 0:00:01[K     |███                             | 102 kB 11.1 MB/s eta 0:00:01[K     |███▍                            | 112 kB 11.1 MB/s eta 0:00:01[K     |███▋                            | 122 kB 11.1 MB/s eta 0:00:01[K     |████                            | 133 kB 11.1 MB/s et

[K     |██████████▊                     | 358 kB 11.1 MB/s eta 0:00:01[K     |███████████                     | 368 kB 11.1 MB/s eta 0:00:01[K     |███████████▎                    | 378 kB 11.1 MB/s eta 0:00:01[K     |███████████▋                    | 389 kB 11.1 MB/s eta 0:00:01[K     |████████████                    | 399 kB 11.1 MB/s eta 0:00:01[K     |████████████▏                   | 409 kB 11.1 MB/s eta 0:00:01[K     |████████████▌                   | 419 kB 11.1 MB/s eta 0:00:01[K     |████████████▉                   | 430 kB 11.1 MB/s eta 0:00:01[K     |█████████████▏                  | 440 kB 11.1 MB/s eta 0:00:01[K     |█████████████▍                  | 450 kB 11.1 MB/s eta 0:00:01[K     |█████████████▊                  | 460 kB 11.1 MB/s eta 0:00:01[K     |██████████████                  | 471 kB 11.1 MB/s eta 0:00:01[K     |██████████████▍                 | 481 kB 11.1 MB/s eta 0:00:01[K     |██████████████▋                 | 491 kB 11.1 MB/s eta

[K     |████████████████████████████▊   | 962 kB 11.1 MB/s eta 0:00:01[K     |█████████████████████████████   | 972 kB 11.1 MB/s eta 0:00:01[K     |█████████████████████████████▎  | 983 kB 11.1 MB/s eta 0:00:01[K     |█████████████████████████████▋  | 993 kB 11.1 MB/s eta 0:00:01[K     |██████████████████████████████  | 1.0 MB 11.1 MB/s eta 0:00:01[K     |██████████████████████████████▏ | 1.0 MB 11.1 MB/s eta 0:00:01[K     |██████████████████████████████▌ | 1.0 MB 11.1 MB/s eta 0:00:01[K     |██████████████████████████████▉ | 1.0 MB 11.1 MB/s eta 0:00:01[K     |███████████████████████████████▏| 1.0 MB 11.1 MB/s eta 0:00:01[K     |███████████████████████████████▍| 1.1 MB 11.1 MB/s eta 0:00:01[K     |███████████████████████████████▊| 1.1 MB 11.1 MB/s eta 0:00:01[K     |████████████████████████████████| 1.1 MB 11.1 MB/s 


[?25hInstalling collected packages: sentencepiece


Successfully installed sentencepiece-0.1.91
You should consider upgrading via the '/usr/local/bin/python -m pip install --upgrade pip' command.[0m


Note: you may need to restart the kernel to use updated packages.


In [6]:
import sentencepiece as spm

In [7]:
if not spm_model_dir.exists():
    spm_model_dir.mkdir(parents=True)

In [8]:
spm.SentencePieceTrainer.train(input=train_file, **train_args)

## Convert to Transformers model

In [9]:
pip install transformers==4.3.3

Collecting transformers==4.3.3


  Downloading transformers-4.3.3-py3-none-any.whl (1.9 MB)
[?25l[K     |▏                               | 10 kB 61.7 MB/s eta 0:00:01[K     |▍                               | 20 kB 69.9 MB/s eta 0:00:01[K     |▌                               | 30 kB 21.8 MB/s eta 0:00:01[K     |▊                               | 40 kB 14.8 MB/s eta 0:00:01[K     |▉                               | 51 kB 12.2 MB/s eta 0:00:01[K     |█                               | 61 kB 14.3 MB/s eta 0:00:01[K     |█▏                              | 71 kB 12.9 MB/s eta 0:00:01[K     |█▍                              | 81 kB 14.4 MB/s eta 0:00:01[K     |█▌                              | 92 kB 12.6 MB/s eta 0:00:01[K     |█▊                              | 102 kB 11.8 MB/s eta 0:00:01[K     |██                              | 112 kB 11.8 MB/s eta 0:00:01[K     |██                              | 122 kB 11.8 MB/s eta 0:00:01[K     |██▎                             | 133 kB 11.8 MB/s eta 0:00:01[K   

[K     |█████▍                          | 317 kB 11.8 MB/s eta 0:00:01[K     |█████▌                          | 327 kB 11.8 MB/s eta 0:00:01[K     |█████▊                          | 337 kB 11.8 MB/s eta 0:00:01[K     |█████▉                          | 348 kB 11.8 MB/s eta 0:00:01[K     |██████                          | 358 kB 11.8 MB/s eta 0:00:01[K     |██████▏                         | 368 kB 11.8 MB/s eta 0:00:01[K     |██████▍                         | 378 kB 11.8 MB/s eta 0:00:01[K     |██████▋                         | 389 kB 11.8 MB/s eta 0:00:01[K     |██████▊                         | 399 kB 11.8 MB/s eta 0:00:01[K     |███████                         | 409 kB 11.8 MB/s eta 0:00:01[K     |███████                         | 419 kB 11.8 MB/s eta 0:00:01[K     |███████▎                        | 430 kB 11.8 MB/s eta 0:00:01[K     |███████▍                        | 440 kB 11.8 MB/s eta 0:00:01[K     |███████▋                        | 450 kB 11.8 MB/s eta

[K     |███████████████▏                | 901 kB 11.8 MB/s eta 0:00:01[K     |███████████████▍                | 911 kB 11.8 MB/s eta 0:00:01[K     |███████████████▌                | 921 kB 11.8 MB/s eta 0:00:01[K     |███████████████▊                | 931 kB 11.8 MB/s eta 0:00:01[K     |████████████████                | 942 kB 11.8 MB/s eta 0:00:01[K     |████████████████                | 952 kB 11.8 MB/s eta 0:00:01[K     |████████████████▎               | 962 kB 11.8 MB/s eta 0:00:01[K     |████████████████▍               | 972 kB 11.8 MB/s eta 0:00:01[K     |████████████████▋               | 983 kB 11.8 MB/s eta 0:00:01[K     |████████████████▊               | 993 kB 11.8 MB/s eta 0:00:01[K     |█████████████████               | 1.0 MB 11.8 MB/s eta 0:00:01[K     |█████████████████               | 1.0 MB 11.8 MB/s eta 0:00:01[K     |█████████████████▎              | 1.0 MB 11.8 MB/s eta 0:00:01[K     |█████████████████▍              | 1.0 MB 11.8 MB/s eta

[K     |█████████████████████████▏      | 1.5 MB 11.8 MB/s eta 0:00:01[K     |█████████████████████████▍      | 1.5 MB 11.8 MB/s eta 0:00:01[K     |█████████████████████████▋      | 1.5 MB 11.8 MB/s eta 0:00:01[K     |█████████████████████████▊      | 1.5 MB 11.8 MB/s eta 0:00:01[K     |██████████████████████████      | 1.5 MB 11.8 MB/s eta 0:00:01[K     |██████████████████████████      | 1.5 MB 11.8 MB/s eta 0:00:01[K     |██████████████████████████▎     | 1.6 MB 11.8 MB/s eta 0:00:01[K     |██████████████████████████▍     | 1.6 MB 11.8 MB/s eta 0:00:01[K     |██████████████████████████▋     | 1.6 MB 11.8 MB/s eta 0:00:01[K     |██████████████████████████▊     | 1.6 MB 11.8 MB/s eta 0:00:01[K     |███████████████████████████     | 1.6 MB 11.8 MB/s eta 0:00:01[K     |███████████████████████████▏    | 1.6 MB 11.8 MB/s eta 0:00:01[K     |███████████████████████████▎    | 1.6 MB 11.8 MB/s eta 0:00:01[K     |███████████████████████████▌    | 1.6 MB 11.8 MB/s eta



Collecting numpy>=1.17
  Downloading numpy-1.20.1-cp38-cp38-manylinux2010_x86_64.whl (15.4 MB)
[?25l[K     |                                | 10 kB 11.9 MB/s eta 0:00:02[K     |                                | 20 kB 9.2 MB/s eta 0:00:02[K     |                                | 30 kB 13.3 MB/s eta 0:00:02[K     |                                | 40 kB 11.4 MB/s eta 0:00:02

[K     |                                | 51 kB 9.7 MB/s eta 0:00:02[K     |▏                               | 61 kB 11.4 MB/s eta 0:00:02[K     |▏                               | 71 kB 10.8 MB/s eta 0:00:02[K     |▏                               | 81 kB 12.1 MB/s eta 0:00:02[K     |▏                               | 92 kB 11.3 MB/s eta 0:00:02[K     |▏                               | 102 kB 10.8 MB/s eta 0:00:02[K     |▎                               | 112 kB 10.8 MB/s eta 0:00:02[K     |▎                               | 122 kB 10.8 MB/s eta 0:00:02[K     |▎                               | 133 kB 10.8 MB/s eta 0:00:02[K     |▎                               | 143 kB 10.8 MB/s eta 0:00:02[K     |▎                               | 153 kB 10.8 MB/s eta 0:00:02[K     |▍                               | 163 kB 10.8 MB/s eta 0:00:02[K     |▍                               | 174 kB 10.8 MB/s eta 0:00:02[K     |▍                               | 184 kB 10.8 MB/s eta 0:00:

[K     |█▍                              | 665 kB 10.8 MB/s eta 0:00:02[K     |█▍                              | 675 kB 10.8 MB/s eta 0:00:02[K     |█▍                              | 686 kB 10.8 MB/s eta 0:00:02[K     |█▌                              | 696 kB 10.8 MB/s eta 0:00:02[K     |█▌                              | 706 kB 10.8 MB/s eta 0:00:02[K     |█▌                              | 716 kB 10.8 MB/s eta 0:00:02[K     |█▌                              | 727 kB 10.8 MB/s eta 0:00:02[K     |█▌                              | 737 kB 10.8 MB/s eta 0:00:02[K     |█▋                              | 747 kB 10.8 MB/s eta 0:00:02[K     |█▋                              | 757 kB 10.8 MB/s eta 0:00:02[K     |█▋                              | 768 kB 10.8 MB/s eta 0:00:02[K     |█▋                              | 778 kB 10.8 MB/s eta 0:00:02[K     |█▋                              | 788 kB 10.8 MB/s eta 0:00:02[K     |█▋                              | 798 kB 10.8 MB/s eta

[K     |██▋                             | 1.2 MB 10.8 MB/s eta 0:00:02[K     |██▋                             | 1.3 MB 10.8 MB/s eta 0:00:02[K     |██▋                             | 1.3 MB 10.8 MB/s eta 0:00:02[K     |██▊                             | 1.3 MB 10.8 MB/s eta 0:00:02[K     |██▊                             | 1.3 MB 10.8 MB/s eta 0:00:02[K     |██▊                             | 1.3 MB 10.8 MB/s eta 0:00:02[K     |██▊                             | 1.3 MB 10.8 MB/s eta 0:00:02[K     |██▊                             | 1.3 MB 10.8 MB/s eta 0:00:02[K     |██▊                             | 1.3 MB 10.8 MB/s eta 0:00:02[K     |██▉                             | 1.3 MB 10.8 MB/s eta 0:00:02[K     |██▉                             | 1.4 MB 10.8 MB/s eta 0:00:02[K     |██▉                             | 1.4 MB 10.8 MB/s eta 0:00:02[K     |██▉                             | 1.4 MB 10.8 MB/s eta 0:00:02[K     |██▉                             | 1.4 MB 10.8 MB/s eta

[K     |███▉                            | 1.9 MB 10.8 MB/s eta 0:00:02[K     |████                            | 1.9 MB 10.8 MB/s eta 0:00:02[K     |████                            | 1.9 MB 10.8 MB/s eta 0:00:02[K     |████                            | 1.9 MB 10.8 MB/s eta 0:00:02[K     |████                            | 1.9 MB 10.8 MB/s eta 0:00:02[K     |████                            | 1.9 MB 10.8 MB/s eta 0:00:02[K     |████                            | 1.9 MB 10.8 MB/s eta 0:00:02[K     |████                            | 1.9 MB 10.8 MB/s eta 0:00:02[K     |████                            | 1.9 MB 10.8 MB/s eta 0:00:02[K     |████                            | 2.0 MB 10.8 MB/s eta 0:00:02[K     |████                            | 2.0 MB 10.8 MB/s eta 0:00:02[K     |████▏                           | 2.0 MB 10.8 MB/s eta 0:00:02[K     |████▏                           | 2.0 MB 10.8 MB/s eta 0:00:02[K     |████▏                           | 2.0 MB 10.8 MB/s eta

[K     |█████▏                          | 2.5 MB 10.8 MB/s eta 0:00:02[K     |█████▎                          | 2.5 MB 10.8 MB/s eta 0:00:02[K     |█████▎                          | 2.5 MB 10.8 MB/s eta 0:00:02[K     |█████▎                          | 2.5 MB 10.8 MB/s eta 0:00:02[K     |█████▎                          | 2.5 MB 10.8 MB/s eta 0:00:02[K     |█████▎                          | 2.5 MB 10.8 MB/s eta 0:00:02[K     |█████▍                          | 2.6 MB 10.8 MB/s eta 0:00:02[K     |█████▍                          | 2.6 MB 10.8 MB/s eta 0:00:02[K     |█████▍                          | 2.6 MB 10.8 MB/s eta 0:00:02[K     |█████▍                          | 2.6 MB 10.8 MB/s eta 0:00:02[K     |█████▍                          | 2.6 MB 10.8 MB/s eta 0:00:02[K     |█████▍                          | 2.6 MB 10.8 MB/s eta 0:00:02[K     |█████▌                          | 2.6 MB 10.8 MB/s eta 0:00:02[K     |█████▌                          | 2.6 MB 10.8 MB/s eta

[K     |██████                          | 2.8 MB 10.8 MB/s eta 0:00:02[K     |██████                          | 2.8 MB 10.8 MB/s eta 0:00:02[K     |██████                          | 2.8 MB 10.8 MB/s eta 0:00:02[K     |██████                          | 2.9 MB 10.8 MB/s eta 0:00:02[K     |██████                          | 2.9 MB 10.8 MB/s eta 0:00:02[K     |██████                          | 2.9 MB 10.8 MB/s eta 0:00:02[K     |██████                          | 2.9 MB 10.8 MB/s eta 0:00:02[K     |██████                          | 2.9 MB 10.8 MB/s eta 0:00:02[K     |██████                          | 2.9 MB 10.8 MB/s eta 0:00:02[K     |██████                          | 2.9 MB 10.8 MB/s eta 0:00:02[K     |██████                          | 2.9 MB 10.8 MB/s eta 0:00:02[K     |██████▏                         | 2.9 MB 10.8 MB/s eta 0:00:02[K     |██████▏                         | 2.9 MB 10.8 MB/s eta 0:00:02[K     |██████▏                         | 3.0 MB 10.8 MB/s eta

[K     |███████▊                        | 3.7 MB 10.8 MB/s eta 0:00:02[K     |███████▊                        | 3.7 MB 10.8 MB/s eta 0:00:02[K     |███████▊                        | 3.7 MB 10.8 MB/s eta 0:00:02[K     |███████▊                        | 3.7 MB 10.8 MB/s eta 0:00:02[K     |███████▊                        | 3.7 MB 10.8 MB/s eta 0:00:02[K     |███████▉                        | 3.7 MB 10.8 MB/s eta 0:00:02[K     |███████▉                        | 3.7 MB 10.8 MB/s eta 0:00:02[K     |███████▉                        | 3.8 MB 10.8 MB/s eta 0:00:02[K     |███████▉                        | 3.8 MB 10.8 MB/s eta 0:00:02[K     |███████▉                        | 3.8 MB 10.8 MB/s eta 0:00:02[K     |████████                        | 3.8 MB 10.8 MB/s eta 0:00:02[K     |████████                        | 3.8 MB 10.8 MB/s eta 0:00:02[K     |████████                        | 3.8 MB 10.8 MB/s eta 0:00:02[K     |████████                        | 3.8 MB 10.8 MB/s eta

[K     |█████████                       | 4.3 MB 10.8 MB/s eta 0:00:02[K     |█████████                       | 4.3 MB 10.8 MB/s eta 0:00:02[K     |█████████                       | 4.3 MB 10.8 MB/s eta 0:00:02[K     |█████████                       | 4.3 MB 10.8 MB/s eta 0:00:02[K     |█████████                       | 4.3 MB 10.8 MB/s eta 0:00:02[K     |█████████                       | 4.3 MB 10.8 MB/s eta 0:00:02[K     |█████████                       | 4.4 MB 10.8 MB/s eta 0:00:02[K     |█████████                       | 4.4 MB 10.8 MB/s eta 0:00:02[K     |█████████▏                      | 4.4 MB 10.8 MB/s eta 0:00:02[K     |█████████▏                      | 4.4 MB 10.8 MB/s eta 0:00:02[K     |█████████▏                      | 4.4 MB 10.8 MB/s eta 0:00:02[K     |█████████▏                      | 4.4 MB 10.8 MB/s eta 0:00:02[K     |█████████▏                      | 4.4 MB 10.8 MB/s eta 0:00:02[K     |█████████▏                      | 4.4 MB 10.8 MB/s eta

[K     |██████████▏                     | 4.9 MB 10.8 MB/s eta 0:00:01[K     |██████████▏                     | 4.9 MB 10.8 MB/s eta 0:00:01[K     |██████████▎                     | 4.9 MB 10.8 MB/s eta 0:00:01[K     |██████████▎                     | 4.9 MB 10.8 MB/s eta 0:00:01[K     |██████████▎                     | 4.9 MB 10.8 MB/s eta 0:00:01[K     |██████████▎                     | 4.9 MB 10.8 MB/s eta 0:00:01[K     |██████████▎                     | 5.0 MB 10.8 MB/s eta 0:00:01[K     |██████████▍                     | 5.0 MB 10.8 MB/s eta 0:00:01[K     |██████████▍                     | 5.0 MB 10.8 MB/s eta 0:00:01[K     |██████████▍                     | 5.0 MB 10.8 MB/s eta 0:00:01[K     |██████████▍                     | 5.0 MB 10.8 MB/s eta 0:00:01[K     |██████████▍                     | 5.0 MB 10.8 MB/s eta 0:00:01[K     |██████████▌                     | 5.0 MB 10.8 MB/s eta 0:00:01[K     |██████████▌                     | 5.0 MB 10.8 MB/s eta

[K     |███████████▍                    | 5.5 MB 10.8 MB/s eta 0:00:01[K     |███████████▍                    | 5.5 MB 10.8 MB/s eta 0:00:01[K     |███████████▍                    | 5.5 MB 10.8 MB/s eta 0:00:01[K     |███████████▍                    | 5.5 MB 10.8 MB/s eta 0:00:01[K     |███████████▌                    | 5.5 MB 10.8 MB/s eta 0:00:01[K     |███████████▌                    | 5.5 MB 10.8 MB/s eta 0:00:01[K     |███████████▌                    | 5.5 MB 10.8 MB/s eta 0:00:01[K     |███████████▌                    | 5.5 MB 10.8 MB/s eta 0:00:01[K     |███████████▌                    | 5.5 MB 10.8 MB/s eta 0:00:01[K     |███████████▋                    | 5.6 MB 10.8 MB/s eta 0:00:01[K     |███████████▋                    | 5.6 MB 10.8 MB/s eta 0:00:01[K     |███████████▋                    | 5.6 MB 10.8 MB/s eta 0:00:01[K     |███████████▋                    | 5.6 MB 10.8 MB/s eta 0:00:01[K     |███████████▋                    | 5.6 MB 10.8 MB/s eta

[K     |████████████▊                   | 6.1 MB 10.8 MB/s eta 0:00:01[K     |████████████▊                   | 6.1 MB 10.8 MB/s eta 0:00:01[K     |████████████▉                   | 6.1 MB 10.8 MB/s eta 0:00:01[K     |████████████▉                   | 6.1 MB 10.8 MB/s eta 0:00:01[K     |████████████▉                   | 6.2 MB 10.8 MB/s eta 0:00:01[K     |████████████▉                   | 6.2 MB 10.8 MB/s eta 0:00:01[K     |████████████▉                   | 6.2 MB 10.8 MB/s eta 0:00:01[K     |████████████▉                   | 6.2 MB 10.8 MB/s eta 0:00:01[K     |█████████████                   | 6.2 MB 10.8 MB/s eta 0:00:01[K     |█████████████                   | 6.2 MB 10.8 MB/s eta 0:00:01[K     |█████████████                   | 6.2 MB 10.8 MB/s eta 0:00:01[K     |█████████████                   | 6.2 MB 10.8 MB/s eta 0:00:01[K     |█████████████                   | 6.2 MB 10.8 MB/s eta 0:00:01[K     |█████████████                   | 6.2 MB 10.8 MB/s eta

[K     |██████████████                  | 6.7 MB 10.8 MB/s eta 0:00:01[K     |██████████████                  | 6.7 MB 10.8 MB/s eta 0:00:01[K     |██████████████                  | 6.7 MB 10.8 MB/s eta 0:00:01[K     |██████████████                  | 6.7 MB 10.8 MB/s eta 0:00:01[K     |██████████████                  | 6.8 MB 10.8 MB/s eta 0:00:01[K     |██████████████                  | 6.8 MB 10.8 MB/s eta 0:00:01[K     |██████████████▏                 | 6.8 MB 10.8 MB/s eta 0:00:01[K     |██████████████▏                 | 6.8 MB 10.8 MB/s eta 0:00:01[K     |██████████████▏                 | 6.8 MB 10.8 MB/s eta 0:00:01[K     |██████████████▏                 | 6.8 MB 10.8 MB/s eta 0:00:01[K     |██████████████▏                 | 6.8 MB 10.8 MB/s eta 0:00:01[K     |██████████████▎                 | 6.8 MB 10.8 MB/s eta 0:00:01[K     |██████████████▎                 | 6.8 MB 10.8 MB/s eta 0:00:01[K     |██████████████▎                 | 6.9 MB 10.8 MB/s eta

[K     |███████████████▎                | 7.3 MB 10.8 MB/s eta 0:00:01[K     |███████████████▎                | 7.3 MB 10.8 MB/s eta 0:00:01[K     |███████████████▎                | 7.4 MB 10.8 MB/s eta 0:00:01[K     |███████████████▍                | 7.4 MB 10.8 MB/s eta 0:00:01[K     |███████████████▍                | 7.4 MB 10.8 MB/s eta 0:00:01[K     |███████████████▍                | 7.4 MB 10.8 MB/s eta 0:00:01[K     |███████████████▍                | 7.4 MB 10.8 MB/s eta 0:00:01[K     |███████████████▍                | 7.4 MB 10.8 MB/s eta 0:00:01[K     |███████████████▌                | 7.4 MB 10.8 MB/s eta 0:00:01[K     |███████████████▌                | 7.4 MB 10.8 MB/s eta 0:00:01[K     |███████████████▌                | 7.4 MB 10.8 MB/s eta 0:00:01[K     |███████████████▌                | 7.4 MB 10.8 MB/s eta 0:00:01[K     |███████████████▌                | 7.5 MB 10.8 MB/s eta 0:00:01[K     |███████████████▌                | 7.5 MB 10.8 MB/s eta

[K     |████████████████▌               | 7.9 MB 10.8 MB/s eta 0:00:01[K     |████████████████▌               | 7.9 MB 10.8 MB/s eta 0:00:01[K     |████████████████▌               | 7.9 MB 10.8 MB/s eta 0:00:01[K     |████████████████▌               | 7.9 MB 10.8 MB/s eta 0:00:01[K     |████████████████▋               | 7.9 MB 10.8 MB/s eta 0:00:01[K     |████████████████▋               | 8.0 MB 10.8 MB/s eta 0:00:01[K     |████████████████▋               | 8.0 MB 10.8 MB/s eta 0:00:01[K     |████████████████▋               | 8.0 MB 10.8 MB/s eta 0:00:01[K     |████████████████▋               | 8.0 MB 10.8 MB/s eta 0:00:01[K     |████████████████▋               | 8.0 MB 10.8 MB/s eta 0:00:01[K     |████████████████▊               | 8.0 MB 10.8 MB/s eta 0:00:01[K     |████████████████▊               | 8.0 MB 10.8 MB/s eta 0:00:01[K     |████████████████▊               | 8.0 MB 10.8 MB/s eta 0:00:01[K     |████████████████▊               | 8.0 MB 10.8 MB/s eta

[K     |█████████████████▊              | 8.5 MB 10.8 MB/s eta 0:00:01[K     |█████████████████▊              | 8.5 MB 10.8 MB/s eta 0:00:01[K     |█████████████████▊              | 8.5 MB 10.8 MB/s eta 0:00:01[K     |█████████████████▉              | 8.5 MB 10.8 MB/s eta 0:00:01[K     |█████████████████▉              | 8.6 MB 10.8 MB/s eta 0:00:01[K     |█████████████████▉              | 8.6 MB 10.8 MB/s eta 0:00:01[K     |█████████████████▉              | 8.6 MB 10.8 MB/s eta 0:00:01[K     |█████████████████▉              | 8.6 MB 10.8 MB/s eta 0:00:01[K     |██████████████████              | 8.6 MB 10.8 MB/s eta 0:00:01[K     |██████████████████              | 8.6 MB 10.8 MB/s eta 0:00:01[K     |██████████████████              | 8.6 MB 10.8 MB/s eta 0:00:01[K     |██████████████████              | 8.6 MB 10.8 MB/s eta 0:00:01[K     |██████████████████              | 8.6 MB 10.8 MB/s eta 0:00:01[K     |██████████████████              | 8.6 MB 10.8 MB/s eta

[K     |███████████████████             | 9.1 MB 10.8 MB/s eta 0:00:01[K     |███████████████████             | 9.1 MB 10.8 MB/s eta 0:00:01[K     |███████████████████             | 9.1 MB 10.8 MB/s eta 0:00:01[K     |███████████████████             | 9.1 MB 10.8 MB/s eta 0:00:01[K     |███████████████████             | 9.1 MB 10.8 MB/s eta 0:00:01[K     |███████████████████             | 9.2 MB 10.8 MB/s eta 0:00:01[K     |███████████████████             | 9.2 MB 10.8 MB/s eta 0:00:01[K     |███████████████████▏            | 9.2 MB 10.8 MB/s eta 0:00:01[K     |███████████████████▏            | 9.2 MB 10.8 MB/s eta 0:00:01[K     |███████████████████▏            | 9.2 MB 10.8 MB/s eta 0:00:01[K     |███████████████████▏            | 9.2 MB 10.8 MB/s eta 0:00:01[K     |███████████████████▏            | 9.2 MB 10.8 MB/s eta 0:00:01[K     |███████████████████▎            | 9.2 MB 10.8 MB/s eta 0:00:01[K     |███████████████████▎            | 9.2 MB 10.8 MB/s eta

[K     |████████████████████▏           | 9.7 MB 10.8 MB/s eta 0:00:01[K     |████████████████████▏           | 9.7 MB 10.8 MB/s eta 0:00:01[K     |████████████████████▎           | 9.7 MB 10.8 MB/s eta 0:00:01[K     |████████████████████▎           | 9.7 MB 10.8 MB/s eta 0:00:01[K     |████████████████████▎           | 9.7 MB 10.8 MB/s eta 0:00:01[K     |████████████████████▎           | 9.7 MB 10.8 MB/s eta 0:00:01[K     |████████████████████▎           | 9.7 MB 10.8 MB/s eta 0:00:01[K     |████████████████████▍           | 9.8 MB 10.8 MB/s eta 0:00:01[K     |████████████████████▍           | 9.8 MB 10.8 MB/s eta 0:00:01[K     |████████████████████▍           | 9.8 MB 10.8 MB/s eta 0:00:01[K     |████████████████████▍           | 9.8 MB 10.8 MB/s eta 0:00:01[K     |████████████████████▍           | 9.8 MB 10.8 MB/s eta 0:00:01[K     |████████████████████▍           | 9.8 MB 10.8 MB/s eta 0:00:01[K     |████████████████████▌           | 9.8 MB 10.8 MB/s eta

[K     |█████████████████████▍          | 10.3 MB 10.8 MB/s eta 0:00:01[K     |█████████████████████▌          | 10.3 MB 10.8 MB/s eta 0:00:01[K     |█████████████████████▌          | 10.3 MB 10.8 MB/s eta 0:00:01[K     |█████████████████████▌          | 10.3 MB 10.8 MB/s eta 0:00:01[K     |█████████████████████▌          | 10.3 MB 10.8 MB/s eta 0:00:01[K     |█████████████████████▌          | 10.3 MB 10.8 MB/s eta 0:00:01[K     |█████████████████████▌          | 10.3 MB 10.8 MB/s eta 0:00:01[K     |█████████████████████▋          | 10.4 MB 10.8 MB/s eta 0:00:01[K     |█████████████████████▋          | 10.4 MB 10.8 MB/s eta 0:00:01[K     |█████████████████████▋          | 10.4 MB 10.8 MB/s eta 0:00:01[K     |█████████████████████▋          | 10.4 MB 10.8 MB/s eta 0:00:01[K     |█████████████████████▋          | 10.4 MB 10.8 MB/s eta 0:00:01[K     |█████████████████████▊          | 10.4 MB 10.8 MB/s eta 0:00:01[K     |█████████████████████▊          | 10.4 MB

[K     |██████████████████████▋         | 10.9 MB 10.8 MB/s eta 0:00:01[K     |██████████████████████▋         | 10.9 MB 10.8 MB/s eta 0:00:01[K     |██████████████████████▋         | 10.9 MB 10.8 MB/s eta 0:00:01[K     |██████████████████████▊         | 10.9 MB 10.8 MB/s eta 0:00:01[K     |██████████████████████▊         | 10.9 MB 10.8 MB/s eta 0:00:01[K     |██████████████████████▊         | 10.9 MB 10.8 MB/s eta 0:00:01[K     |██████████████████████▊         | 10.9 MB 10.8 MB/s eta 0:00:01[K     |██████████████████████▊         | 10.9 MB 10.8 MB/s eta 0:00:01[K     |██████████████████████▉         | 10.9 MB 10.8 MB/s eta 0:00:01[K     |██████████████████████▉         | 10.9 MB 10.8 MB/s eta 0:00:01[K     |██████████████████████▉         | 11.0 MB 10.8 MB/s eta 0:00:01[K     |██████████████████████▉         | 11.0 MB 10.8 MB/s eta 0:00:01[K     |██████████████████████▉         | 11.0 MB 10.8 MB/s eta 0:00:01[K     |███████████████████████         | 11.0 MB

[K     |███████████████████████▉        | 11.4 MB 10.8 MB/s eta 0:00:01[K     |███████████████████████▉        | 11.5 MB 10.8 MB/s eta 0:00:01[K     |████████████████████████        | 11.5 MB 10.8 MB/s eta 0:00:01[K     |████████████████████████        | 11.5 MB 10.8 MB/s eta 0:00:01[K     |████████████████████████        | 11.5 MB 10.8 MB/s eta 0:00:01[K     |████████████████████████        | 11.5 MB 10.8 MB/s eta 0:00:01[K     |████████████████████████        | 11.5 MB 10.8 MB/s eta 0:00:01[K     |████████████████████████        | 11.5 MB 10.8 MB/s eta 0:00:01[K     |████████████████████████        | 11.5 MB 10.8 MB/s eta 0:00:01[K     |████████████████████████        | 11.5 MB 10.8 MB/s eta 0:00:01[K     |████████████████████████        | 11.6 MB 10.8 MB/s eta 0:00:01[K     |████████████████████████        | 11.6 MB 10.8 MB/s eta 0:00:01[K     |████████████████████████▏       | 11.6 MB 10.8 MB/s eta 0:00:01[K     |████████████████████████▏       | 11.6 MB

[K     |█████████████████████████▏      | 12.1 MB 11.3 MB/s eta 0:00:01[K     |█████████████████████████▏      | 12.1 MB 11.3 MB/s eta 0:00:01[K     |█████████████████████████▏      | 12.1 MB 11.3 MB/s eta 0:00:01[K     |█████████████████████████▏      | 12.1 MB 11.3 MB/s eta 0:00:01[K     |█████████████████████████▏      | 12.1 MB 11.3 MB/s eta 0:00:01[K     |█████████████████████████▎      | 12.1 MB 11.3 MB/s eta 0:00:01[K     |█████████████████████████▎      | 12.1 MB 11.3 MB/s eta 0:00:01[K     |█████████████████████████▎      | 12.1 MB 11.3 MB/s eta 0:00:01[K     |█████████████████████████▎      | 12.1 MB 11.3 MB/s eta 0:00:01[K     |█████████████████████████▎      | 12.2 MB 11.3 MB/s eta 0:00:01[K     |█████████████████████████▍      | 12.2 MB 11.3 MB/s eta 0:00:01[K     |█████████████████████████▍      | 12.2 MB 11.3 MB/s eta 0:00:01[K     |█████████████████████████▍      | 12.2 MB 11.3 MB/s eta 0:00:01[K     |█████████████████████████▍      | 12.2 MB

[K     |██████████████████████████▍     | 12.7 MB 11.3 MB/s eta 0:00:01[K     |██████████████████████████▍     | 12.7 MB 11.3 MB/s eta 0:00:01[K     |██████████████████████████▍     | 12.7 MB 11.3 MB/s eta 0:00:01[K     |██████████████████████████▌     | 12.7 MB 11.3 MB/s eta 0:00:01[K     |██████████████████████████▌     | 12.7 MB 11.3 MB/s eta 0:00:01[K     |██████████████████████████▌     | 12.7 MB 11.3 MB/s eta 0:00:01[K     |██████████████████████████▌     | 12.7 MB 11.3 MB/s eta 0:00:01[K     |██████████████████████████▌     | 12.7 MB 11.3 MB/s eta 0:00:01[K     |██████████████████████████▋     | 12.7 MB 11.3 MB/s eta 0:00:01[K     |██████████████████████████▋     | 12.8 MB 11.3 MB/s eta 0:00:01[K     |██████████████████████████▋     | 12.8 MB 11.3 MB/s eta 0:00:01[K     |██████████████████████████▋     | 12.8 MB 11.3 MB/s eta 0:00:01[K     |██████████████████████████▋     | 12.8 MB 11.3 MB/s eta 0:00:01[K     |██████████████████████████▊     | 12.8 MB

[K     |███████████████████████████▊    | 13.3 MB 11.3 MB/s eta 0:00:01[K     |███████████████████████████▊    | 13.3 MB 11.3 MB/s eta 0:00:01[K     |███████████████████████████▊    | 13.3 MB 11.3 MB/s eta 0:00:01[K     |███████████████████████████▊    | 13.3 MB 11.3 MB/s eta 0:00:01[K     |███████████████████████████▊    | 13.3 MB 11.3 MB/s eta 0:00:01[K     |███████████████████████████▉    | 13.3 MB 11.3 MB/s eta 0:00:01[K     |███████████████████████████▉    | 13.3 MB 11.3 MB/s eta 0:00:01[K     |███████████████████████████▉    | 13.4 MB 11.3 MB/s eta 0:00:01[K     |███████████████████████████▉    | 13.4 MB 11.3 MB/s eta 0:00:01[K     |███████████████████████████▉    | 13.4 MB 11.3 MB/s eta 0:00:01[K     |███████████████████████████▉    | 13.4 MB 11.3 MB/s eta 0:00:01[K     |████████████████████████████    | 13.4 MB 11.3 MB/s eta 0:00:01[K     |████████████████████████████    | 13.4 MB 11.3 MB/s eta 0:00:01[K     |████████████████████████████    | 13.4 MB

[K     |█████████████████████████████   | 13.9 MB 11.3 MB/s eta 0:00:01[K     |█████████████████████████████   | 13.9 MB 11.3 MB/s eta 0:00:01[K     |█████████████████████████████   | 13.9 MB 11.3 MB/s eta 0:00:01[K     |█████████████████████████████   | 13.9 MB 11.3 MB/s eta 0:00:01[K     |█████████████████████████████   | 13.9 MB 11.3 MB/s eta 0:00:01[K     |█████████████████████████████   | 13.9 MB 11.3 MB/s eta 0:00:01[K     |█████████████████████████████   | 14.0 MB 11.3 MB/s eta 0:00:01[K     |█████████████████████████████   | 14.0 MB 11.3 MB/s eta 0:00:01[K     |█████████████████████████████▏  | 14.0 MB 11.3 MB/s eta 0:00:01[K     |█████████████████████████████▏  | 14.0 MB 11.3 MB/s eta 0:00:01[K     |█████████████████████████████▏  | 14.0 MB 11.3 MB/s eta 0:00:01[K     |█████████████████████████████▏  | 14.0 MB 11.3 MB/s eta 0:00:01[K     |█████████████████████████████▏  | 14.0 MB 11.3 MB/s eta 0:00:01[K     |█████████████████████████████▎  | 14.0 MB

[K     |██████████████████████████████▏ | 14.5 MB 11.3 MB/s eta 0:00:01[K     |██████████████████████████████▎ | 14.5 MB 11.3 MB/s eta 0:00:01[K     |██████████████████████████████▎ | 14.5 MB 11.3 MB/s eta 0:00:01[K     |██████████████████████████████▎ | 14.5 MB 11.3 MB/s eta 0:00:01[K     |██████████████████████████████▎ | 14.5 MB 11.3 MB/s eta 0:00:01[K     |██████████████████████████████▎ | 14.6 MB 11.3 MB/s eta 0:00:01[K     |██████████████████████████████▍ | 14.6 MB 11.3 MB/s eta 0:00:01[K     |██████████████████████████████▍ | 14.6 MB 11.3 MB/s eta 0:00:01[K     |██████████████████████████████▍ | 14.6 MB 11.3 MB/s eta 0:00:01[K     |██████████████████████████████▍ | 14.6 MB 11.3 MB/s eta 0:00:01[K     |██████████████████████████████▍ | 14.6 MB 11.3 MB/s eta 0:00:01[K     |██████████████████████████████▌ | 14.6 MB 11.3 MB/s eta 0:00:01[K     |██████████████████████████████▌ | 14.6 MB 11.3 MB/s eta 0:00:01[K     |██████████████████████████████▌ | 14.6 MB

[K     |███████████████████████████████▌| 15.1 MB 11.3 MB/s eta 0:00:01[K     |███████████████████████████████▌| 15.1 MB 11.3 MB/s eta 0:00:01[K     |███████████████████████████████▌| 15.1 MB 11.3 MB/s eta 0:00:01[K     |███████████████████████████████▌| 15.1 MB 11.3 MB/s eta 0:00:01[K     |███████████████████████████████▋| 15.1 MB 11.3 MB/s eta 0:00:01[K     |███████████████████████████████▋| 15.2 MB 11.3 MB/s eta 0:00:01[K     |███████████████████████████████▋| 15.2 MB 11.3 MB/s eta 0:00:01[K     |███████████████████████████████▋| 15.2 MB 11.3 MB/s eta 0:00:01[K     |███████████████████████████████▋| 15.2 MB 11.3 MB/s eta 0:00:01[K     |███████████████████████████████▋| 15.2 MB 11.3 MB/s eta 0:00:01[K     |███████████████████████████████▊| 15.2 MB 11.3 MB/s eta 0:00:01[K     |███████████████████████████████▊| 15.2 MB 11.3 MB/s eta 0:00:01[K     |███████████████████████████████▊| 15.2 MB 11.3 MB/s eta 0:00:01[K     |███████████████████████████████▊| 15.2 MB

[K     |████████████████████████████████| 15.4 MB 11.3 MB/s 


[?25hCollecting tokenizers<0.11,>=0.10.1
  Downloading tokenizers-0.10.1-cp38-cp38-manylinux2010_x86_64.whl (3.2 MB)
[?25l[K     |                                | 10 kB 10.5 MB/s eta 0:00:01[K     |▏                               | 20 kB 8.8 MB/s eta 0:00:01[K     |▎                               | 30 kB 12.7 MB/s eta 0:00:01[K     |▍                               | 40 kB 11.1 MB/s eta 0:00:01[K     |▌                               | 51 kB 11.9 MB/s eta 0:00:01[K     |▋                               | 61 kB 14.0 MB/s eta 0:00:01[K     |▊                               | 71 kB 10.2 MB/s eta 0:00:01[K     |▉                               | 81 kB 11.5 MB/s eta 0:00:01[K     |█                               | 92 kB 11.0 MB/s eta 0:00:01[K     |█                               | 102 kB 10.4 MB/s eta 0:00:01[K     |█▏                              | 112 kB 10.4 MB/s eta 0:00:01[K     |█▏                              | 122 kB 10.4 MB/s eta 0:00:01[K     |█▎        

[K     |█▌                              | 153 kB 10.4 MB/s eta 0:00:01[K     |█▋                              | 163 kB 10.4 MB/s eta 0:00:01[K     |█▊                              | 174 kB 10.4 MB/s eta 0:00:01[K     |█▉                              | 184 kB 10.4 MB/s eta 0:00:01[K     |██                              | 194 kB 10.4 MB/s eta 0:00:01[K     |██                              | 204 kB 10.4 MB/s eta 0:00:01[K     |██▏                             | 215 kB 10.4 MB/s eta 0:00:01[K     |██▎                             | 225 kB 10.4 MB/s eta 0:00:01[K     |██▎                             | 235 kB 10.4 MB/s eta 0:00:01[K     |██▍                             | 245 kB 10.4 MB/s eta 0:00:01[K     |██▌                             | 256 kB 10.4 MB/s eta 0:00:01[K     |██▋                             | 266 kB 10.4 MB/s eta 0:00:01[K     |██▊                             | 276 kB 10.4 MB/s eta 0:00:01[K     |██▉                             | 286 kB 10.4 MB/s eta

[K     |███████▏                        | 727 kB 10.4 MB/s eta 0:00:01[K     |███████▎                        | 737 kB 10.4 MB/s eta 0:00:01[K     |███████▍                        | 747 kB 10.4 MB/s eta 0:00:01[K     |███████▌                        | 757 kB 10.4 MB/s eta 0:00:01[K     |███████▋                        | 768 kB 10.4 MB/s eta 0:00:01[K     |███████▊                        | 778 kB 10.4 MB/s eta 0:00:01[K     |███████▉                        | 788 kB 10.4 MB/s eta 0:00:01[K     |████████                        | 798 kB 10.4 MB/s eta 0:00:01[K     |████████                        | 808 kB 10.4 MB/s eta 0:00:01[K     |████████                        | 819 kB 10.4 MB/s eta 0:00:01[K     |████████▏                       | 829 kB 10.4 MB/s eta 0:00:01[K     |████████▎                       | 839 kB 10.4 MB/s eta 0:00:01[K     |████████▍                       | 849 kB 10.4 MB/s eta 0:00:01[K     |████████▌                       | 860 kB 10.4 MB/s eta

[K     |█████████████▏                  | 1.3 MB 10.4 MB/s eta 0:00:01[K     |█████████████▎                  | 1.3 MB 10.4 MB/s eta 0:00:01[K     |█████████████▍                  | 1.4 MB 10.4 MB/s eta 0:00:01[K     |█████████████▌                  | 1.4 MB 10.4 MB/s eta 0:00:01[K     |█████████████▋                  | 1.4 MB 10.4 MB/s eta 0:00:01[K     |█████████████▊                  | 1.4 MB 10.4 MB/s eta 0:00:01[K     |█████████████▉                  | 1.4 MB 10.4 MB/s eta 0:00:01[K     |█████████████▉                  | 1.4 MB 10.4 MB/s eta 0:00:01[K     |██████████████                  | 1.4 MB 10.4 MB/s eta 0:00:01[K     |██████████████                  | 1.4 MB 10.4 MB/s eta 0:00:01[K     |██████████████▏                 | 1.4 MB 10.4 MB/s eta 0:00:01[K     |██████████████▎                 | 1.4 MB 10.4 MB/s eta 0:00:01[K     |██████████████▍                 | 1.5 MB 10.4 MB/s eta 0:00:01[K     |██████████████▌                 | 1.5 MB 10.4 MB/s eta

[K     |███████████████████▍            | 2.0 MB 10.4 MB/s eta 0:00:01[K     |███████████████████▌            | 2.0 MB 10.4 MB/s eta 0:00:01[K     |███████████████████▋            | 2.0 MB 10.4 MB/s eta 0:00:01[K     |███████████████████▊            | 2.0 MB 10.4 MB/s eta 0:00:01[K     |███████████████████▊            | 2.0 MB 10.4 MB/s eta 0:00:01[K     |███████████████████▉            | 2.0 MB 10.4 MB/s eta 0:00:01[K     |████████████████████            | 2.0 MB 10.4 MB/s eta 0:00:01[K     |████████████████████            | 2.0 MB 10.4 MB/s eta 0:00:01[K     |████████████████████▏           | 2.0 MB 10.4 MB/s eta 0:00:01[K     |████████████████████▎           | 2.0 MB 10.4 MB/s eta 0:00:01[K     |████████████████████▍           | 2.1 MB 10.4 MB/s eta 0:00:01[K     |████████████████████▌           | 2.1 MB 10.4 MB/s eta 0:00:01[K     |████████████████████▋           | 2.1 MB 10.4 MB/s eta 0:00:01[K     |████████████████████▊           | 2.1 MB 10.4 MB/s eta

[K     |█████████████████████████▎      | 2.5 MB 10.4 MB/s eta 0:00:01[K     |█████████████████████████▍      | 2.6 MB 10.4 MB/s eta 0:00:01[K     |█████████████████████████▌      | 2.6 MB 10.4 MB/s eta 0:00:01[K     |█████████████████████████▌      | 2.6 MB 10.4 MB/s eta 0:00:01[K     |█████████████████████████▋      | 2.6 MB 10.4 MB/s eta 0:00:01[K     |█████████████████████████▊      | 2.6 MB 10.4 MB/s eta 0:00:01[K     |█████████████████████████▉      | 2.6 MB 10.4 MB/s eta 0:00:01[K     |██████████████████████████      | 2.6 MB 10.4 MB/s eta 0:00:01[K     |██████████████████████████      | 2.6 MB 10.4 MB/s eta 0:00:01[K     |██████████████████████████▏     | 2.6 MB 10.4 MB/s eta 0:00:01[K     |██████████████████████████▎     | 2.7 MB 10.4 MB/s eta 0:00:01[K     |██████████████████████████▍     | 2.7 MB 10.4 MB/s eta 0:00:01[K     |██████████████████████████▌     | 2.7 MB 10.4 MB/s eta 0:00:01[K     |██████████████████████████▋     | 2.7 MB 10.4 MB/s eta

[K     |███████████████████████████████▎| 3.2 MB 10.4 MB/s eta 0:00:01[K     |███████████████████████████████▎| 3.2 MB 10.4 MB/s eta 0:00:01[K     |███████████████████████████████▍| 3.2 MB 10.4 MB/s eta 0:00:01[K     |███████████████████████████████▌| 3.2 MB 10.4 MB/s eta 0:00:01[K     |███████████████████████████████▋| 3.2 MB 10.4 MB/s eta 0:00:01[K     |███████████████████████████████▊| 3.2 MB 10.4 MB/s eta 0:00:01[K     |███████████████████████████████▉| 3.2 MB 10.4 MB/s eta 0:00:01[K     |████████████████████████████████| 3.2 MB 10.4 MB/s eta 0:00:01[K     |████████████████████████████████| 3.2 MB 10.4 MB/s 
[?25hCollecting filelock
  Downloading filelock-3.0.12-py3-none-any.whl (7.6 kB)


Collecting sacremoses
  Downloading sacremoses-0.0.43.tar.gz (883 kB)
[?25l[K     |▍                               | 10 kB 8.7 MB/s eta 0:00:01[K     |▊                               | 20 kB 8.1 MB/s eta 0:00:01[K     |█▏                              | 30 kB 11.7 MB/s eta 0:00:01[K     |█▌                              | 40 kB 10.5 MB/s eta 0:00:01[K     |█▉                              | 51 kB 9.6 MB/s eta 0:00:01[K     |██▎                             | 61 kB 11.3 MB/s eta 0:00:01[K     |██▋                             | 71 kB 12.6 MB/s eta 0:00:01[K     |███                             | 81 kB 14.2 MB/s eta 0:00:01[K     |███▍                            | 92 kB 12.9 MB/s eta 0:00:01[K     |███▊                            | 102 kB 12.0 MB/s eta 0:00:01[K     |████                            | 112 kB 12.0 MB/s eta 0:00:01[K     |████▌                           | 122 kB 12.0 MB/s eta 0:00:01[K     |████▉                           | 133 kB 12.0 MB/s eta 0:00:

[K     |██████▎                         | 174 kB 12.0 MB/s eta 0:00:01[K     |██████▊                         | 184 kB 12.0 MB/s eta 0:00:01[K     |███████                         | 194 kB 12.0 MB/s eta 0:00:01[K     |███████▍                        | 204 kB 12.0 MB/s eta 0:00:01[K     |███████▉                        | 215 kB 12.0 MB/s eta 0:00:01[K     |████████▏                       | 225 kB 12.0 MB/s eta 0:00:01[K     |████████▌                       | 235 kB 12.0 MB/s eta 0:00:01[K     |█████████                       | 245 kB 12.0 MB/s eta 0:00:01[K     |█████████▎                      | 256 kB 12.0 MB/s eta 0:00:01[K     |█████████▋                      | 266 kB 12.0 MB/s eta 0:00:01[K     |██████████                      | 276 kB 12.0 MB/s eta 0:00:01[K     |██████████▍                     | 286 kB 12.0 MB/s eta 0:00:01[K     |██████████▊                     | 296 kB 12.0 MB/s eta 0:00:01[K     |███████████▏                    | 307 kB 12.0 MB/s eta

[K     |███████████████████████████▍    | 757 kB 12.0 MB/s eta 0:00:01[K     |███████████████████████████▉    | 768 kB 12.0 MB/s eta 0:00:01[K     |████████████████████████████▏   | 778 kB 12.0 MB/s eta 0:00:01[K     |████████████████████████████▌   | 788 kB 12.0 MB/s eta 0:00:01[K     |█████████████████████████████   | 798 kB 12.0 MB/s eta 0:00:01[K     |█████████████████████████████▎  | 808 kB 12.0 MB/s eta 0:00:01[K     |█████████████████████████████▋  | 819 kB 12.0 MB/s eta 0:00:01[K     |██████████████████████████████  | 829 kB 12.0 MB/s eta 0:00:01[K     |██████████████████████████████▍ | 839 kB 12.0 MB/s eta 0:00:01[K     |██████████████████████████████▊ | 849 kB 12.0 MB/s eta 0:00:01[K     |███████████████████████████████▏| 860 kB 12.0 MB/s eta 0:00:01[K     |███████████████████████████████▌| 870 kB 12.0 MB/s eta 0:00:01[K     |███████████████████████████████▉| 880 kB 12.0 MB/s eta 0:00:01[K     |████████████████████████████████| 883 kB 12.0 MB/s 




Collecting joblib
  Downloading joblib-1.0.1-py3-none-any.whl (303 kB)
[?25l[K     |█                               | 10 kB 10.4 MB/s eta 0:00:01[K     |██▏                             | 20 kB 11.3 MB/s eta 0:00:01[K     |███▎                            | 30 kB 16.2 MB/s eta 0:00:01[K     |████▎                           | 40 kB 12.9 MB/s eta 0:00:01[K     |█████▍                          | 51 kB 11.3 MB/s eta 0:00:01[K     |██████▌                         | 61 kB 13.3 MB/s eta 0:00:01[K     |███████▋                        | 71 kB 12.1 MB/s eta 0:00:01[K     |████████▋                       | 81 kB 13.6 MB/s eta 0:00:01[K     |█████████▊                      | 92 kB 12.6 MB/s eta 0:00:01[K     |██████████▉                     | 102 kB 11.4 MB/s eta 0:00:01[K     |████████████                    | 112 kB 11.4 MB/s eta 0:00:01

[K     |█████████████                   | 122 kB 11.4 MB/s eta 0:00:01[K     |██████████████                  | 133 kB 11.4 MB/s eta 0:00:01[K     |███████████████▏                | 143 kB 11.4 MB/s eta 0:00:01[K     |████████████████▏               | 153 kB 11.4 MB/s eta 0:00:01[K     |█████████████████▎              | 163 kB 11.4 MB/s eta 0:00:01[K     |██████████████████▍             | 174 kB 11.4 MB/s eta 0:00:01[K     |███████████████████▌            | 184 kB 11.4 MB/s eta 0:00:01[K     |████████████████████▌           | 194 kB 11.4 MB/s eta 0:00:01[K     |█████████████████████▋          | 204 kB 11.4 MB/s eta 0:00:01[K     |██████████████████████▊         | 215 kB 11.4 MB/s eta 0:00:01[K     |███████████████████████▉        | 225 kB 11.4 MB/s eta 0:00:01[K     |████████████████████████▉       | 235 kB 11.4 MB/s eta 0:00:01[K     |██████████████████████████      | 245 kB 11.4 MB/s eta 0:00:01[K     |███████████████████████████     | 256 kB 11.4 MB/s eta

  Building wheel for sacremoses (setup.py) ... [?25l-

 \

 done
[?25h  Created wheel for sacremoses: filename=sacremoses-0.0.43-py3-none-any.whl size=893258 sha256=9e55438cfb2f7fa59d9d2bd8bde4ac94fc051abb0d84fc56082d87b4f3a9dfca
  Stored in directory: /root/.cache/pip/wheels/7b/78/f4/27d43a65043e1b75dbddaa421b573eddc67e712be4b1c80677
Successfully built sacremoses


Installing collected packages: joblib, tokenizers, sacremoses, numpy, filelock, transformers


Successfully installed filelock-3.0.12 joblib-1.0.1 numpy-1.20.1 sacremoses-0.0.43 tokenizers-0.10.1 transformers-4.3.3


You should consider upgrading via the '/usr/local/bin/python -m pip install --upgrade pip' command.[0m


Note: you may need to restart the kernel to use updated packages.


In [10]:
import transformers

tokenizer = transformers.BertGenerationTokenizer(
    str(spm_model_path),
    bos_token=bos_token,
    eos_token=eos_token,
    cls_token=cls_token,
    sep_token=sep_token,
    pad_token=pad_token,
    unk_token=unk_token,
)

None of PyTorch, TensorFlow >= 2.0, or Flax have been found. Models won't be available and only tokenizers, configuration and file/data utilities can be used.


In [11]:
len(tokenizer)

32000

In [12]:
tokenizer.save_pretrained(tf_model_dir)

('output/model/tokenizer_config.json',
 'output/model/special_tokens_map.json',
 'output/model/spiece.model',
 'output/model/added_tokens.json')