In [4]:
from datasets import load_dataset

raw_datasets = load_dataset('code_search_net', 'python', trust_remote_code=True)

In [6]:
def get_training_corpus():
    dataset = raw_datasets["train"]
    for start_idx in range(0, len(dataset), 1000):
        samples = dataset[start_idx : start_idx + 1000]
        yield samples["whole_func_string"]

In [8]:
from transformers import AutoTokenizer

old_tokenizer = AutoTokenizer.from_pretrained("gpt2")

In [10]:
example = '''def add_numbers(a, b):
    """Add the two numbers `a` and `b`."""
    return a + b'''

tokens = old_tokenizer.tokenize(example)
tokens

['def',
 'Ġadd',
 '_',
 'n',
 'umbers',
 '(',
 'a',
 ',',
 'Ġb',
 '):',
 'Ċ',
 'Ġ',
 'Ġ',
 'Ġ',
 'Ġ"""',
 'Add',
 'Ġthe',
 'Ġtwo',
 'Ġnumbers',
 'Ġ`',
 'a',
 '`',
 'Ġand',
 'Ġ`',
 'b',
 '`',
 '."',
 '""',
 'Ċ',
 'Ġ',
 'Ġ',
 'Ġ',
 'Ġreturn',
 'Ġa',
 'Ġ+',
 'Ġb']

In [12]:
training_corpus = (
    raw_datasets["train"][i : i + 1000]["whole_func_string"]
    for i in range(0, len(raw_datasets["train"]), 1000)
)

In [13]:
tokenizer = old_tokenizer.train_new_from_iterator(training_corpus, 52000)

In [15]:
tokens = tokenizer.tokenize(example)
tokens

['def',
 'Ġadd',
 '_',
 'numbers',
 '(',
 'a',
 ',',
 'Ġb',
 '):',
 'ĊĠĠĠ',
 'Ġ"""',
 'Add',
 'Ġthe',
 'Ġtwo',
 'Ġnumbers',
 'Ġ`',
 'a',
 '`',
 'Ġand',
 'Ġ`',
 'b',
 '`."""',
 'ĊĠĠĠ',
 'Ġreturn',
 'Ġa',
 'Ġ+',
 'Ġb']

In [19]:
from huggingface_hub import notebook_login
notebook_login()

VBox(children=(HTML(value='<center> <img\nsrc=https://huggingface.co/front/assets/huggingface_logo-noborder.sv…

In [21]:
tokenizer.push_to_hub("code-search-net-tokenizer")

CommitInfo(commit_url='https://huggingface.co/jhyannnn/code-search-net-tokenizer/commit/c13628b8d18c41d12e1c050e98e8210d6e58618a', commit_message='Upload tokenizer', commit_description='', oid='c13628b8d18c41d12e1c050e98e8210d6e58618a', pr_url=None, repo_url=RepoUrl('https://huggingface.co/jhyannnn/code-search-net-tokenizer', endpoint='https://huggingface.co', repo_type='model', repo_id='jhyannnn/code-search-net-tokenizer'), pr_revision=None, pr_num=None)

In [24]:
type(tokens)

list

In [23]:
from

AttributeError: 'list' object has no attribute 'word_ids'

In [27]:
from transformers import AutoTokenizer, AutoModelForMaskedLM

tokenizer = AutoTokenizer.from_pretrained("bert-base-chinese")

In [31]:
example = """
正如我们将在下一节中看到的，tokenizer 一般不会在原始文本上进行训练。    因此，我们首先需要将文本拆分为更小的实体，例如单词。这就是预分词步骤的作用。正如我们在 第二章 中看到的，基于单词的 tokenizer 可以简单地根据空格和标点符号将原始文本拆分为单词。这些词将是 tokenizer 在训练期间可以学习的子词的边界。
"""

tokens = tokenizer.tokenize(example)

In [32]:
tokens

['正',
 '如',
 '我',
 '们',
 '将',
 '在',
 '下',
 '一',
 '节',
 '中',
 '看',
 '到',
 '的',
 '，',
 'to',
 '##ken',
 '##ize',
 '##r',
 '一',
 '般',
 '不',
 '会',
 '在',
 '原',
 '始',
 '文',
 '本',
 '上',
 '进',
 '行',
 '训',
 '练',
 '。',
 '因',
 '此',
 '，',
 '我',
 '们',
 '首',
 '先',
 '需',
 '要',
 '将',
 '文',
 '本',
 '拆',
 '分',
 '为',
 '更',
 '小',
 '的',
 '实',
 '体',
 '，',
 '例',
 '如',
 '单',
 '词',
 '。',
 '这',
 '就',
 '是',
 '预',
 '分',
 '词',
 '步',
 '骤',
 '的',
 '作',
 '用',
 '。',
 '正',
 '如',
 '我',
 '们',
 '在',
 '第',
 '二',
 '章',
 '中',
 '看',
 '到',
 '的',
 '，',
 '基',
 '于',
 '单',
 '词',
 '的',
 'to',
 '##ken',
 '##ize',
 '##r',
 '可',
 '以',
 '简',
 '单',
 '地',
 '根',
 '据',
 '空',
 '格',
 '和',
 '标',
 '点',
 '符',
 '号',
 '将',
 '原',
 '始',
 '文',
 '本',
 '拆',
 '分',
 '为',
 '单',
 '词',
 '。',
 '这',
 '些',
 '词',
 '将',
 '是',
 'to',
 '##ken',
 '##ize',
 '##r',
 '在',
 '训',
 '练',
 '期',
 '间',
 '可',
 '以',
 '学',
 '习',
 '的',
 '子',
 '词',
 '的',
 '边',
 '界',
 '。']

In [33]:
tokenizer.backend_tokenizer.pre_tokenizer.pre_tokenize_str(example)

[('正如我们将在下一节中看到的', (1, 14)),
 ('，', (14, 15)),
 ('tokenizer', (15, 24)),
 ('一般不会在原始文本上进行训练', (25, 39)),
 ('。', (39, 40)),
 ('因此', (44, 46)),
 ('，', (46, 47)),
 ('我们首先需要将文本拆分为更小的实体', (47, 64)),
 ('，', (64, 65)),
 ('例如单词', (65, 69)),
 ('。', (69, 70)),
 ('这就是预分词步骤的作用', (70, 81)),
 ('。', (81, 82)),
 ('正如我们在', (82, 87)),
 ('第二章', (88, 91)),
 ('中看到的', (92, 96)),
 ('，', (96, 97)),
 ('基于单词的', (97, 102)),
 ('tokenizer', (103, 112)),
 ('可以简单地根据空格和标点符号将原始文本拆分为单词', (113, 137)),
 ('。', (137, 138)),
 ('这些词将是', (138, 143)),
 ('tokenizer', (144, 153)),
 ('在训练期间可以学习的子词的边界', (154, 169)),
 ('。', (169, 170))]