In [5]:
import keras.backend as K
from keras_bert import Tokenizer
import numpy as np
import codecs
import json
import unicodedata

BERT_MAX_LEN = 512

class HBTokenizer(Tokenizer):
    def _tokenize(self, text):
        if not self._cased:
            text = unicodedata.normalize('NFD', text)
            text = ''.join([ch for ch in text if unicodedata.category(ch) != 'Mn'])
            text = text.lower()
        spaced = ''
        for ch in text:
            if ord(ch) == 0 or ord(ch) == 0xfffd or self._is_control(ch):
                continue
            else:
                spaced += ch
        tokens = []
        for word in spaced.strip().split():
            tokens += self._word_piece_tokenize(word)
            tokens.append('[unused1]')
        return tokens

def get_tokenizer(vocab_path):
    token_dict = {}
    with codecs.open(vocab_path, 'r', 'utf8') as reader:
        for line in reader:
            token = line.strip()
            token_dict[token] = len(token_dict)
    return HBTokenizer(token_dict, cased=True)

In [8]:
bert_vocab_path = 'vocab.txt'
tokenizer = get_tokenizer(bert_vocab_path)

In [10]:
tokenizer.encode('爱德华·尼科·埃尔南迪斯（1986-），是一位身高只有70公分哥伦比亚男子，体重10公斤，只比随身行李高一些，2010年获吉尼斯世界纪录正式认证，成为全球当今最矮的成年男人')

([101,
  4263,
  15605,
  14347,
  13356,
  15282,
  17963,
  13356,
  14869,
  15266,
  14355,
  19889,
  16229,
  21077,
  8818,
  9219,
  13329,
  21078,
  21080,
  16278,
  13728,
  13912,
  19773,
  20827,
  14429,
  16357,
  8740,
  14119,
  14203,
  14577,
  13897,
  16740,
  13819,
  17568,
  15151,
  21080,
  13917,
  20085,
  8311,
  14119,
  16222,
  21080,
  14429,
  16740,
  20447,
  19773,
  19178,
  16387,
  20827,
  13728,
  13820,
  21080,
  9546,
  15456,
  18872,
  14452,
  15282,
  16229,
  13743,
  17575,
  18336,
  15554,
  16690,
  15523,
  19428,
  19452,
  21080,
  15825,
  13768,
  14116,
  17470,
  15553,
  13848,
  16354,
  17822,
  17695,
  15825,
  15456,
  17568,
  13839,
  1,
  102],
 [0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,


In [11]:
tokenizer.tokenize('爱德华·尼科·埃尔南迪斯（1986-），是一位身高只有70公分哥伦比亚男子，体重10公斤，只比随身行李高一些，2010年获吉尼斯世界纪录正式认证，成为全球当今最矮的成年男人')

['[CLS]',
 '爱',
 '##德',
 '##华',
 '##·',
 '##尼',
 '##科',
 '##·',
 '##埃',
 '##尔',
 '##南',
 '##迪',
 '##斯',
 '##（',
 '##19',
 '##86',
 '##-',
 '##）',
 '##，',
 '##是',
 '##一',
 '##位',
 '##身',
 '##高',
 '##只',
 '##有',
 '##70',
 '##公',
 '##分',
 '##哥',
 '##伦',
 '##比',
 '##亚',
 '##男',
 '##子',
 '##，',
 '##体',
 '##重',
 '##10',
 '##公',
 '##斤',
 '##，',
 '##只',
 '##比',
 '##随',
 '##身',
 '##行',
 '##李',
 '##高',
 '##一',
 '##些',
 '##，',
 '##2010',
 '##年',
 '##获',
 '##吉',
 '##尼',
 '##斯',
 '##世',
 '##界',
 '##纪',
 '##录',
 '##正',
 '##式',
 '##认',
 '##证',
 '##，',
 '##成',
 '##为',
 '##全',
 '##球',
 '##当',
 '##今',
 '##最',
 '##矮',
 '##的',
 '##成',
 '##年',
 '##男',
 '##人',
 '[unused1]',
 '[SEP]']

In [6]:
ls

 ������ D �еľ��� D
 �������к��� C26C-E5B8

 d:\Documents\project\demo\tf_practice ��Ŀ¼

2021/06/08  16:17    <DIR>          .
2021/06/08  16:17    <DIR>          ..
2021/06/03  11:36            35,844 1.ipynb
2021/06/03  11:36            27,120 2.ipynb
2021/06/08  16:38             3,773 3.ipynb
2021/06/03  11:36             2,243 keras_layers.ipynb
               4 ���ļ�         68,980 �ֽ�
               2 ��Ŀ¼ 172,839,354,368 �����ֽ�
