In [1]:
from transformers import BertTokenizer, DataCollatorForTokenClassification
from torch.utils.data import DataLoader, Dataset 
import pandas as pd
import numpy as no
import datasets

## 1- 数据加载

In [2]:
# 数据来源：CLUENER 细粒度命名实体识别 https://github.com/CLUEbenchmark/CLUENER2020

In [3]:
datadir = "./data/cluener_public/"

train_path = datadir + "train.json"
val_path = datadir + "dev.json"

dftrain = pd.read_json(train_path, lines = True)
dfval = pd.read_json(val_path, lines = True)

entities = ['address','book','company','game','government','movie',
              'name','organization','position','scene']

label_names = ['O'] + ['B-'+x for x in entities] + ['I-'+x for x in entities]

id2label = {i:label for i, label in enumerate(label_names)}
label2id = {v:k for k,v in id2label.items()}

In [4]:
text = dftrain["text"][10]
label = dftrain["label"][10]

print(text)
print(label)

主要属于结构性理财产品。上周交通银行发行了“天添利”系列理财产品，投资者在封闭期申购该系列理财产品，
{'company': {'交通银行': [[14, 17]]}}


## 2-文本分词

In [5]:
model_name = 'bert-base-chinese'
tokenizer = BertTokenizer.from_pretrained(model_name)

In [6]:
tokenized_input =  tokenizer(text)
print(tokenized_input["input_ids"])

[101, 712, 6206, 2247, 754, 5310, 3354, 2595, 4415, 6568, 772, 1501, 511, 677, 1453, 769, 6858, 7213, 6121, 1355, 6121, 749, 100, 1921, 3924, 1164, 100, 5143, 1154, 4415, 6568, 772, 1501, 8024, 2832, 6598, 5442, 1762, 2196, 7308, 3309, 4509, 6579, 6421, 5143, 1154, 4415, 6568, 772, 1501, 8024, 102]


In [9]:
# 可以从每个id还原每个token对应的字符组合
tokens = tokenizer.convert_ids_to_tokens(tokenized_input["input_ids"])
for t in tokens:
    print(t)

[CLS]
主
要
属
于
结
构
性
理
财
产
品
。
上
周
交
通
银
行
发
行
了
[UNK]
天
添
利
[UNK]
系
列
理
财
产
品
，
投
资
者
在
封
闭
期
申
购
该
系
列
理
财
产
品
，
[SEP]


## 3- 标签对齐
#### 给特殊字符/未在词典中的token赋予正确的label
#### 1. 把原始的dict形式的label转换成字符级别的char_label
#### 2. 再将char_label对齐到token_label

In [16]:
# 把label格式转化成字符级别的char_label
def get_char_label(text, label):
    char_label = ['0' for x in text]
    for tp, dic in label.items():
        for word, idxs in dic.items():
            idx_start = idxs[0][0]
            idx_end = idxs[0][1]
            char_label[idx_start] = 'B-'+tp
            char_label[idx_start+1:idx_end+1] = ['I-'+tp for x in range(idx_start+1,idx_end+1)]
    return char_label

In [17]:
char_label = get_char_label(text, label)
for char, char_tp in zip(text, char_label):
    print(char+'\t'+char_tp)

主	0
要	0
属	0
于	0
结	0
构	0
性	0
理	0
财	0
产	0
品	0
。	0
上	0
周	0
交	B-company
通	I-company
银	I-company
行	I-company
发	0
行	0
了	0
“	0
天	0
添	0
利	0
”	0
系	0
列	0
理	0
财	0
产	0
品	0
，	0
投	0
资	0
者	0
在	0
封	0
闭	0
期	0
申	0
购	0
该	0
系	0
列	0
理	0
财	0
产	0
品	0
，	0


In [18]:
def get_token_label(text, char_label, tokenizer):
    tokenized_input = tokenizer(text)
    tokens = tokenizer.convert_ids_to_tokens(tokenized_input["input_ids"])
    
    iter_tokens = iter(tokens)
    iter_char_label = iter(char_label)  
    iter_text = iter(text.lower()) 

    token_labels = []

    t = next(iter_tokens)
    char = next(iter_text)
    char_tp = next(iter_char_label)

    while True:
        #单个字符token(如汉字)直接赋给对应字符token
        if len(t)==1:
            assert t==char
            token_labels.append(char_tp)   
            try:
                char = next(iter_text)
                char_tp = next(iter_char_label)
            except StopIteration:
                pass  

        #添加的特殊token如[CLS],[SEP],排除[UNK]
        elif t in tokenizer.special_tokens_map.values() and t!='[UNK]':
            token_labels.append('O')              


        elif t=='[UNK]':
            token_labels.append(char_tp) 
            #重新对齐
            try:
                t = next(iter_tokens)
            except StopIteration:
                break 

            if t not in tokenizer.special_tokens_map.values():
                while char!=t[0]:
                    try:
                        char = next(iter_text)
                        char_tp = next(iter_char_label)
                    except StopIteration:
                        pass    
            continue

        #其它长度大于1的token，如英文token
        else:
            t_label = char_tp
            t = t.replace('##','') #移除因为subword引入的'##'符号
            for c in t:
                assert c==char or char not in tokenizer.vocab
                if t_label!='O':
                    t_label=char_tp
                try:
                    char = next(iter_text)
                    char_tp = next(iter_char_label)
                except StopIteration:
                    pass    
            token_labels.append(t_label) 

        try:
            t = next(iter_tokens)
        except StopIteration:
            break  
            
    assert len(token_labels)==len(tokens)
    return token_labels 
    

In [19]:
token_labels = get_token_label(text, char_label, tokenizer)
for t, t_label in zip(tokens, token_labels):
    print(t, '\t', t_label)

[CLS] 	 O
主 	 0
要 	 0
属 	 0
于 	 0
结 	 0
构 	 0
性 	 0
理 	 0
财 	 0
产 	 0
品 	 0
。 	 0
上 	 0
周 	 0
交 	 B-company
通 	 I-company
银 	 I-company
行 	 I-company
发 	 0
行 	 0
了 	 0
[UNK] 	 0
天 	 0
添 	 0
利 	 0
[UNK] 	 0
系 	 0
列 	 0
理 	 0
财 	 0
产 	 0
品 	 0
， 	 0
投 	 0
资 	 0
者 	 0
在 	 0
封 	 0
闭 	 0
期 	 0
申 	 0
购 	 0
该 	 0
系 	 0
列 	 0
理 	 0
财 	 0
产 	 0
品 	 0
， 	 0
[SEP] 	 O


## 4-构建管道

In [20]:
dftrain.head()

Unnamed: 0,text,label
0,浙商银行企业信贷部叶老桂博士则从另一个角度对五道门槛进行了解读。叶老桂认为，对目前国内商业银...,"{'name': {'叶老桂': [[9, 11]]}, 'company': {'浙商银行..."
1,生生不息CSOL生化狂潮让你填弹狂扫,"{'game': {'CSOL': [[4, 7]]}}"
2,那不勒斯vs锡耶纳以及桑普vs热那亚之上呢？,"{'organization': {'那不勒斯': [[0, 3]], '锡耶纳': [[6..."
3,加勒比海盗3：世界尽头》的去年同期成绩死死甩在身后，后者则即将赶超《变形金刚》，,"{'movie': {'加勒比海盗3：世界尽头》': [[0, 11]], '《变形金刚》'..."
4,布鲁京斯研究所桑顿中国中心研究部主任李成说，东亚的和平与安全，是美国的“核心利益”之一。,"{'address': {'美国': [[32, 33]]}, 'organization'..."
