In [1]:
import random
from typing import *
import json
from itertools import chain

from tqdm import tqdm
import numpy as np
import pandas as pd

import torch
from torch import nn
import torch.nn.functional as F
from torch.utils.data import Dataset, DataLoader, Subset, IterableDataset
from transformers import AutoTokenizer, AdamW, AutoModel, get_linear_schedule_with_warmup

In [2]:
import sys
sys.path.append('..')

from constant import rel2id, punct_lst, weak_signals, weak_labels
from utils import to_cuda

# Config

In [3]:
class CFG:
    # data_file = '../aug/diag_codt_new/diag_train.conll'
    # data_file = '../aug/codt/codt_train_fixed.conll'
    data_file = '../data_testset/1to800_1108.json'
    plm = 'hfl/chinese-electra-180g-base-discriminator'
    random_seed = 42
    num_epochs = 2
    batch_size = 128
    plm_lr = 3e-6
    head_lr = 5e-6
    weight_decay = 0.01
    dropout = 0.1
    grad_clip = 2
    scheduler = 'linear'
    warmup_ratio = 0.1
    num_early_stop = 3
    max_length = 160
    hidden_size = 400
    num_labels = 35
    print_every = 300
    eval_every = 600
    cuda = True
    fp16 = True
    debug = False

# Seed

In [4]:
def seed_everything(seed=CFG.random_seed):
    np.random.seed(seed%(2**32-1))
    random.seed(seed)
    torch.manual_seed(seed)
    torch.cuda.manual_seed(seed)
    torch.backends.cudnn.deterministic =True
    torch.backends.cudnn.benchmark = False

seed_everything()

# Data

In [5]:
inter_signals = {
                # '但': 36, '但是': 36, 
                '情况':36, '为什么': 36,
                '吗': 37, '?': 37, '什么': 37,
                # '呢': 37, '吧': 37,
                '请': 39, '麻烦':39, '希望': 39, '让': 39, '咨询': 39}   

In [6]:
origin4change = [rel2id[x] for x in ['root', 'dfsubj', 'sasubj']]
origin4change.extend([i for i in range(21, 35)])

signal_dct = {}
for i, signals in enumerate(weak_signals):
    for s in signals:
        signal_dct[s] = weak_labels[i]
print(signal_dct, len(signal_dct.keys()))

with_inter = True
if with_inter:
    signal_dct.update(inter_signals)
    print(signal_dct, len(signal_dct.keys()))

{'说': 21, '表示': 21, '看到': 21, '显示': 21, '知道': 21, '认为': 21, '希望': 21, '指出': 21, '如果': 25, '假如': 25, '的话': 25, '若': 25, '如': 25, '要是': 25, '倘若': 25, '因为': 23, '所以': 23, '导致': 23, '因此': 23, '造成': 23, '由于': 23, '因而': 23, '但是': 26, '可是': 26, '但': 26, '竟': 26, '却': 26, '不过': 26, '居然': 26, '而是': 26, '反而': 26, '以及': 31, '并且': 31, '或者': 31, '对于': 22, '自从': 22, '上次': 22, '明天': 34, '晚上': 34, '到时候': 34, '再': 34, '然后': 34, '接下来': 34, '最后': 34, '随后': 34, '为了': 28, '使': 28, '为 的': 28, '为 了': 28, '通过': 32, '必须': 32, '点击': 32, '对 吗': 33, '是 吗': 33, '对 吧': 33, '是 吧': 33, '对 ?': 33, '别 的': 24, '另外': 24, '解释': 30, '比如': 30, '例如': 30, '是 这样': 30, '理想': 29, '真 棒': 29, '太 棒': 29, '真差': 29, '太 差': 29, '不 行': 29, '扯皮': 29, '这么 麻烦': 29} 71
{'说': 21, '表示': 21, '看到': 21, '显示': 21, '知道': 21, '认为': 21, '希望': 39, '指出': 21, '如果': 25, '假如': 25, '的话': 25, '若': 25, '如': 25, '要是': 25, '倘若': 25, '因为': 23, '所以': 23, '导致': 23, '因此': 23, '造成': 23, '由于': 23, '因而': 23, '但是': 26, '可是': 26, '但': 26, '竟': 26, '却': 26, '不过': 26, 

In [7]:
class Dependency():
    def __init__(self, idx, word, head, rel):
        self.id = idx
        self.word = word
        self.head = head
        self.rel = rel

    def __str__(self):
        # example:  1	上海	_	NR	NR	_	2	nn	_	_
        values = [str(self.idx), self.word, "_", "_", "_", "_", str(self.head), self.rel, "_", "_"]
        return '\t'.join(values)

    def __repr__(self):
        return f"({self.word}, {self.head}, {self.rel})"

In [8]:
# sample_lst, sample = [], []
# with open(CFG.data_file, 'r', encoding='utf-8') as f:
#     for line in f.readlines():
#         toks = line.strip().split('\t')
#         if len(toks) == 1:
#             sample_lst.append(sample)
#             sample = []
#             continue
        
#         sample.append(Dependency(int(toks[0]), toks[1], toks[6], toks[7]))  # TODO

In [9]:
sample_lst = []
with open(CFG.data_file, 'r', encoding='utf-8') as f:
    data = json.load(f)
for d in data:
    rel_dct = {}
    for tripple in d['relationship']:
        head, rel, tail = tripple
        head_uttr_idx, head_word_idx = [int(x) for x in head.split('-')]
        tail_uttr_idx, tail_word_idx = [int(x) for x in tail.split('-')]
        if head_uttr_idx != tail_uttr_idx:
            continue

        if not rel_dct.get(head_uttr_idx, None):
            rel_dct[head_uttr_idx] = {tail_word_idx: [head_word_idx, rel]}
        else:
            rel_dct[head_uttr_idx][tail_word_idx] = [head_word_idx, rel]
            
    for item in d['dialog']:
        turn = item['turn']
        utterance = item['utterance']
        # dep_lst:List[Dependency] = [Dependency(0, '[root]', -1, '_')]
        sample:List[Dependency] = []

        for word_idx, word in enumerate(utterance.split(' ')):
            head_word_idx, rel = rel_dct[turn].get(word_idx + 1, [word_idx, 'adjct'])  # some word annoted missed, padded with last word and 'adjct'
            sample.append(Dependency(word_idx + 1, word, head_word_idx, rel))  # start from 1

        sample_lst.append(sample)

In [10]:
labels = []
edu_lst = []
for sample in tqdm(sample_lst):
    edu, label = [], []
    for i, dep in enumerate(sample[:-1]):
        word = dep.word
        rel = dep.rel
        
        edu.append(dep)
        
        if f'{word} {sample[i+1].word}' in signal_dct.keys():
            label.append(f'{word}{sample[i+1].word}')
            # if random.random() < 0.9:  # drop
            #     edu.pop(-1)
        elif word in signal_dct.keys():
            label.append(word)
            # if random.random() < 0.9:
            #     edu.pop(-1)
        
        # 'edu'
        if word in punct_lst:
            # if len(label) == 0 and random.random() < 0.5:  # drop
            #     edu, label = [], []
            #     continue
            edu_lst.append(edu)
            labels.append(label)                                
            edu, label = [], []
    
    if len(sample) > 1:
        edu.append(sample[-1])
        if sample[-1].word in signal_dct.keys():
            label.append(word)
    
    # if len(label) == 0 and random.random() < 0.5:
    #     continue
        
    edu_lst.append(edu)
    labels.append(label)

100%|██████████| 20086/20086 [00:00<00:00, 55713.69it/s]


In [11]:
pos_cnt, neg_cnt = 0, 0
for label in labels:
    if len(label) != 0:
        pos_cnt += 1
    else:
        neg_cnt += 1
        
print(pos_cnt, neg_cnt)

8245 20444


In [12]:
tokenizer = AutoTokenizer.from_pretrained(CFG.plm)
print(len(tokenizer))

num_added_toks = tokenizer.add_tokens(['[root]', '[qst]', '[ans]', '[none]'], special_tokens=True)

tokenizer.eos_token = '[EOS]'
print(f'EOS: {tokenizer.eos_token_id}')

tokenizer.root_token = '[root]'
tokenizer.root_token_ids = tokenizer('[root]')['input_ids'][1]
print(f"add token: {tokenizer.root_token} {tokenizer.root_token_ids}")

tokenizer.qst_token = '[qst]'
tokenizer.qst_token_ids = tokenizer('[qst]')['input_ids'][1]
print(f"add token: {tokenizer.qst_token} {tokenizer.qst_token_ids}")

tokenizer.ans_token = '[ans]'
tokenizer.ans_token_ids = tokenizer('[ans]')['input_ids'][1]
print(f"add token: {tokenizer.ans_token} {tokenizer.ans_token_ids}")

tokenizer.none_token = '[none]'
tokenizer.none_token_ids = tokenizer('[none]')['input_ids'][1]
print(f"add token: {tokenizer.none_token} {tokenizer.none_token_ids}")

# tokenizer.signal_token = '[signal]'
# tokenizer.signal_token_ids = tokenizer('[signal]')['input_ids'][1]
# print(f"add token: {tokenizer.signal_token} {tokenizer.signal_token_ids}")

print(len(tokenizer))
CFG.tokenizer = tokenizer

21128
EOS: 100
add token: [root] 21128
add token: [qst] 21129
add token: [ans] 21130
add token: [none] 21131
21132


In [13]:
# class EduDataset(Dataset):
#     def __init__(self, cfg, train, prompt, edu_lst, labels=None):
#         self.train = train
#         self.cfg = cfg
#         self.prompt = prompt
    
#         self.inference = True if labels is None else False
        
#         if self.inference: 
#             self.inputs, self.heads, self.rels, self.masks = self.read_data(edu_lst)
#         else:
#             self.inputs, self.heads, self.rels, self.labels, self.masks = self.read_data(edu_lst, labels)
        
#     def read_data(self, edu_lst, labels=None):
#         inputs, offsets = [], []
#         tags, heads, rels, masks = [], [], [], []
        
#         if labels is None:
#             labels = [[] for i in range(len(edu_lst))]
#         ans_word_len = 3
#         answer_words = []
        
#         for deps, label in tqdm(zip(edu_lst, labels)):
#             seq_len = len(deps)

#             word_lst = [] 
#             rel_attr = {'input_ids':torch.Tensor(), 'token_type_ids':torch.Tensor(), 'attention_mask':torch.Tensor()}
#             head_tokens = np.zeros(self.cfg.max_length, dtype=np.int64)  # same as root index is 0, constrainting by mask 
#             rel_tokens = np.zeros(self.cfg.max_length, dtype=np.int64)
#             mask_tokens = np.zeros(self.cfg.max_length, dtype=np.int64)
#             ans_tokens = torch.zeros((ans_word_len, len(self.cfg.tokenizer)))
#             for i, dep in enumerate(deps):
#                 if i == seq_len or i + 1== self.cfg.max_length:
#                     break

#                 word_lst.append(dep.word)

#                 if dep.head in ['_', '-1'] or int(dep.head) + 1 >= self.cfg.max_length:
#                     head_tokens[i+1] = 0
#                     mask_tokens[i+1] = 0
#                 else:
#                     head_tokens[i+1] = int(dep.head)
#                     mask_tokens[i+1] = 1

#                 if self.train:
#                     rel_tokens[i+1] = rel2id[dep.rel]
#                 else:
#                     rel_tokens[i+1] = rel2id.get(dep.rel, rel2id['adjct'])
            
#             word_lst = self.prompt.split(' ') + ['[SEP]'] + word_lst
            
#             tokenized = self.cfg.tokenizer.encode_plus(word_lst, 
#                                                       padding='max_length', 
#                                                       truncation=True,
#                                                       max_length=self.cfg.max_length, 
#                                                       return_offsets_mapping=True, 
#                                                       return_tensors='pt',
#                                                       is_split_into_words=True)
#             inputs.append({"input_ids": tokenized['input_ids'][0],
#                           "token_type_ids": tokenized['token_type_ids'][0],
#                            "attention_mask": tokenized['attention_mask'][0]
#                           })
            
#             if ~self.inference:
#                 if len(label) == 0:
#                     ans_tokens[0:ans_word_len, self.cfg.tokenizer.none_token_ids] = 1
#                 else: 
#                     for l in label[0]:  # first label
#                         label_id = self.cfg.tokenizer(l)['input_ids'][1:-1]
#                         ans_tokens[torch.arange(len(label_id)), label_id] = 1
#                         if len(label_id) < ans_word_len:
#                             ans_tokens[torch.arange(len(label_id), ans_word_len), self.cfg.tokenizer.eos_token_id] = 1  # padding
            
#             # ans_tokens /= ans_tokens.sum(-1).unsqueeze(-1).expand(-1, len(self.cfg.tokenizer))
#                 answer_words.append(ans_tokens)

#             heads.append(head_tokens)
#             rels.append(rel_tokens)
#             masks.append(mask_tokens)
        
#         if self.inference:
#             return inputs, heads, rels, masks
#         return inputs, heads, rels, answer_words, masks

#     def __getitem__(self, idx):
#         return self.inputs[idx], self.heads[idx], self.rels[idx], self.labels[idx], self.masks[idx]
    
#     def __len__(self):
#         return len(self.rels)

In [14]:
class EduDataset(IterableDataset):
    def __init__(self, cfg, train, prompt, edu_lst, labels):
        self.train = train
        self.cfg = cfg
        self.prompt = prompt
        self.edu_lst = edu_lst
        self.labels = labels
        
    def read_data(self, edu_lst, labels):
        inputs, offsets = [], []
        tags, heads, rels, masks = [], [], [], []
        
        ans_word_len = 3
        answer_words = []
        
        for deps, label in zip(edu_lst, labels):
            seq_len = len(deps)

            word_lst = [] 
            rel_attr = {'input_ids':torch.Tensor(), 'token_type_ids':torch.Tensor(), 'attention_mask':torch.Tensor()}
            head_tokens = np.zeros(self.cfg.max_length, dtype=np.int64)  # same as root index is 0, constrainting by mask 
            rel_tokens = np.zeros(self.cfg.max_length, dtype=np.int64)
            mask_tokens = np.zeros(self.cfg.max_length, dtype=np.int64)
            ans_tokens = torch.zeros((ans_word_len, len(self.cfg.tokenizer)))
            for i, dep in enumerate(deps):
                if i == seq_len or i + 1== self.cfg.max_length:
                    break

                word_lst.append(dep.word)

                if dep.head in ['_', '-1'] or int(dep.head) + 1 >= self.cfg.max_length:
                    head_tokens[i+1] = 0
                    mask_tokens[i+1] = 0
                else:
                    head_tokens[i+1] = int(dep.head)
                    mask_tokens[i+1] = 1

                if self.train:
                    rel_tokens[i+1] = rel2id[dep.rel]
                else:
                    rel_tokens[i+1] = rel2id.get(dep.rel, rel2id['adjct'])

            word_lst = self.prompt.split(' ') + ['[SEP]'] + word_lst
            
            tokenized = self.cfg.tokenizer.encode_plus(word_lst, 
                                              padding='max_length', 
                                              truncation=True,
                                              max_length=self.cfg.max_length, 
                                              return_offsets_mapping=False, 
                                              return_tensors='pt',
                                              is_split_into_words=True)
            tokenized = {"input_ids": tokenized['input_ids'][0],
                          "token_type_ids": tokenized['token_type_ids'][0],
                           "attention_mask": tokenized['attention_mask'][0]
                          }
            
            if len(label) == 0:
                ans_tokens[0:ans_word_len, self.cfg.tokenizer.none_token_ids] = 1
            else: 
                # label_id = self.cfg.tokenizer(l)['input_ids'][1:-1]
                label_id = label2id[label[0]]  # first label
                if len(label_id) > ans_word_len:
                    label_id = label_id[:ans_word_len]
                ans_tokens[torch.arange(len(label_id)), label_id] = 1
                if len(label_id) < ans_word_len:
                    ans_tokens[torch.arange(len(label_id), ans_word_len), self.cfg.tokenizer.eos_token_id] = 1  # padding
            
            answer_words.append(ans_tokens)

            heads.append(head_tokens)
            rels.append(rel_tokens)
            masks.append(mask_tokens)
                    
            yield tokenized, head_tokens, rel_tokens, ans_tokens, mask_tokens

    def __iter__(self):
        return self.read_data(self.edu_lst, self.labels)

In [15]:
prompt = '能 表现 篇章 语义 信号 的 词 是 ： [MASK] [MASK] [MASK]'
prompt_tokenized = CFG.tokenizer.encode_plus(prompt.split(' '), is_split_into_words=True, return_tensors='pt')
print(prompt_tokenized['input_ids'])

masked_idx = [x[1].item() for x in (prompt_tokenized['input_ids'] == CFG.tokenizer.mask_token_id).nonzero()]
CFG.masked_idx = masked_idx
print(masked_idx)

tensor([[ 101, 5543, 6134, 4385, 5063, 4995, 6427,  721,  928, 1384, 4638, 6404,
         3221, 8038,  103,  103,  103,  102]])
[14, 15, 16]


In [16]:
if CFG.debug:
    dataset = EduDataset(CFG, True, prompt, edu_lst[:3000], labels[:3000])
else:
    dataset = EduDataset(CFG, True, prompt, edu_lst, labels=labels)

In [17]:
# torch.save(dataset, '../data_saved/mlm/diag_codt/dataset.pt')

In [18]:
# dataset = torch.load('/root/autodl-tmp/data/sdiag_codt/dataset.pt')

In [19]:
# logit = torch.randn(2, len(CFG.tokenizer))
# gt = dataset[0][-2]

# print(logit.shape)
# print(gt.shape)

# F.cross_entropy(logit, gt)

# Model

In [20]:
class PromptModel(nn.Module):
    def __init__(self, cfg):
        super().__init__()
        self.cfg = cfg
    
        self.encoder = AutoModel.from_pretrained(cfg.plm)
        self.encoder.resize_token_embeddings(len(cfg.tokenizer))

        self.mlm_head = nn.Linear(self.encoder.config.hidden_size, len(cfg.tokenizer))

        self.dropout = nn.Dropout(cfg.dropout)

    def forward(self, inputs, labels=None):
        feats, *_ = self.encoder(**inputs, return_dict=False)   # batch_size, seq_len (tokenized), plm_hidden_size
        feats = self.dropout(feats)

        masked_feats = feats[:, self.cfg.masked_idx, :]   # batch_size, masked_len, plm_hidden_size

        logit = self.mlm_head(masked_feats)  # batch_size, masked_len, vocab_size

        if labels is not None:
            loss = F.cross_entropy(logit, labels)  # labels: [batch_size, masked_len, vocab_size]
            return logit, loss
        return logit

In [21]:
model = PromptModel(CFG)

model.load_state_dict(torch.load('../results/prompt_model_diag.pt'))

Some weights of the model checkpoint at hfl/chinese-electra-180g-base-discriminator were not used when initializing ElectraModel: ['discriminator_predictions.dense.weight', 'discriminator_predictions.dense_prediction.weight', 'discriminator_predictions.dense_prediction.bias', 'discriminator_predictions.dense.bias']
- This IS expected if you are initializing ElectraModel from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing ElectraModel from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


<All keys matched successfully>

# Inference

In [22]:
data_iter = DataLoader(dataset, batch_size=CFG.batch_size)

In [23]:
# model = model.cuda()

# labels_whole, masks_whole = torch.Tensor(), torch.Tensor()
# logits = torch.Tensor()
# for batch in tqdm(data_iter):
#     inputs, heads, rels, labels, masks = batch

#     if CFG.cuda and torch.cuda.is_available():
#         inputs_cuda = {}
#         for key, value in inputs.items():
#             inputs_cuda[key] = value.squeeze(1).cuda()
#         inputs = inputs_cuda
        
#         heads, rels, labels, masks = to_cuda(data=(heads, rels, labels, masks))
    
#     with torch.no_grad():
#         logit = model(inputs, labels=None)
        
#     logits = torch.cat([logits, logit.cpu()], dim=0)
#     labels_whole = torch.cat([labels_whole, labels.cpu()], dim=0)
#     masks_whole = torch.cat([masks_whole, masks.cpu()], dim=0)

In [24]:
# loss = F.cross_entropy(logits.view(-1, labels_whole.size()[-1]), labels_whole.view(-1, labels_whole.size()[-1]), reduction='none')
# loss = loss.view(labels_whole.size()[0], labels_whole.size()[1])
# print(loss.shape)

# loss = loss.sum(1).mean()
# print(loss)

In [25]:
signal2slices = {}
id2pred = []

tmp = -1
for i, (signal, id) in enumerate(signal_dct.items()):
    # if tmp != -1 and id != tmp:
    #     signal2slices[tmp].append(i)
    if len(signal2slices.get(id, [])) == 0:
        signal2slices[id] = [i]
        id2pred.append(id)
        tmp = id
    else:
        signal2slices[id].append(i)
# signal2slices[id].append(i)
signal2slices[27] = [len(signal_dct.items())]
id2pred.append(27)

print(signal2slices)
print(id2pred)

{21: [0, 1, 2, 3, 4, 5, 7], 39: [6, 76, 77, 78, 79], 25: [8, 9, 10, 11, 12, 13, 14], 23: [15, 16, 17, 18, 19, 20, 21], 26: [22, 23, 24, 25, 26, 27, 28, 29, 30], 31: [31, 32, 33], 22: [34, 35, 36], 34: [37, 38, 39, 40, 41, 42, 43, 44], 28: [45, 46, 47, 48], 32: [49, 50, 51], 33: [52, 53, 54, 55, 56], 24: [57, 58], 30: [59, 60, 61, 62], 29: [63, 64, 65, 66, 67, 68, 69, 70], 36: [71, 72], 37: [73, 74, 75], 27: [80]}
[21, 39, 25, 23, 26, 31, 22, 34, 28, 32, 33, 24, 30, 29, 36, 37, 27]


In [26]:
model = model.cuda()

In [63]:
def predict(x):
    tokenized = tokenizer.encode_plus(x, 
                                      padding='max_length', 
                                      truncation=True,
                                      max_length=CFG.max_length, 
                                      return_offsets_mapping=False, 
                                      return_tensors='pt',
                                      is_split_into_words=True)

    inputs_cuda = {}
    for key, value in tokenized.items():
        if key != 'offset_mapping':
            inputs_cuda[key] = value.cuda()
    tokenized = inputs_cuda

    with torch.no_grad():
        output = model(tokenized)

    sim = (output.view(output.size()[0], -1) @ targets).cpu()[0].softmax(-1)
    # print(sim)
    # sims = torch.cat([sims, sim.cpu()], dim=0)
    
    max_probs, max_is = [0.05, 0.05], [27, 38]
    for i, (k, v) in enumerate(signal2slices.items()):
        prob = sim[v].sum() / len(v)
        # prob = sim[0][v[:2]].sum() / 2
        
        if id2pred[i] < 35 and prob > max_probs[0]:
            max_probs[0] = prob
            max_is[0] = id2pred[i]
        elif prob > max_probs[1]:
            max_probs[1] = prob
            max_is[1] = id2pred[i]
#         if prob > max_probs[1]:
#             max_probs[1] = prob
#             max_is[1] = i
            
#             if prob > max_probs[0]:
#                 max_probs[0], max_probs[1] = max_probs[1], max_probs[0]
#                 max_is[0], max_is[1] = max_is[1], max_is[0]
    
    # pred = id2pred[max_i]
    first, second = max_is[0], max_is[1]
    return first, second

In [64]:
ans_word_len = 3
targets = torch.Tensor()
for key in signal_dct.keys():
    target = torch.zeros(ans_word_len, len(CFG.tokenizer)).int()
    t = CFG.tokenizer(key)['input_ids'][1:-1]
    if len(t) > ans_word_len:
        t = t[:ans_word_len]
    target[torch.arange(len(t)), t] = 1
    if len(t) < ans_word_len:
        target[torch.arange(len(t), ans_word_len), CFG.tokenizer.eos_token_id] = 1
    targets = torch.cat([targets, target.unsqueeze(0)], dim=0)
    
target = torch.zeros(ans_word_len, len(CFG.tokenizer)).int()
target[0:ans_word_len, CFG.tokenizer.none_token_ids] = 1
targets = torch.cat([targets, target.unsqueeze(0)], dim=0)
print(targets.shape)

torch.Size([81, 3, 21132])


In [65]:
# preds = torch.Tensor()
f = open('/root/autodl-tmp/output.conll', 'w+', encoding='utf-8')

targets = targets.view(targets.size()[0], -1).T.cuda()
sims = torch.Tensor()
cnt = 0
for sample in tqdm(sample_lst):
    word_lst = []
    signal = -1
    saves = []
    for i, dep in enumerate(sample[:-1]):
        word_lst.append(dep.word)
        saves.append([dep.id, dep.word, dep.head, dep.rel])
        
        if dep.word in punct_lst and sample[i+1].word not in punct_lst:
            x = prompt.split(' ') + ['[SEP]'] + word_lst
            word_lst = []
            signal1, signal2 = predict(x)
            # preds = torch.cat([preds, torch.tensor([pred])], dim=0)
            cnt += 1
            for save in saves:
                line = f'{save[0]}\t{save[1]}\t{signal1}\t{signal2}\t_\t_\t{save[2]}\t{save[3]}\t_\t_\n'
                f.write(line)
            saves = []
    
    if i + 1 < CFG.max_length and len(sample) > 0:
        word_lst.append(sample[-1].word)
        saves.append([sample[-1].id, sample[-1].word, sample[-1].head, sample[-1].rel])
        
        x = prompt.split(' ') + ['[SEP]'] + word_lst
        signal1, signal2 = predict(x)
        # preds = torch.cat([preds, torch.tensor([pred])], dim=0)
        cnt += 1
        for save in saves:
            line = f'{save[0]}\t{save[1]}\t{signal1}\t{signal2}\t_\t_\t{save[2]}\t{save[3]}\t_\t_\n'
            f.write(line)
            
    f.write('\n')

# print(preds.shape)
print(cnt)
f.close()

  1%|          | 201/20086 [00:02<04:10, 79.46it/s]


KeyboardInterrupt: 

In [30]:
from itertools import chain

def load_codt_signal(data_file: str):
    sentence:List[Dependency] = []

    with open(data_file, 'r', encoding='utf-8') as f:
        # data example: 1	上海	_	NR	NR	_	2	nn	_	_
        for line in f.readlines():
            toks = line.split()
            if len(toks) == 0 and len(sentence) != 0:
                yield sentence
                sentence = []
            elif len(toks) == 10:
                signal = int(toks[2])
                sentence.append(signal)

In [31]:
cnt = 0
for sentence in load_codt_signal('/root/autodl-tmp/output.conll'):
    cnt += 1
print(cnt)

20086


In [32]:
f = open('/root/autodl-tmp/output.conll', 'r', encoding='utf-8')

cnt = 0
for line in f.readlines():
    if line == '\n':
        cnt += 1

print(cnt)
f.close()

20086


In [None]:
assert False

# Case

In [35]:
prompt = '能 表现 篇章 语义 信号 的 词 是 ： [MASK] [MASK] [MASK]'

In [36]:
text = '没有 付款'

In [37]:
id2signal = list(signal_dct.keys())
print(id2signal)

['说', '表示', '看到', '显示', '知道', '认为', '希望', '指出', '如果', '假如', '的话', '若', '如', '要是', '倘若', '因为', '所以', '导致', '因此', '造成', '由于', '因而', '但是', '可是', '但', '竟', '却', '不过', '居然', '而是', '反而', '以及', '并且', '或者', '对于', '自从', '上次', '明天', '晚上', '到时候', '再', '然后', '接下来', '最后', '随后', '为了', '使', '为 的', '为 了', '通过', '必须', '点击', '对 吗', '是 吗', '对 吧', '是 吧', '对 ?', '别 的', '另外', '解释', '比如', '例如', '是 这样', '理想', '真 棒', '太 棒', '真差', '太 差', '不 行', '扯皮', '这么 麻烦', '情况', '为什么', '吗', '?', '什么', '请', '麻烦', '让', '咨询']


In [67]:
word_lst = text.split(' ')
x = prompt.split(' ') + ['[SEP]'] + word_lst
print(x)

['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '没有', '付款']


In [68]:
signal1, signal2 = predict(x)

In [70]:
signal1, signal2

(27, 38)

In [40]:
tokenized = tokenizer.encode_plus(x, 
                                  padding='max_length', 
                                  truncation=True,
                                  max_length=CFG.max_length, 
                                  return_offsets_mapping=True, 
                                  return_tensors='pt',
                                  is_split_into_words=True)
inputs_cuda = {}
for key, value in tokenized.items():
    if key != 'offset_mapping':
        inputs_cuda[key] = value.cuda()
tokenized = inputs_cuda

In [73]:
signal_dct[labels[0][0]]

37

In [91]:
targets = targets.view(targets.size()[0], -1).T.cuda()
sims = torch.Tensor()
cnt = 0
for sample, label in tqdm(zip(sample_lst, labels)):
    word_lst = []
    signal = -1
    saves = []
    for i, dep in enumerate(sample[:-1]):
        word_lst.append(dep.word)
        saves.append([dep.id, dep.word, dep.head, dep.rel])
        
        if dep.word in punct_lst and sample[i+1].word not in punct_lst:
            x = prompt.split(' ') + ['[SEP]'] + word_lst
            # for w in ['但是', '但', '可是', '却']:
            for w in ['如果', '的话', '假如']:
                if w in x:
                    x.remove(w)
                    print(x)
                    signal1, signal2 = predict(x)
                    print(signal1)
            cnt += 1
            saves, word_lst = [], []
    
    if i + 1 < CFG.max_length and len(sample) > 0:
        word_lst.append(sample[-1].word)
        saves.append([sample[-1].id, sample[-1].word, sample[-1].head, sample[-1].rel])
        
        x = prompt.split(' ') + ['[SEP]'] + word_lst
        signal1, signal2 = predict(x)
        
        cnt += 1

117it [00:01, 84.33it/s]

['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '亲亲', '您', '对', '我们', '的', '产品', '了解', '比较', '清楚', '，']
27


243it [00:02, 84.35it/s]

['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '您', '需要', '内存卡', '，']
27


558it [00:06, 81.04it/s]

['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '没有', '的话', '，']
25
['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '没有', '，']
27


675it [00:07, 84.36it/s]

['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '商家', '承诺', '了', '，']
27


738it [00:08, 84.81it/s]

['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '后续', '商家', '未', '回复', '您', '的', '信息', '，']
27


873it [00:10, 77.61it/s]

['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '您', '修改', '不', '了', '，']
27
['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '相距', '不', '远', '，']
27
['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '不能', '修改', '，']
27


1116it [00:13, 78.22it/s]

['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '后续', '主', '商品', '收到', '可以', '给', '您', '申请', '补发', '，']
27
['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '主产品', '收到', '，']
27


1161it [00:13, 80.19it/s]

['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '您', '方便', '麻烦', '再', '确认', '一下', '。']
27


1863it [00:21, 100.67it/s]

['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '不', '明白', '能', '否', '电话', '沟通', '?']
27


2017it [00:23, 104.29it/s]

['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '亲', '您', '暂时', '没', '什么', '问题', '，']
27


2105it [00:24, 86.16it/s] 

['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '[', '数字', ']', '-', '[', '数字', ']', '天', '之间', '送达', '的', '哦', '海关', '清', '关', '速度', '快', '，']
27
['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '咱们', '商品', '[', '数字', ']', '天', '内', '有', '质量', '问题', '可以', '售后', '提交', '退', '货', '申请', '的', '哦', '[', '数字', ']', '但是', '不是', '质量', '问题', '咱们', '是', '不', '支持', '的', '哦', '，']
32
['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '过', '了', '七', '天', '出', '问题', '，']
27


2342it [00:26, 86.65it/s]

['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '没有', '，']
27


2477it [00:28, 83.99it/s]

['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '到时候', '给', '我', '，']
25


2495it [00:28, 81.13it/s]

['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '注销', '，']
27


2828it [00:32, 85.24it/s]

['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '您', '还', '有', '问题', '可以', '随时', '提问', '哦', '，']
25


2972it [00:34, 83.90it/s]

['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '您', '的', '商品', '需要', '安装', '的话', '会', '在', '订单', '完成', '第二', '天', '我们', '的', '师傅', '上', '门', '为', '您', '安装', '哦', '~']
25
['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '您', '的', '商品', '需要', '安装', '会', '在', '订单', '完成', '第二', '天', '我们', '的', '师傅', '上', '门', '为', '您', '安装', '哦', '~']
27


3332it [00:38, 78.57it/s]

['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '取消', '，']
27


3404it [00:39, 73.70it/s]

['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '我', '不是', '会员', '，']
27
['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '我', '不是', '会员', '，']
27
['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '我', '那个', '那', '之前', '买', '那个', '退', '货', '，']
27


3430it [00:39, 75.26it/s]

['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '您', '喜欢', '，']
27
['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '这个', '屏幕', '，']
27


3664it [00:42, 82.04it/s]

['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '若', '您', '需要', '妹纸', '也', '可以', '将', '下', '单', ';']
25


3772it [00:43, 81.33it/s]

['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '今后', '再', '遇到', '什么', '疑问', '，']
25


3799it [00:44, 77.71it/s]

['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '您', '确实', '不', '需要', '这', '款', '商品', '呢', '，']
27
['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '不', '签收', '退', '款', '周期', '比较', '长', '，']
27
['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '不', '签收', '退', '款', '周期', '比较', '长', '，']
27


3897it [00:45, 82.06it/s]

['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '商家', '收到', '您', '的', '取消', '，']
27


3960it [00:46, 81.38it/s]

['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '商品', '存在', '质量', '问题', '影响', '了', '您', '的', '正常', '使用', '，']
27


4086it [00:47, 83.32it/s]

['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '有', '活动', '都', '会', '在', '页面', '说明', '的', '，']
27
['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '您', '您', '还', '有', '问题', '可以', '随时', '提问', '哦', '，']
25


4131it [00:48, 81.63it/s]

['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '是', '男士', '的', '工作鞋', '，']
27
['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '女士', '，']
27


4491it [00:52, 84.54it/s]

['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '您', '要', '恢复', '订单', '，']
27
['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '不', '成功', '，']
27
['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '正常', '给', '您', '配送', '，']
27


4707it [00:54, 84.88it/s]

['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '年份', '调高至', '[', '数字', ']', '年会', '自动', '回', '到', '[', '数字', ']', '年', '，']
27


4743it [00:55, 84.56it/s]

['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '我', '这边', '有', '结果', '，']
27


4896it [00:56, 85.30it/s]

['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '您', '还', '需要', '此', '商品', '，']
27


4995it [00:58, 85.75it/s]

['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '还', '有', '过敏', '现象', '，']
27


5094it [00:59, 84.77it/s]

['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '不是', '商品质量', '问题', '，']
27


5202it [01:00, 84.27it/s]

['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '拦截', '不', '成功', '，']
27
['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '快递', '发', '过来', '了', '，']
27
['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '快递', '来', '了', '，']
27


5359it [01:01, 105.17it/s]

['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '亲爱', '的', '距离', '远', '吗', '不是', '很', '远', '的话', '您', '希望', '送到', '哪里', '呢', '?']
25
['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '亲爱', '的', '距离', '远', '吗', '不是', '很', '远', '您', '希望', '送到', '哪里', '呢', '?']
25


5453it [01:02, 108.12it/s]

['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '今后', '再', '遇到', '什么', '疑问', '，']
25


5588it [01:03, 107.78it/s]

['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '延保', '，']
27


5705it [01:05, 107.74it/s]

['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '选择', '集中', '开', '票', '，']
27


5716it [01:05, 104.09it/s]

['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '原', '返', '，']
27


5817it [01:06, 104.09it/s]

['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '您', '不', '方便', '签收', '可以', '和', '配送员', '协商', '下次', '送', '货', '，']
27
['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '时间', '还是', '不', '合适', '可以', '和', '配送员', '协商', '下次', '送', '货', '，']
27


5907it [01:06, 102.26it/s]

['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '取消', '，']
27
['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '您', '这边', '确定', '取消', '，']
27


6206it [01:09, 104.89it/s]

['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '不', '看好', '京东', '，']
27


6349it [01:11, 102.19it/s]

['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '没有', '开', '，']
27
['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '开', '的', '个人', '，']
27


6481it [01:12, 105.76it/s]

['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '京东', '配送', '速度', '也', '是', '比较', '快', '的', '需要', '建议', '及时', '购买', '，']
27


6734it [01:14, 104.62it/s]

['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '更改', '地址', '，']
27


6855it [01:15, 102.09it/s]

['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '你', '看', '能', '给', '我', '取消', '我', '重下', '，']
27
['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '不能', '的话', '我', '到', '时', '可以', '收', '货', '，']
25
['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '不能', '我', '到', '时', '可以', '收', '货', '，']
27


7331it [01:20, 107.91it/s]

['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '申请', '退', '款', '，']
27


7365it [01:20, 105.73it/s]

['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '登录', '时', '输入', '用户名', '或', '手机号', '或', '邮箱', '(', '有', ')', '加上', '密码', '登录', '账户', '就', '可以', '了', '。']
27
['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '忘记', '密码', '可以', '点击', '忘记', '密码', '进行', '重置', '，']
32


7453it [01:21, 102.95it/s]

['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '您', '还', '有', '问题', '可以', '随时', '提问', '哦', '，']
25


7552it [01:22, 102.80it/s]

['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '可以', '我', '就', '不', '取消', '了', '，']
27


7585it [01:22, 101.70it/s]

['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '麻烦', '查下', '这个', '订单', '的', '状态', '顾客', '还要', '继续', '派送', '行', '吗', '，']
27
['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '这个', '解锁', '的话', '，']
25
['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '这个', '解锁', '，']
27
['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '继续', '派送', '，']
27


8195it [01:28, 100.87it/s]

['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '您', '想要', '的话', '，']
25
['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '您', '想要', '，']
27
['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '这', '款', '商品', '，']
27


8228it [01:28, 103.44it/s]

['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '您', '还', '需要', '此', '商品', '，']
27


8379it [01:30, 107.67it/s]

['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '这样', '，']
27


8401it [01:30, 106.54it/s]

['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '我', '没有', '网线', '，']
27


8547it [01:31, 106.18it/s]

['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '您', '放心', '确实', '有', '问题', '，']
27


8646it [01:32, 107.03it/s]

['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '—', '—', '点击', '应用', ')', '鼠标', '右', '[', '姓名', ']', '菜单', '没有', '“', 'NVIDIA', '”', '控制面板', '选项', '，']
32


8712it [01:33, 104.14it/s]

['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '商品', '存在', '质量', '问题', '影响', '了', '您', '的', '正常', '使用', '，']
27


8735it [01:33, 104.95it/s]

['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '拦截', '不', '成功', '，']
27
['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '您', '还', '有', '问题', '可以', '随时', '提问', '哦', '，']
25


8802it [01:34, 106.63it/s]

['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '师傅', '不', '上', '忙', '，']
27


9029it [01:36, 106.17it/s]

['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '我', '刚才', '的', '服务', '有', '不', '到位', '的', '地方', '，']
27


9163it [01:37, 107.23it/s]

['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '暂时', '没有', '其他', '的', '问题', '，']
27


9450it [01:39, 107.25it/s]

['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '确认', '收到', '了', '，']
27


9550it [01:40, 102.96it/s]

['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '您', '还', '有', '什么', '问题', '，']
27


9660it [01:41, 104.64it/s]

['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '您', '还', '有', '问题', '可以', '随时', '提问', '哦', '，']
25


9836it [01:43, 103.75it/s]

['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '暂时', '没有', '其他', '的', '问题', '，']
27


9946it [01:44, 98.91it/s] 

['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '码数', '不', '合适', '语言', '换', '的话', '，']
25
['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '码数', '不', '合适', '语言', '换', '，']
27
['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '那', '我', '签收', '了', '，']
27
['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '不', '合适', '要', '换', '，']
27
['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '我', '签收', '了', '，']
27
['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '要', '退', '换', '，']
27
['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '那', '要', '换', '的话', '，']


9967it [01:44, 94.25it/s]

25
['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '那', '要', '换', '，']
27
['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '我', '签收', '了', '，']
27


10758it [01:52, 103.19it/s]

['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '拦截', '不', '住', '，']
27
['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '拦截', '不', '住', '，']
27


10901it [01:53, 105.74it/s]

['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '今后', '再', '遇到', '什么', '疑问', '，']
25


10945it [01:53, 106.02it/s]

['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '方便', '，']
27


10967it [01:54, 102.88it/s]

['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '新', '旧', '订单', '不', '一样', '的话', '，']
25
['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '新', '旧', '订单', '不', '一样', '，']
27


11000it [01:54, 103.84it/s]

['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '您', '要是', '不', '想', '去', '实体店', '到', '货', '之后', '先', '不要', '安装', '，']
25


11132it [01:55, 101.41it/s]

['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '有', '就是', '可以', '修改', '的', '，']
27
['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '没有', '就是', '系统', '已经', '处理', '了', '您', '的', '订单', '了', '，']
27


11286it [01:57, 105.91it/s]

['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '专票', '已经', '开具', '，']
27


11330it [01:57, 105.06it/s]

['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '订单', '签收', '，']
27


11539it [01:59, 105.36it/s]

['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '我', '想', '知道', '这个', '杯子', '有', '质量', '问题', '，']
21


11605it [02:00, 104.11it/s]

['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '以', '旧', '换', '新', '，']
27


11682it [02:00, 101.91it/s]

['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '我', '刚才', '的', '服务', '有', '不', '到位', '的', '地方', '，']
27


11759it [02:01, 102.56it/s]

['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '不', '会', '，']
27
['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '有', '问题', '可以', '随时', '邮件', '到', '我', '的', '邮箱', ':']
27


11781it [02:01, 93.57it/s] 

['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '您', '还', '有', '问题', '可以', '随时', '提问', '哦', '，']
27
['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '您', '的', '问题', '解决', '好', '了', '我', '就', '放心', '了', '，']
27
['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '您', '您', '还', '有', '问题', '可以', '随时', '提问', '哦', '，']
25


12000it [02:04, 100.04it/s]

['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '您', '还', '有', '问题', '可以', '随时', '提问', '哦', '，']
27


12153it [02:05, 100.39it/s]

['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '您', '的', '商品', '有', '发', '错', '货', '问题', '，']
27


12296it [02:06, 103.42it/s]

['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '退', '款', '商品', '返回', '咱们', '仓库', '给', '您', '审核', '处理', '的', '哦', '，']
27


12428it [02:08, 100.87it/s]

['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '没', '选', '的话', '，']
25
['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '没', '选', '，']
27


12615it [02:10, 98.33it/s] 

['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '降', '价', '的话', '，']
25
['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '降', '价', '，']
27


13212it [02:16, 82.22it/s] 

['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '可以', '恢复', '，']
27
['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '那', '都', '退', '款', '完', '了', '，']
27
['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '不', '退', '。']


13230it [02:17, 79.83it/s]

27


13842it [02:24, 77.50it/s]

['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '只', '退', '十几块', '钱', '的话', '，']
25
['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '只', '退', '十几块', '钱', '，']
27


13918it [02:25, 78.70it/s]

['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '没有', '信号', '，']
27
['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '这样', '，']
27


14165it [02:28, 77.93it/s]

['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '检测', '结果', '有', '差异', '，']
27


14183it [02:28, 78.32it/s]

['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '不是', '很', '远', '，']
27


14210it [02:28, 79.46it/s]

['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '余额', '返卡', '只', '可', '提', '现', '至', '储蓄卡', '(', '是', '支票', '支付', '、', '公司', '转账', '退', '款', '产生', '的', '余额', '，']
27


14744it [02:35, 81.53it/s]

['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '没', '办法', '选择', '京东', '配送', '后期', '邮寄', '售后', '处理', '处理完毕', '，']
27


15104it [02:39, 73.92it/s]

['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '实在', '没', '办法', '的话', '，']
25
['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '实在', '没', '办法', '，']
27
['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '是', '抢购', '秒杀', '的话', '，']
25
['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '是', '抢购', '秒杀', '，']
27
['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '这样', '建议', '您', '选购', '一下', '其他', '手机', '或者', '让', '亲戚朋友', '代收', '呢', '，']


15121it [02:39, 76.36it/s]

25


15571it [02:45, 81.00it/s]

['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '下', '单', '的', '时候', '没有', '选择', '的话', '，']
25
['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '下', '单', '的', '时候', '没有', '选择', '，']
27


15598it [02:45, 74.69it/s]

['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '您', '的', '问题', '解决', '好', '了', '我', '就', '放心', '了', '，']
27
['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '您', '您', '还', '有', '问题', '可以', '随时', '提问', '哦', '，']
25
['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '您', '还', '有', '问题', '可以', '随时', '提问', '哦', '，']
25


15796it [02:47, 81.26it/s]

['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '滤芯', '，']
27


16489it [02:56, 83.82it/s]

['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '有', '什么', '需要', '预约', '的', '，']
27


16516it [02:56, 83.46it/s]

['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '价格', '呢', '，']
27
['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '魔兽', '，']
27


16534it [02:56, 81.42it/s]

['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '您', '看中', '这个', '，']
27


16606it [02:57, 84.25it/s]

['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '没', '专员', '有', '货', '可以', '发', '，']
27


16696it [02:58, 82.35it/s]

['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '亲爱', '的', '不', '懂', '随时', '问', '妹子', '哦', '，']
27


16822it [03:00, 83.40it/s]

['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '客户', '要', '取消', '，']
27


17029it [03:02, 82.21it/s]

['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '恢复', '订单', '，']
27
['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '有', '什么', '问题', '，']
27


17056it [03:02, 79.37it/s]

['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '有', '什么', '问题', '，']
27
['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '哪', '有', '有', '问题', '，']
27


17235it [03:04, 86.05it/s]

['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '通过', '微信', '支付', '，']
32


17298it [03:05, 83.81it/s]

['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '购买', '商品', '[', '数字', ']', '天', '内', '降', '价', '，']
27


17325it [03:06, 82.13it/s]

['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '您', '确实', '不', '需要', '这', '款', '商品', '呢', '，']
27
['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '不', '签收', '退', '款', '周期', '比较', '长', '，']
27


17388it [03:06, 85.21it/s]

['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '送', '货', '地点', '暂时', '无法', '进入', '，']
27


17514it [03:08, 95.75it/s] 

['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '问题', '解决', '好', '了', '，']
27
['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '您', '还', '有', '问题', '可以', '随时', '提问', '哦', '，']
25


17652it [03:09, 92.47it/s]

['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '是', '零钱', '支付', '的', '，']
27
['能', '表现', '篇章', '语义', '信号', '的', '词', '是', '：', '[MASK]', '[MASK]', '[MASK]', '[SEP]', '银行卡', '，']
27


17670it [03:09, 93.10it/s]


KeyboardInterrupt: 