In [1]:
import sys
sys.path.append('..')

import torch
import numpy as np

from utils import ntf
from pipeline import PipelineGED

from transformers import logging
logging.set_verbosity_error()

In [2]:
checkpoints = [
    '../finetuned_models/ner_run_aug_74866/fold0/checkpoint-12195/pytorch_model.bin', 
    # '../finetuned_models/ner_run_aug_74866/fold1/checkpoint-12195/pytorch_model.bin', 
    # '../finetuned_models/ner_run_aug_74866/fold2/checkpoint-12195/pytorch_model.bin', 
    # '../finetuned_models/ner_run_aug_74866/fold3/checkpoint-8130/pytorch_model.bin', 
    # '../finetuned_models/ner_run_aug_74866/fold4/checkpoint-4065/pytorch_model.bin', 
    # '../finetuned_models/ner_run_aug_74866/fold5/checkpoint-8130/pytorch_model.bin', 
    # '../finetuned_models/ner_run_aug_74866/fold6/checkpoint-12195/pytorch_model.bin', 
    # '../finetuned_models/ner_run_aug_74866/fold7/checkpoint-8130/pytorch_model.bin', 
    # '../finetuned_models/ner_run_aug_74866/fold8/checkpoint-8130/pytorch_model.bin', 
    # '../finetuned_models/ner_run_aug_74866/fold9/checkpoint-12195/pytorch_model.bin'
]
model_name = 'hfl/chinese-macbert-base'


device = torch.device("cpu")
# device = torch.device("cuda:0")

data_configs = {
    'model_name':model_name,
    'maxlength':128,
    'train_val_split':-1,
    'test':True, 
    'remove_username':False,
    'remove_punctuation':False, 
    'to_simplified':False, 
    'emoji_to_text':False, 
    'split_words':False, 
    'cut_all':False, 
}
clf = PipelineGED(model_name=model_name, data_configs=data_configs)

def apply_ged_pipeline(texts):
    probs, seq_probs = clf(texts=texts, checkpoints=checkpoints, device=device, output_probabilities=True)
    print(probs)

In [9]:
## 搭配
texts = [
    '女娲有一双聪明能干的手。', 
    '女娲有一双能干的手。', 
    '女娲有一双聪明的手。', 
]

apply_ged_pipeline(texts)

  indexed_value = torch.tensor(value[index]).squeeze()


女娲有一双聪明能干的手。
['手' '。']
女娲有一双能干的手。
[]
女娲有一双聪明的手。
['手' '。']
[[0.34785727 0.6521427 ]
 [0.98132277 0.01867724]
 [0.2169356  0.7830643 ]]


In [10]:
texts = [
    '张强从小生活在爷爷奶奶身边，因而对父母有着浓厚的感情。', 
    '张强从小生活在爷爷奶奶身边，却对父母有着浓厚的感情。',
]

apply_ged_pipeline(texts)

  indexed_value = torch.tensor(value[index]).squeeze()


张强从小生活在爷爷奶奶身边，因而对父母有着浓厚的感情。
['因']
张强从小生活在爷爷奶奶身边，却对父母有着浓厚的感情。
[]
[[0.4644153  0.5355847 ]
 [0.9779377  0.02206223]]


In [13]:
texts = [
    '雨珠砸在玻璃上，发出噼噼啪啪的声响。', 
    '雨珠砸在玻璃上，发出噼噼啪啪的声音。', 
]

apply_ged_pipeline(texts)

  indexed_value = torch.tensor(value[index]).squeeze()


雨珠砸在玻璃上，发出噼噼啪啪的声响。
['响']
雨珠砸在玻璃上，发出噼噼啪啪的声音。
[]
[[0.46136987 0.5386302 ]
 [0.9908223  0.00917768]]


In [16]:
texts = [
    '我们不仅要在课外学语文，还要在课堂中学语文。', 
    '我们不仅要在课堂中学语文，还要在课外学语文。', 
]

apply_ged_pipeline(texts)

  indexed_value = torch.tensor(value[index]).squeeze()


我们不仅要在课外学语文，还要在课堂中学语文。
[]
我们不仅要在课堂中学语文，还要在课外学语文。
[]
[[0.94891137 0.0510886 ]
 [0.9909361  0.00906394]]


In [19]:
texts = [
    '熟悉小华的人都知道，他在生活中并不是一个活泼开朗的人。', 
    '熟悉小华的人都知道，他在生活中并不是一个活泼开朗的人', 
]
apply_ged_pipeline(texts)

  indexed_value = torch.tensor(value[index]).squeeze()


熟悉小华的人都知道，他在生活中并不是一个活泼开朗的人。
['。']
熟悉小华的人都知道，他在生活中并不是一个活泼开朗的人
[]
[[0.44460878 0.55539125]
 [0.66021276 0.33978721]]


In [23]:
texts = [
    '杨洋经过三年的艰苦拼搏，在此次中考中取得了优异的成绩。', 
    '经过三年的艰苦拼搏，杨洋在此次中考中取得了优异的成绩。', 
]

apply_ged_pipeline(texts)

  indexed_value = torch.tensor(value[index]).squeeze()


杨洋经过三年的艰苦拼搏，在此次中考中取得了优异的成绩。
['经']
经过三年的艰苦拼搏，杨洋在此次中考中取得了优异的成绩。
[]
[[0.44143602 0.55856395]
 [0.9954104  0.00458963]]


In [29]:
texts = [
    '小明待人非常大方友善得很。', 
    '小明待人非常大方友善。', 
]

apply_ged_pipeline(texts)

  indexed_value = torch.tensor(value[index]).squeeze()


小明待人非常大方友善得很。
[]
小明待人非常大方友善。
[]
[[0.66976124 0.3302388 ]
 [0.9684443  0.03155573]]


In [21]:
# 语义：单面对双面
texts = [
    '他为了民族的兴亡和人民的利益奋斗了一生。', 
    '他为了民族的复兴和人民的利益奋斗了一生。', 
]

apply_ged_pipeline(texts)

  indexed_value = torch.tensor(value[index]).squeeze()


他为了民族的兴亡和人民的利益奋斗了一生。
[]
他为了民族的复兴和人民的利益奋斗了一生。
[]
[[0.55955344 0.44044662]
 [0.93049335 0.06950669]]


In [51]:
texts = [
    '我不禁怀疑这条题目是不是老师讲错了。', 
    '我不禁怀疑这道题目是老师讲错了。', 
]

probs, seq_probs = clf(texts=texts, checkpoints=checkpoints, device=device, output_probabilities=True)


  indexed_value = torch.tensor(value[index]).squeeze()


我不禁怀疑这条题目是不是老师讲错了。
[]
我不禁怀疑这道题目是老师讲错了。
[]


In [32]:
texts = [
    '面对经济不断下行的形势，政府采取了一系列措施来刺激消费，以促进经济繁荣和复苏。', 
    '面对经济不断下行，政府采取了一系列措施来刺激消费，以促进经济繁荣和复苏。'
]
apply_ged_pipeline(texts)

  indexed_value = torch.tensor(value[index]).squeeze()


面对经济不断下行的形势，政府采取了一系列措施来刺激消费，以促进经济繁荣和复苏。
['和' '复' '苏' '。']
面对经济不断下行，政府采取了一系列措施来刺激消费，以促进经济繁荣和复苏。
['面' '对' '经' '济' '不' '断' '下' '行' '，' '政' '府' '采' '取' '了' '一' '系' '列' '措'
 '施' '来' '刺' '消' '费' '，' '以' '促' '进' '经' '济' '繁' '荣' '和' '复' '苏' '。']
[[0.24557753 0.7544225 ]
 [0.01715383 0.9828462 ]]


In [52]:
texts = [
    '从小明这一个简单的举动中，可以让人看出他是一个细心的好孩子。', 
    '小明这一个简单的举动，可以让人看出他是一个细心的好孩子。', 
]

probs, seq_probs = clf(texts=texts, checkpoints=checkpoints, device=device, output_probabilities=True)

texts = [
    '我想，人是由三部分组成的：对往事的追忆、对未来的憧憬和对现时的把握。', 
    '我想，人是由三部分组成的：对往事的追忆、对现时的把握和对未来的憧憬。', 
]

probs, seq_probs = clf(texts=texts, checkpoints=checkpoints, device=device, output_probabilities=True)

  indexed_value = torch.tensor(value[index]).squeeze()


从小明这一个简单的举动中，可以让人看出他是一个细心的好孩子。
['从' '小' '明' '这' '一' '个' '简' '单' '的' '举' '动' '中' '，' '可' '以' '让' '人' '看'
 '出' '他' '是' '一' '个' '细' '心' '的' '好' '孩' '子' '。']
小明这一个简单的举动，可以让人看出他是一个细心的好孩子。
[]


  indexed_value = torch.tensor(value[index]).squeeze()


我想，人是由三部分组成的：对往事的追忆、对未来的憧憬和对现时的把握。
['由' '：' '的' '、' '对' '的' '和' '的' '。']
我想，人是由三部分组成的：对往事的追忆、对现时的把握和对未来的憧憬。
[]


In [53]:
# 成分残缺/赘余

texts = [
    '时光的流逝不能让我淡去对故乡浓浓的思念，反之，随着年龄的增长，对故乡的思念愈发日久弥坚。', 
    '时光的流逝不能让我淡去对故乡浓浓的思念，反之，随着年龄的增长，对故乡的思念日久弥坚。', 
]

probs, seq_probs = clf(texts=texts, checkpoints=checkpoints, device=device, output_probabilities=True)

  indexed_value = torch.tensor(value[index]).squeeze()


时光的流逝不能让我淡去对故乡浓浓的思念，反之，随着年龄的增长，对故乡的思念愈发日久弥坚。
['时' '光' '的' '流' '逝' '不' '能' '让' '我' '淡' '去' '对' '故' '乡' '浓' '浓' '的' '思'
 '念' '，' '反' '之' '，' '随' '着' '年' '龄' '的' '增' '长' '，' '对' '故' '乡' '的' '思'
 '念' '愈' '发' '日' '久' '弥' '坚' '。']
时光的流逝不能让我淡去对故乡浓浓的思念，反之，随着年龄的增长，对故乡的思念日久弥坚。
['，' '反' '之' '，' '随' '着' '，' '对' '的' '日' '久' '弥' '坚' '。']


In [35]:
texts = [
    '朱悦报了一个培训班，她固执的思想却依然没有改变。', 
    '朱悦报了一个培训班，她固执的思想却依然没有改变。', 
]

probs, seq_probs = clf(texts=texts, checkpoints=checkpoints, device=device, output_probabilities=True)

  indexed_value = torch.tensor(value[index]).squeeze()


朱悦报了一个培训班，她固执的思想却依然没有改变。
['朱' '悦' '报' '了' '一' '个' '培' '训' '班' '，' '她' '固' '执' '的' '思' '想' '却' '依'
 '然' '没' '有' '改' '变' '。']
朱悦报了一个培训班，她固执的思想却依然没有改变。
['朱' '悦' '报' '了' '一' '个' '培' '训' '班' '，' '她' '固' '执' '的' '思' '想' '却' '依'
 '然' '没' '有' '改' '变' '。']


In [54]:
texts = [
    '下午三点整，参加典礼的群众全部到齐了。',
     '下午三点整，参加典礼的群众到齐了。',
     '下午三点整，参加典礼的群众全部到了。',
]

probs, seq_probs = clf(texts=texts, checkpoints=checkpoints, device=device, output_probabilities=True)

  indexed_value = torch.tensor(value[index]).squeeze()


下午三点整，参加典礼的群众全部到齐了。
[]
下午三点整，参加典礼的群众到齐了。
[]
下午三点整，参加典礼的群众全部到了。
[]
