In [4]:
from utils.misc import (
    load_config,
    make_logger,
    neq_load_customized,
    move_to_device
)
from utils.progressbar import ProgressBar
from dataset.Dataloader import build_dataloader
from modelling.model import build_model
from copy import deepcopy
from opencc import OpenCC
from collections import defaultdict
import logging
import os
import torch



In [2]:
config = "configs/T2G_tvb.yaml"
cfg = load_config(config)

ckpt_name = "best.ckpt"
external_logits = None

In [3]:
model_dir = cfg['training']['model_dir']
print(f"model dir: {model_dir}")
os.makedirs(model_dir, exist_ok=True)
log_file='prediction.log'

model dir: ../../data/tvb/T2G_tvb_lr1e-4


In [4]:
logger = logging.getLogger(__name__)
logger.setLevel(level=logging.DEBUG)
fh = logging.FileHandler("{}/{}".format(model_dir, log_file))
fh.setLevel(level=logging.DEBUG)
logger.addHandler(fh)
formatter = logging.Formatter("%(asctime)s %(message)s")
fh.setFormatter(formatter)
logger = make_logger(model_dir=model_dir, log_file='prediction.log')

In [5]:
cfg['device'] = torch.device('cuda')
model = build_model(cfg)
do_translation, do_recognition = cfg['task'] not in ['S2G','T2G'], cfg['task'] not in ['G2T','T2G']
for datasetname in cfg['datanames']:
    logger.info('Evaluate '+datasetname)
    load_model_path = os.path.join(model_dir,'ckpts',datasetname+'_'+ckpt_name)
    if os.path.isfile(load_model_path):
        state_dict = torch.load(load_model_path, map_location='cuda')
        neq_load_customized(model, state_dict['model_state'], verbose=True)
        epoch, global_step = state_dict.get('epoch',0), state_dict.get('global_step',0)
        logger.info('Load model ckpt from '+load_model_path)
    else:
        logger.info(f'{load_model_path} does not exist')
        epoch, global_step = 0, 0
cfg_ = deepcopy(cfg)
cfg_['datanames'] = [datasetname]
cfg_['data'] = {k:v for k,v in cfg['data'].items() if not k in cfg['datanames'] or k==datasetname}

2024-12-18 09:52:35,674 Initialize translation network from ../../pretrained_models/mBart_tvb_t2g


6475


2024-12-18 09:52:37,762 Evaluate tvb
2024-12-18 09:52:40,994 Load model ckpt from ../../data/tvb/T2G_tvb_lr1e-4/ckpts/tvb_best.ckpt


['translation_network.model.final_logits_bias', 'translation_network.model.model.shared.weight', 'translation_network.model.model.encoder.embed_tokens.weight', 'translation_network.model.model.encoder.embed_positions.weight', 'translation_network.model.model.encoder.layers.0.self_attn.k_proj.weight', 'translation_network.model.model.encoder.layers.0.self_attn.k_proj.bias', 'translation_network.model.model.encoder.layers.0.self_attn.v_proj.weight', 'translation_network.model.model.encoder.layers.0.self_attn.v_proj.bias', 'translation_network.model.model.encoder.layers.0.self_attn.q_proj.weight', 'translation_network.model.model.encoder.layers.0.self_attn.q_proj.bias', 'translation_network.model.model.encoder.layers.0.self_attn.out_proj.weight', 'translation_network.model.model.encoder.layers.0.self_attn.out_proj.bias', 'translation_network.model.model.encoder.layers.0.self_attn_layer_norm.weight', 'translation_network.model.model.encoder.layers.0.self_attn_layer_norm.bias', 'translation

In [18]:
split = "dev"
val_dataloader, sampler = build_dataloader(cfg_, split, model.text_tokenizer, model.gloss_tokenizer, mode='test')

2024-12-18 09:55:04,568 ../../data/tvb/v5.7_dev_sim.pkl gloss_length 16.22+_7.6
2024-12-18 09:55:04,569 Merged Datasets:
2024-12-18 09:55:04,569 tvb:322


In [19]:
generate_cfg=cfg_['testing']['cfg']
logger.info(generate_cfg)

2024-12-18 09:55:06,037 {'recognition': {'beam_size': 1}, 'translation': {'length_penalty': 1, 'max_length': 100, 'num_beams': 5}}


In [20]:
pbar = ProgressBar(n_total=len(val_dataloader), desc='Validation')

In [21]:
if epoch!=None:
    logger.info('Evaluation epoch={} validation examples #={}'.format(epoch, len(val_dataloader.dataset)))
elif global_step!=None:
    logger.info('Evaluation global step={} validation examples #={}'.format(global_step, len(val_dataloader.dataset)))
model.eval()
total_val_loss = defaultdict(int)
dataset2results = defaultdict(lambda: defaultdict(dict))
cc = OpenCC('s2t')
logits_dict = {}
tot_time = 0

2024-12-18 09:55:07,763 Evaluation epoch=12 validation examples #=322


In [83]:
batch_0 = None
with torch.no_grad():
    for step, batch in enumerate(val_dataloader):
        if step == 3:
            batch_0 = batch

278192818

25200我們

宮獲112738


235213221761甚麼


簽署詐騙

58192147004
18418
階段
偽9141這樣



6395445488243761


貿易
嚴鈔市場

2298517063095571



肅兩人協議

270547808
3625
執

3451無

開
19205

76900時間241702
換
3588


鑼確126721從


133971騙
2060205497
59287



淚沒有合約診



38542161054411158705


彈
貨百萬

個117080

91025
17565攤
26335

幣
不會
44789興


4220146374檔

61317那種區


38044
▁我們

40742情況

63867
63874衛

狀擔心7728


1450663874兩


39353傳擔心
102745
9528
71904


漢擴▁現在


強
2047110840742433


旅遊76900
範13337評


33535離
確13800



意識5928715129級


診

9528治療48885
3824


醫院2705
點
強無28833



152255進入4955
20329

症狀
出現發
752967648

36893

熱63867穩


燒

狀1333780561557



76900離
他們會


確116408151037240



59287嗎
縮

診接觸15389112738


95621
甚麼關

醫學11382


4411844633451
沒

個

觀察112738時間


甚麼146850

13783
另一個國家

5248340742

部門衛

162464411

個對於

1949982818

現時我們

4888952947
166113
61317當地

衛生
質疑9466▁我們


60827
總184742

39353
10100整體

漢處於61317



56722▁我們
數
69471
隱138579165003



一定會廣東關鍵244144



3854710256449162瞞



維持時刻考慮45798



1545導致
1690

In [92]:
batch_0

{'name': ['2020-01-18/023207-023337'],
 'gloss': ['多 人 一 樣 不 多 支持 警察 嚴'],
 'text': ['但是非大部分市民是這樣 有很多市民支持警方嚴肅執法'],
 'num_frames': [None],
 'datasetname': 'tvb',
 'translation_inputs': {'input_ids': tensor([[ 603, 1903,  337,  457,  477,    3,   30, 1296,  457, 1809,  629,    3,
              3,    3,  568,    2,    7]], device='cuda:0'),
  'attention_mask': tensor([[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]], device='cuda:0'),
  'labels': tensor([[ 20, 123,  29,   3,  43,  20, 803,   9,   3,   2,   7]],
         device='cuda:0'),
  'decoder_input_ids': tensor([[  7,  20, 123,  29,   3,  43,  20, 803,   9,   3,   2]],
         device='cuda:0')}}

In [93]:
with torch.no_grad():
    batch_0 = move_to_device(batch_0, cfg['device'])
    forward_output = model(is_train=False, **batch_0)
    generate_output = model.generate_txt(
                    transformer_inputs=forward_output['transformer_inputs'],
                    generate_cfg=generate_cfg['translation'])
    for name, hyp, txt_ref, gls_ref in zip(batch_0['name'], generate_output['decoded_sequences'], batch_0['text'], batch_0['gloss']):
        clean_hyp = [g for g in hyp.split(' ') if g not in model.gloss_tokenizer.special_tokens]
        clean_hyp = ' '.join(clean_hyp)
        gls_hyp = cc.convert(clean_hyp).upper() if model.gloss_tokenizer.lower_case else hyp
        gls_ref = cc.convert(gls_ref).upper() if model.gloss_tokenizer.lower_case else gls_ref
        print(gls_hyp)
        print(gls_ref)

說 多 人 支持 警察 法
多 人 一 樣 不 多 支持 警察 嚴


['说 多 人 支持 警察 <unk> 法 </s>']

In [16]:
cfg["data"]

{'multi': True,
 'tvb': {'input_data': 'videos',
  'input_streams': ['rgb'],
  'zip_file': '../../data/tvb/tvb',
  'dev': '../../data/tvb/v5.7_dev_sim.pkl',
  'test': '../../data/tvb/v5.7_dev_sim.pkl',
  'train': '../../data/tvb/v5.7_dev_sim.pkl',
  'dataset_name': 'tvb',
  'level': 'char',
  'max_sent_length': 400,
  'txt_lowercase': True,
  'keypoint_file': None},
 'input_data': 'videos',
 'level': 'char',
 'dataset_name': 'tvb',
 'render_res_file': None,
 'render_cfg_file': None,
 'aug_angle': 0,
 'max_sent_length': 400,
 'input_streams': ['rgb']}

In [7]:
from dataset.Dataset import SignLanguageDataset
dataset = SignLanguageDataset(cfg["data"]["tvb"], "dev")

2024-12-18 09:53:36,373 ../../data/tvb/v5.7_dev_sim.pkl gloss_length 16.22+_7.6


In [8]:
len(dataset)

322

In [9]:
dataset[0]

({'name': '2020-01-16/000453-000550',
  'gloss': '內地 美國 屋 簽署 第 一 階段 經濟 協議',
  'text': '中美在白宮簽署首階段貿易協議'},
 'tvb')

In [11]:
from dataset.Dataloader import collate_fn_

collated = collate_fn_(dataset, data_cfg=cfg["data"]["tvb"], task=cfg["task"], is_train=False, dataset=dataset,
    text_tokenizer=model.text_tokenizer, gloss_tokenizer=model.gloss_tokenizer)

27819
宮
235213
簽署
58192
階段
63954
貿易
95571
協議
25200
獲
221761
詐騙
147004
偽
243761
鈔
70630
兩人
2705
無
19205
換
126721
騙
206020
合約
158705
百萬
91025
幣
2818
我們
112738
甚麼
18418
這樣
45488
嚴
229851
肅
47808
執
3451
時間
3588
從
133971
淚
38542
彈
61317
▁我們
63867
狀
14506
傳
9528
強
9141
市場
3625
開
241702
鑼
5497
沒有
16105
貨
117080
攤
44789
檔
76900
確
59287
診
4411
個
26335
興
4220
區
40742
衛
7728
兩
39353
漢
20471
旅遊
13337
離
15129
治療
2705
無
152255
症狀
75296
穩
8056
他們
81510
接觸
95621
醫學
84463
觀察
17565
不會
146374
那種
38044
情況
63874
擔心
63874
擔心
71904
▁現在
108407
範
33535
意識
9528
強
76900
確
59287
診
48885
醫院
28833
進入
7648
熱
102745
擴
42433
評
13800
級
3824
點
13783
國家
40742
衛
4411
個
194998
現時
48889
當地
9466
總
10100
數
165003
廣東
38547
維持
20329
出現
63867
狀
76900
確
59287
診
4411
個
1557
會
11640
嗎
112738
甚麼
11382
沒
112738
甚麼
4955
發
36893
燒
13337
離
37240
縮
15389
關
3451
時間
146850
另一個
52483
部門
16246
對於
2818
我們
52947
衛生
60827
整體
61317
▁我們
138579
一定會
49162
考慮
169007
對外
22771
際
12802
運
3625
開
38659
全國
20425
團
27505
辦
102745
擴
166113
質疑
39353
漢
56722


In [26]:
collated

{'name': ['2020-01-16/000453-000550',
  '2020-01-17/010943-011213',
  '2020-01-18/005830-005937',
  '2020-01-18/023207-023337',
  '2020-01-19/005202-005354',
  '2020-01-19/014085-014263',
  '2020-01-19/020555-020647',
  '2020-01-20/002782-003141',
  '2020-01-20/003965-004138',
  '2020-01-20/005051-005211',
  '2020-01-21/001178-001404',
  '2020-01-21/001881-002184',
  '2020-01-22/001297-001439',
  '2020-01-23/017237-017345',
  '2020-01-26/007549-007911',
  '2020-01-26/017524-017728',
  '2020-01-27/011260-011579',
  '2020-01-28/008784-009014',
  '2020-01-29/012725-012945',
  '2020-01-29/014121-014306',
  '2020-01-30/002712-002993',
  '2020-01-30/008231-008326',
  '2020-01-30/010362-010480',
  '2020-01-30/032089-032166',
  '2020-02-01/010192-010440',
  '2020-02-01/023668-023833',
  '2020-02-02/003230-003469',
  '2020-02-02/009523-009724',
  '2020-02-02/026734-026966',
  '2020-02-03/005500-005737',
  '2020-02-03/010434-010721',
  '2020-02-03/018745-018854',
  '2020-02-03/020451-020700',
  

In [12]:
mini_dataset = [({'name': '2020-01-16/000453-000550',
  'gloss': '內地 美國 屋 簽署 第 一 階段 經濟 協議',
  'text': '中美在白宮簽署首階段貿易協議'},
 'tvb')]
collated = collate_fn_(mini_dataset, data_cfg=cfg["data"]["tvb"], task=cfg["task"], is_train=False, dataset=dataset,
    text_tokenizer=model.text_tokenizer, gloss_tokenizer=model.gloss_tokenizer)

27819
宮
235213
簽署
58192
階段
63954
貿易
95571
協議


In [13]:
collated

{'name': ['2020-01-16/000453-000550'],
 'gloss': ['內地 美國 屋 簽署 第 一 階段 經濟 協議'],
 'text': ['中美在白宮簽署首階段貿易協議'],
 'num_frames': [None],
 'datasetname': 'tvb',
 'translation_inputs': {'input_ids': tensor([[ 30, 100, 183, 184,   3,   3, 102,   3,   3,   3,   2,   7]]),
  'attention_mask': tensor([[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]]),
  'labels': tensor([[ 3,  3, 10,  3, 50, 29,  3,  3,  3,  2,  7]]),
  'decoder_input_ids': tensor([[ 7,  3,  3, 10,  3, 50, 29,  3,  3,  3,  2]])}}

In [23]:
self_dataset = [({'name': 'custom-input',
  'gloss': '',
  'text': '大熊貓龍鳳胎-2500隻大熊貓雕塑今日起香港巡迴展出-旅客及市民指具吸引力'},
 'tvb')]
collated = collate_fn_(self_dataset, data_cfg=cfg["data"]["tvb"], task=cfg["task"], is_train=False, dataset=dataset,
    text_tokenizer=model.text_tokenizer, gloss_tokenizer=model.gloss_tokenizer)

44566
貓
15367
龍
90608
鳳
9
-
57481
隻
44566
貓
186646
雕塑
232999
巡迴
9
-
159438
吸引力


In [24]:
collated

{'name': ['custom-input'],
 'gloss': [''],
 'text': ['大熊貓龍鳳胎-2500隻大熊貓雕塑今日起香港巡迴展出-旅客及市民指具吸引力'],
 'num_frames': [None],
 'datasetname': 'tvb',
 'translation_inputs': {'input_ids': tensor([[ 907, 7029,    3,    3,    3, 3212,    3,  224,    3,  166, 7029,    3,
              3, 2400, 1421,  323,    3, 6734,    3,  794,  203,  457,   71, 1578,
              3,    2,    7]]),
  'attention_mask': tensor([[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
           1, 1, 1]]),
  'labels': tensor([[2, 7]]),
  'decoder_input_ids': tensor([[7, 2]])}}

In [25]:
with torch.no_grad():
    batch_0 = move_to_device(collated, cfg['device'])
    forward_output = model(is_train=False, **batch_0)
    generate_output = model.generate_txt(
                    transformer_inputs=forward_output['transformer_inputs'],
                    generate_cfg=generate_cfg['translation'])
    for name, hyp, txt_ref, gls_ref in zip(batch_0['name'], generate_output['decoded_sequences'], batch_0['text'], batch_0['gloss']):
        clean_hyp = [g for g in hyp.split(' ') if g not in model.gloss_tokenizer.special_tokens]
        clean_hyp = ' '.join(clean_hyp)
        gls_hyp = cc.convert(clean_hyp).upper() if model.gloss_tokenizer.lower_case else hyp
        gls_ref = cc.convert(gls_ref).upper() if model.gloss_tokenizer.lower_case else gls_ref
        print(gls_hyp)
        print(gls_ref)

說 熊 今日 開始 香港 展出 全部 客 人 說

