In [1]:
from transformers import pipeline
from transformers import CamembertTokenizer, RobertaForMaskedLM

from tokenizers import SentencePieceBPETokenizer


In [2]:
tokenizer = CamembertTokenizer(
    "../dataset/spm/th-wiki_only_20.7.2020_spm_vs-16k/sentencepiece.bpe.model"
)
tokenizer

<transformers.tokenization_camembert.CamembertTokenizer at 0x7f734da76cc0>

In [63]:
tokenizer.vocab_size

16005

In [None]:
tokenizer._unk_token

In [None]:
tokenizer.all_special_tokens, tokenizer.all_special_ids


In [6]:
tokenizer.tokenize('รถไฟสีแดง อารยธรรม หมื่นลี้')

['▁', 'รถไฟ', 'สีแดง', '▁', 'อารยธรรม', '▁', 'หมื่น', 'ลี้']

In [7]:
tokenizer.tokenize('<mask>')

['▁', '<mask>']

In [8]:
tokenizer.encode_plus('a<mask>')

{'input_ids': [5, 1933, 16004, 6], 'attention_mask': [1, 1, 1, 1]}

In [9]:
out = tokenizer.encode('รถไฟสีแดง')
out

[5, 8, 1346, 1535, 6]

In [10]:
def viz_tok(text:str, tokenizer=tokenizer):
    out = tokenizer.tokenize(text)

    ids = tokenizer.convert_tokens_to_ids(out)
    out_txt = '<SEP>'.join([ tokenizer.decode([_id]) for _id in ids ])
    print(f'out: {out}')
    print(f'Ids: {ids}')    
    print(f'Tokens: {out_txt}')

In [11]:
viz_tok('ปี  ค่ะ ครับ ใด ก็ มี ที่ นี่ นี้ บุก ทุก ทุกข์')

out: ['▁ปี', '▁ค', '่', 'ะ', '▁ค', 'รับ', '▁', 'ใด', '▁ก็', '▁มี', '▁', 'ที่', '▁', 'นี่', '▁', 'นี้', '▁', 'บุก', '▁ทุก', '▁', 'ทุกข์']
Ids: [81, 33, 372, 194, 33, 210, 8, 464, 664, 60, 8, 10, 8, 1188, 8, 47, 8, 1939, 5245, 8, 5428]
Tokens: ปี<SEP>ค<SEP>่<SEP>ะ<SEP>ค<SEP>รับ<SEP><SEP>ใด<SEP>ก็<SEP>มี<SEP><SEP>ที่<SEP><SEP>นี่<SEP><SEP>นี้<SEP><SEP>บุก<SEP>ทุก<SEP><SEP>ทุกข์


In [14]:
viz_tok('Holy Roman Empire อาณาจักรโรมัน อันศักดิ์สิทธิ์')

out: ['▁Ho', 'ly', '▁', 'Roman', '▁E', 'mp', 'ire', '▁อาณาจักร', 'โรมัน', '▁อัน', 'ศักดิ์', 'สิทธิ์']
Ids: [5279, 1745, 8, 14781, 865, 5248, 6663, 9090, 1628, 1904, 425, 836]
Tokens: Ho<SEP>ly<SEP><SEP>Roman<SEP>E<SEP>mp<SEP>ire<SEP>อาณาจักร<SEP>โรมัน<SEP>อัน<SEP>ศักดิ์<SEP>สิทธิ์


In [13]:
viz_tok('บาบิโลน (Babylon) อาณาจักรอันยิ่งใหญ่ในยุคเมโสโปเตเมียโบราณ')

out: ['▁บา', 'บิ', 'โลน', '▁(', 'B', 'ab', 'yl', 'on', ')', '▁อาณาจักร', 'อัน', 'ยิ่งใหญ่', 'ในยุค', 'เม', 'โส', 'โป', 'เต', 'เมีย', 'โบราณ']
Ids: [4848, 1211, 11578, 16, 362, 2942, 5546, 701, 14, 9090, 234, 2618, 1632, 267, 2443, 1054, 796, 3183, 1020]
Tokens: บา<SEP>บิ<SEP>โลน<SEP>(<SEP>B<SEP>ab<SEP>yl<SEP>on<SEP>)<SEP>อาณาจักร<SEP>อัน<SEP>ยิ่งใหญ่<SEP>ในยุค<SEP>เม<SEP>โส<SEP>โป<SEP>เต<SEP>เมีย<SEP>โบราณ


In [25]:

fill_mask = pipeline(
    "fill-mask",
    model="/workspace/thai2transformers/checkpoints/exp004_thwiki_sentencepiece_camembert_vs16k_fp32_bz24_maxstep-100k_ngpu-8/checkpoint-1500/",
    tokenizer=tokenizer,
    device=2
)



In [26]:
fill_mask("ฉันเดินไป<mask>สนามบิน")

[{'sequence': '<s> ฉันเดินไป สนามบิน</s>',
  'score': 0.102029949426651,
  'token': 8,
  'token_str': '▁'},
 {'sequence': '<s> ฉันเดินไป.สนามบิน</s>',
  'score': 0.01151799876242876,
  'token': 9,
  'token_str': '.'},
 {'sequence': '<s> ฉันเดินไปของสนามบิน</s>',
  'score': 0.009349392727017403,
  'token': 11,
  'token_str': 'ของ'},
 {'sequence': '<s> ฉันเดินไปที่สนามบิน</s>',
  'score': 0.007975541986525059,
  'token': 10,
  'token_str': 'ที่'},
 {'sequence': '<s> ฉันเดินไป และสนามบิน</s>',
  'score': 0.006343780551105738,
  'token': 12,
  'token_str': '▁และ'}]

In [29]:
fill_mask("<mask> กันยายน พ.ศ. 2450")

[{'sequence': '<s>  พ กันยายน พ.ศ. 2450</s>',
  'score': 0.08323677629232407,
  'token': 24,
  'token_str': '▁พ'},
 {'sequence': '<s> :::: กันยายน พ.ศ. 2450</s>',
  'score': 0.06776249408721924,
  'token': 22,
  'token_str': '::::'},
 {'sequence': '<s>. กันยายน พ.ศ. 2450</s>',
  'score': 0.03756042942404747,
  'token': 9,
  'token_str': '.'},
 {'sequence': '<s> ศ กันยายน พ.ศ. 2450</s>',
  'score': 0.005714814178645611,
  'token': 15,
  'token_str': 'ศ'},
 {'sequence': '<s>   กันยายน พ.ศ. 2450</s>',
  'score': 0.005541933700442314,
  'token': 8,
  'token_str': '▁'}]

In [35]:

fill_mask = pipeline(
    "fill-mask",
    model="/workspace/thai2transformers/checkpoints/exp004_thwiki_sentencepiece_camembert_vs16k_fp32_bz24_maxstep-100k_ngpu-8/checkpoint-5500/",
    tokenizer=tokenizer,
    device=2
)



In [36]:
fill_mask("ฉันเดินไป<mask>สนามบิน")

[{'sequence': '<s> ฉันเดินไป สนามบิน</s>',
  'score': 0.027332834899425507,
  'token': 8,
  'token_str': '▁'},
 {'sequence': '<s> ฉันเดินไปทางสนามบิน</s>',
  'score': 0.02672971971333027,
  'token': 40,
  'token_str': 'ทาง'},
 {'sequence': '<s> ฉันเดินไปที่สนามบิน</s>',
  'score': 0.025633540004491806,
  'token': 10,
  'token_str': 'ที่'},
 {'sequence': '<s> ฉันเดินไปไปยังสนามบิน</s>',
  'score': 0.022726763039827347,
  'token': 434,
  'token_str': 'ไปยัง'},
 {'sequence': '<s> ฉันเดินไปในสนามบิน</s>',
  'score': 0.01815621554851532,
  'token': 18,
  'token_str': 'ใน'}]

In [37]:
fill_mask("<mask> กันยายน พ.ศ. 2450")

[{'sequence': '<s>  19 กันยายน พ.ศ. 2450</s>',
  'score': 0.037442293018102646,
  'token': 298,
  'token_str': '▁19'},
 {'sequence': '<s>  17 กันยายน พ.ศ. 2450</s>',
  'score': 0.03740160912275314,
  'token': 367,
  'token_str': '▁17'},
 {'sequence': '<s>  26 กันยายน พ.ศ. 2450</s>',
  'score': 0.03505265712738037,
  'token': 1129,
  'token_str': '▁26'},
 {'sequence': '<s>  25 กันยายน พ.ศ. 2450</s>',
  'score': 0.03230077028274536,
  'token': 747,
  'token_str': '▁25'},
 {'sequence': '<s>  29 กันยายน พ.ศ. 2450</s>',
  'score': 0.03168103098869324,
  'token': 1319,
  'token_str': '▁29'}]

In [52]:
fill_mask("นวพล ธำรงรัตนฤทธิ์ (ชื่อเล่น ต๋อ) เกิดเมื่อวันที่ 4 <mask> 2527 เป็นนักเขียนบทภาพยนตร์")[0]

{'sequence': '<s> นวพล ธํารงรัตนฤทธิ์ (ชื่อเล่น ต๋อ) เกิดเมื่อวันที่ 4 กุมภาพันธ์ 2527 เป็นนักเขียนบทภาพยนตร์</s>',
 'score': 0.6580851078033447,
 'token': 461,
 'token_str': 'กุมภาพันธ์'}

In [60]:
fill_mask("นวพล ธำรงรัตนฤทธิ์ (ชื่อเล่น เต๋อ) เกิดเมื่อวันที่ 4 กุมภาพันธ์ เป็นนัก<mask>")

[{'sequence': '<s> นวพล ธํารงรัตนฤทธิ์ (ชื่อเล่น เต๋อ) เกิดเมื่อวันที่ 4 กุมภาพันธ์ เป็นนักการเมือง</s>',
  'score': 0.14756271243095398,
  'token': 287,
  'token_str': 'การเมือง'},
 {'sequence': '<s> นวพล ธํารงรัตนฤทธิ์ (ชื่อเล่น เต๋อ) เกิดเมื่อวันที่ 4 กุมภาพันธ์ เป็นนักแสดงชาวไทย</s>',
  'score': 0.08504456281661987,
  'token': 13370,
  'token_str': 'แสดงชาวไทย'},
 {'sequence': '<s> นวพล ธํารงรัตนฤทธิ์ (ชื่อเล่น เต๋อ) เกิดเมื่อวันที่ 4 กุมภาพันธ์ เป็นนักอเมริกัน</s>',
  'score': 0.044427331537008286,
  'token': 730,
  'token_str': 'อเมริกัน'},
 {'sequence': '<s> นวพล ธํารงรัตนฤทธิ์ (ชื่อเล่น เต๋อ) เกิดเมื่อวันที่ 4 กุมภาพันธ์ เป็นนักชาวไทย</s>',
  'score': 0.04430517554283142,
  'token': 1430,
  'token_str': 'ชาวไทย'},
 {'sequence': '<s> นวพล ธํารงรัตนฤทธิ์ (ชื่อเล่น เต๋อ) เกิดเมื่อวันที่ 4 กุมภาพันธ์ เป็นนักที่รู้จัก</s>',
  'score': 0.014586817473173141,
  'token': 738,
  'token_str': 'ที่รู้จัก'}]

In [4]:

fill_mask = pipeline(
    "fill-mask",
    model="/workspace/thai2transformers/checkpoints/exp004_thwiki_sentencepiece_camembert_vs16k_fp32_bz24_maxstep-100k_ngpu-8/checkpoint-8000/",
    tokenizer=tokenizer,
    device=1
)



In [23]:
fill_mask("นวพล ธำรงรัตนฤทธิ์ (ชื่อเล่น: เต๋อ) เกิดเมื่อวันที่ 4 กุมภาพันธ์ เป็นนัก<mask>")

[{'sequence': '<s> นวพล ธํารงรัตนฤทธิ์ (ชื่อเล่น: เต๋อ) เกิดเมื่อวันที่ 4 กุมภาพันธ์ เป็นนักแสดงชาวไทย</s>',
  'score': 0.735715925693512,
  'token': 13370,
  'token_str': 'แสดงชาวไทย'},
 {'sequence': '<s> นวพล ธํารงรัตนฤทธิ์ (ชื่อเล่น: เต๋อ) เกิดเมื่อวันที่ 4 กุมภาพันธ์ เป็นนักการเมือง</s>',
  'score': 0.0657273456454277,
  'token': 287,
  'token_str': 'การเมือง'},
 {'sequence': '<s> นวพล ธํารงรัตนฤทธิ์ (ชื่อเล่น: เต๋อ) เกิดเมื่อวันที่ 4 กุมภาพันธ์ เป็นนักชาวไทย</s>',
  'score': 0.01031717099249363,
  'token': 1430,
  'token_str': 'ชาวไทย'},
 {'sequence': '<s> นวพล ธํารงรัตนฤทธิ์ (ชื่อเล่น: เต๋อ) เกิดเมื่อวันที่ 4 กุมภาพันธ์ เป็นนักจิตวิทยา</s>',
  'score': 0.00759267620742321,
  'token': 4147,
  'token_str': 'จิตวิทยา'},
 {'sequence': '<s> นวพล ธํารงรัตนฤทธิ์ (ชื่อเล่น: เต๋อ) เกิดเมื่อวันที่ 4 กุมภาพันธ์ เป็นนักรัฐศาสตร์</s>',
  'score': 0.00392714561894536,
  'token': 4945,
  'token_str': 'รัฐศาสตร์'}]

In [31]:
fill_mask("ในเวลา 12 น.  ตามเวลาท้องถิ่น ผู้ว่าการ<mask> ได้เดินทางไปยังอนุสรณ์สันติภาพฮิโรชิมะ")

[{'sequence': '<s> ในเวลา 12 น. ตามเวลาท้องถิ่น ผู้ว่าการกรุงโตเกียว ได้เดินทางไปยังอนุสรณ์สันติภาพฮิโรชิมะ</s>',
  'score': 0.47586217522621155,
  'token': 2661,
  'token_str': 'โตเกียว'},
 {'sequence': '<s> ในเวลา 12 น. ตามเวลาท้องถิ่น ผู้ว่าการกรุงเทพมหานคร ได้เดินทางไปยังอนุสรณ์สันติภาพฮิโรชิมะ</s>',
  'score': 0.10685655474662781,
  'token': 815,
  'token_str': 'เทพมหานคร'},
 {'sequence': '<s> ในเวลา 12 น. ตามเวลาท้องถิ่น ผู้ว่าการกรุงปักกิ่ง ได้เดินทางไปยังอนุสรณ์สันติภาพฮิโรชิมะ</s>',
  'score': 0.04792576655745506,
  'token': 5478,
  'token_str': 'ปักกิ่ง'},
 {'sequence': '<s> ในเวลา 12 น. ตามเวลาท้องถิ่น ผู้ว่าการกรุงเกียวโต ได้เดินทางไปยังอนุสรณ์สันติภาพฮิโรชิมะ</s>',
  'score': 0.02791033871471882,
  'token': 8636,
  'token_str': 'เกียวโต'},
 {'sequence': '<s> ในเวลา 12 น. ตามเวลาท้องถิ่น ผู้ว่าการกรุงญี่ปุ่น ได้เดินทางไปยังอนุสรณ์สันติภาพฮิโรชิมะ</s>',
  'score': 0.021947162225842476,
  'token': 195,
  'token_str': 'ญี่ปุ่น'}]

In [32]:
fill_mask("ในเวลา 12 น.  ตามเวลาท้องถิ่น ผู้ว่าการเมือง<mask> ได้เดินทางไปยังอนุสรณ์สันติภาพฮิโรชิมะ")

[{'sequence': '<s> ในเวลา 12 น. ตามเวลาท้องถิ่น ผู้ว่าการเมืองชิมะ ได้เดินทางไปยังอนุสรณ์สันติภาพฮิโรชิมะ</s>',
  'score': 0.15727396309375763,
  'token': 6471,
  'token_str': 'ชิมะ'},
 {'sequence': '<s> ในเวลา 12 น. ตามเวลาท้องถิ่น ผู้ว่าการเมืองเกียวโต ได้เดินทางไปยังอนุสรณ์สันติภาพฮิโรชิมะ</s>',
  'score': 0.07250816375017166,
  'token': 8636,
  'token_str': 'เกียวโต'},
 {'sequence': '<s> ในเวลา 12 น. ตามเวลาท้องถิ่น ผู้ว่าการเมืองโตเกียว ได้เดินทางไปยังอนุสรณ์สันติภาพฮิโรชิมะ</s>',
  'score': 0.054882414638996124,
  'token': 2661,
  'token_str': 'โตเกียว'},
 {'sequence': '<s> ในเวลา 12 น. ตามเวลาท้องถิ่น ผู้ว่าการเมืองญี่ปุ่น ได้เดินทางไปยังอนุสรณ์สันติภาพฮิโรชิมะ</s>',
  'score': 0.047619860619306564,
  'token': 195,
  'token_str': 'ญี่ปุ่น'},
 {'sequence': '<s> ในเวลา 12 น. ตามเวลาท้องถิ่น ผู้ว่าการเมืองฮกไกโด ได้เดินทางไปยังอนุสรณ์สันติภาพฮิโรชิมะ</s>',
  'score': 0.04718223214149475,
  'token': 15437,
  'token_str': 'ฮกไกโด'}]

In [60]:
fill_mask("Covid-19: องค์การอนามัย<mask> (WHO) เผยผู้เสียชีวิตวันเดียวทะลุ 7 พัน สูงสุดในรอบกว่า 2 เดือนทั่วโลก")

[{'sequence': '<s> Covid-19: องค์การอนามัยแห่งชาติ (WHO) เผยผู้เสียชีวิตวันเดียวทะลุ 7 พัน สูงสุดในรอบกว่า 2 เดือนทั่วโลก</s>',
  'score': 0.1031104251742363,
  'token': 330,
  'token_str': 'แห่งชาติ'},
 {'sequence': '<s> Covid-19: องค์การอนามัยยาเสพติด (WHO) เผยผู้เสียชีวิตวันเดียวทะลุ 7 พัน สูงสุดในรอบกว่า 2 เดือนทั่วโลก</s>',
  'score': 0.021065590903162956,
  'token': 6164,
  'token_str': 'ยาเสพติด'},
 {'sequence': '<s> Covid-19: องค์การอนามัยสัตว์ป่า (WHO) เผยผู้เสียชีวิตวันเดียวทะลุ 7 พัน สูงสุดในรอบกว่า 2 เดือนทั่วโลก</s>',
  'score': 0.020510071888566017,
  'token': 3827,
  'token_str': 'สัตว์ป่า'},
 {'sequence': '<s> Covid-19: องค์การอนามัยอนามัย (WHO) เผยผู้เสียชีวิตวันเดียวทะลุ 7 พัน สูงสุดในรอบกว่า 2 เดือนทั่วโลก</s>',
  'score': 0.015457767993211746,
  'token': 7339,
  'token_str': 'อนามัย'},
 {'sequence': '<s> Covid-19: องค์การอนามัยสุขภาพ (WHO) เผยผู้เสียชีวิตวันเดียวทะลุ 7 พัน สูงสุดในรอบกว่า 2 เดือนทั่วโลก</s>',
  'score': 0.015242991968989372,
  'token': 1478,
  'toke

In [64]:

fill_mask = pipeline(
    "fill-mask",
    model="/workspace/thai2transformers/checkpoints/exp004_thwiki_sentencepiece_camembert_vs16k_fp32_bz24_maxstep-100k_ngpu-8/checkpoint-18000/",
    tokenizer=tokenizer,
    device=1
)



In [67]:
fill_mask("Covid-19: องค์การอนามัย<mask> (WHO) เผยผู้เสียชีวิตวันเดียวทะลุ 7 พัน สูงสุดในรอบกว่า 2 เดือนทั่วโลก")

[{'sequence': '<s> Covid-19: องค์การอนามัยโลก (WHO) เผยผู้เสียชีวิตวันเดียวทะลุ 7 พัน สูงสุดในรอบกว่า 2 เดือนทั่วโลก</s>',
  'score': 0.11764899641275406,
  'token': 189,
  'token_str': 'โลก'},
 {'sequence': '<s> Covid-19: องค์การอนามัยแห่งชาติ (WHO) เผยผู้เสียชีวิตวันเดียวทะลุ 7 พัน สูงสุดในรอบกว่า 2 เดือนทั่วโลก</s>',
  'score': 0.10413962602615356,
  'token': 330,
  'token_str': 'แห่งชาติ'},
 {'sequence': '<s> Covid-19: องค์การอนามัยนานาชาติ (WHO) เผยผู้เสียชีวิตวันเดียวทะลุ 7 พัน สูงสุดในรอบกว่า 2 เดือนทั่วโลก</s>',
  'score': 0.06538187712430954,
  'token': 1329,
  'token_str': 'นานาชาติ'},
 {'sequence': '<s> Covid-19: องค์การอนามัยยุโรป (WHO) เผยผู้เสียชีวิตวันเดียวทะลุ 7 พัน สูงสุดในรอบกว่า 2 เดือนทั่วโลก</s>',
  'score': 0.06271597743034363,
  'token': 1028,
  'token_str': 'ยุโรป'},
 {'sequence': '<s> Covid-19: องค์การอนามัยสหรัฐ (WHO) เผยผู้เสียชีวิตวันเดียวทะลุ 7 พัน สูงสุดในรอบกว่า 2 เดือนทั่วโลก</s>',
  'score': 0.05019072815775871,
  'token': 387,
  'token_str': 'สหรัฐ'}]

In [75]:
print('Groundtruth :มาตรา ๔๙๑ อันว่าขายฝากนั้น คือสัญญาซื้อขายซึ่งกรรมสิทธิ์ในทรัพย์สินตกไปยังผู้ซื้อ โดยมีข้อตกลงกันว่าผู้ขายอาจไถ่ทรัพย์นั้นคืนได้.')
fill_mask("มาตรา ๔๙๑ อันว่าขายฝากนั้น คือสัญญาซื้อขายซึ่งกรรมสิทธิ์ในทรัพย์สินตกไปยังผู้ซื้อ โดยมีข้อตกลงกันว่าผู้<mask>อาจไถ่ทรัพย์นั้นคืนได้")

Groundtruth :มาตรา ๔๙๑ อันว่าขายฝากนั้น คือสัญญาซื้อขายซึ่งกรรมสิทธิ์ในทรัพย์สินตกไปยังผู้ซื้อ โดยมีข้อตกลงกันว่าผู้ขายอาจไถ่ทรัพย์นั้นคืนได้.


[{'sequence': '<s> มาตรา ๔๙๑ อันว่าขายฝากนั้น คือสัญญาซื้อขายซึ่งกรรมสิทธิ์ในทรัพย์สินตกไปยังผู้ซื้อ โดยมีข้อตกลงกันว่าผู้ซื้ออาจไถ่ทรัพย์นั้นคืนได้</s>',
  'score': 0.8635159730911255,
  'token': 1232,
  'token_str': 'ซื้อ'},
 {'sequence': '<s> มาตรา ๔๙๑ อันว่าขายฝากนั้น คือสัญญาซื้อขายซึ่งกรรมสิทธิ์ในทรัพย์สินตกไปยังผู้ซื้อ โดยมีข้อตกลงกันว่าผู้ขายอาจไถ่ทรัพย์นั้นคืนได้</s>',
  'score': 0.08689124137163162,
  'token': 804,
  'token_str': 'ขาย'},
 {'sequence': '<s> มาตรา ๔๙๑ อันว่าขายฝากนั้น คือสัญญาซื้อขายซึ่งกรรมสิทธิ์ในทรัพย์สินตกไปยังผู้ซื้อ โดยมีข้อตกลงกันว่าผู้เช่าอาจไถ่ทรัพย์นั้นคืนได้</s>',
  'score': 0.019587919116020203,
  'token': 3998,
  'token_str': 'เช่า'},
 {'sequence': '<s> มาตรา ๔๙๑ อันว่าขายฝากนั้น คือสัญญาซื้อขายซึ่งกรรมสิทธิ์ในทรัพย์สินตกไปยังผู้ซื้อ โดยมีข้อตกลงกันว่าผู้ซื้อขายอาจไถ่ทรัพย์นั้นคืนได้</s>',
  'score': 0.002280375687405467,
  'token': 9190,
  'token_str': 'ซื้อขาย'},
 {'sequence': '<s> มาตรา ๔๙๑ อันว่าขายฝากนั้น คือสัญญาซื้อขายซึ่งกรรมสิทธิ์ในทรัพย์ส

In [86]:
fill_mask("องค์การอนามัยโลก (WHO) เผยผู้<mask>วันเดียวทะลุ 7 พันราย สูงสุดในรอบกว่า 2 เดือนทั่วโลกจากไวรัสสายพันธุ์ใหม่")

[{'sequence': '<s> องค์การอนามัยโลก (WHO) เผยผู้ติดเชื้อวันเดียวทะลุ 7 พันราย สูงสุดในรอบกว่า 2 เดือนทั่วโลกจากไวรัสสายพันธุ์ใหม่</s>',
  'score': 0.09074171632528305,
  'token': 2525,
  'token_str': 'ติดเชื้อ'},
 {'sequence': '<s> องค์การอนามัยโลก (WHO) เผยผู้เสียชีวิตวันเดียวทะลุ 7 พันราย สูงสุดในรอบกว่า 2 เดือนทั่วโลกจากไวรัสสายพันธุ์ใหม่</s>',
  'score': 0.058181408792734146,
  'token': 361,
  'token_str': 'เสียชีวิต'},
 {'sequence': '<s> องค์การอนามัยโลก (WHO) เผยผู้บาดเจ็บวันเดียวทะลุ 7 พันราย สูงสุดในรอบกว่า 2 เดือนทั่วโลกจากไวรัสสายพันธุ์ใหม่</s>',
  'score': 0.05154070630669594,
  'token': 2701,
  'token_str': 'บาดเจ็บ'},
 {'sequence': '<s> องค์การอนามัยโลก (WHO) เผยผู้รอดชีวิตวันเดียวทะลุ 7 พันราย สูงสุดในรอบกว่า 2 เดือนทั่วโลกจากไวรัสสายพันธุ์ใหม่</s>',
  'score': 0.051030635833740234,
  'token': 6329,
  'token_str': 'รอดชีวิต'},
 {'sequence': '<s> องค์การอนามัยโลก (WHO) เผยผู้ตายวันเดียวทะลุ 7 พันราย สูงสุดในรอบกว่า 2 เดือนทั่วโลกจากไวรัสสายพันธุ์ใหม่</s>',
  'score': 0.034

In [84]:
fill_mask("องค์การอนามัยโลก (WHO) เผยผู้<mask>วันเดียวทะลุ 7 พันราย สูงสุดในรอบกว่า 2 เดือนทั่วโลกจากอุบัติเหตุทางรถยนต์")

[{'sequence': '<s> องค์การอนามัยโลก (WHO) เผยผู้บาดเจ็บวันเดียวทะลุ 7 พันราย สูงสุดในรอบกว่า 2 เดือนทั่วโลกจากอุบัติเหตุทางรถยนต์</s>',
  'score': 0.14494071900844574,
  'token': 2701,
  'token_str': 'บาดเจ็บ'},
 {'sequence': '<s> องค์การอนามัยโลก (WHO) เผยผู้เสียชีวิตวันเดียวทะลุ 7 พันราย สูงสุดในรอบกว่า 2 เดือนทั่วโลกจากอุบัติเหตุทางรถยนต์</s>',
  'score': 0.13584701716899872,
  'token': 361,
  'token_str': 'เสียชีวิต'},
 {'sequence': '<s> องค์การอนามัยโลก (WHO) เผยผู้ก่อเหตุวันเดียวทะลุ 7 พันราย สูงสุดในรอบกว่า 2 เดือนทั่วโลกจากอุบัติเหตุทางรถยนต์</s>',
  'score': 0.0424715057015419,
  'token': 14184,
  'token_str': 'ก่อเหตุ'},
 {'sequence': '<s> องค์การอนามัยโลก (WHO) เผยผู้ขับขี่วันเดียวทะลุ 7 พันราย สูงสุดในรอบกว่า 2 เดือนทั่วโลกจากอุบัติเหตุทางรถยนต์</s>',
  'score': 0.0409359335899353,
  'token': 14950,
  'token_str': 'ขับขี่'},
 {'sequence': '<s> องค์การอนามัยโลก (WHO) เผยผู้รอดชีวิตวันเดียวทะลุ 7 พันราย สูงสุดในรอบกว่า 2 เดือนทั่วโลกจากอุบัติเหตุทางรถยนต์</s>',
  'score': 0.0

In [3]:

fill_mask = pipeline(
    "fill-mask",
    model="/workspace/thai2transformers/checkpoints/exp004_thwiki_sentencepiece_camembert_vs16k_fp32_bz24_maxstep-100k_ngpu-8/checkpoint-27500/",
    tokenizer=tokenizer,
    device=1
)



In [4]:
print('Groundtruth :มาตรา ๔๙๑ อันว่าขายฝากนั้น คือสัญญาซื้อขายซึ่งกรรมสิทธิ์ในทรัพย์สินตกไปยังผู้ซื้อ โดยมีข้อตกลงกันว่าผู้ขายอาจไถ่ทรัพย์นั้นคืนได้.')

fill_mask("มาตรา ๔๙๑ อันว่าขายฝากนั้น คือสัญญาซื้อขายซึ่งกรรมสิทธิ์ในทรัพย์สินตกไปยังผู้ซื้อ โดยมีข้อตกลงกันว่าผู้<mask>อาจไถ่ทรัพย์นั้นคืนได้")

Groundtruth :มาตรา ๔๙๑ อันว่าขายฝากนั้น คือสัญญาซื้อขายซึ่งกรรมสิทธิ์ในทรัพย์สินตกไปยังผู้ซื้อ โดยมีข้อตกลงกันว่าผู้ขายอาจไถ่ทรัพย์นั้นคืนได้.


[{'sequence': '<s> มาตรา ๔๙๑ อันว่าขายฝากนั้น คือสัญญาซื้อขายซึ่งกรรมสิทธิ์ในทรัพย์สินตกไปยังผู้ซื้อ โดยมีข้อตกลงกันว่าผู้ซื้ออาจไถ่ทรัพย์นั้นคืนได้</s>',
  'score': 0.7452681660652161,
  'token': 1232,
  'token_str': 'ซื้อ'},
 {'sequence': '<s> มาตรา ๔๙๑ อันว่าขายฝากนั้น คือสัญญาซื้อขายซึ่งกรรมสิทธิ์ในทรัพย์สินตกไปยังผู้ซื้อ โดยมีข้อตกลงกันว่าผู้ขายอาจไถ่ทรัพย์นั้นคืนได้</s>',
  'score': 0.19702869653701782,
  'token': 804,
  'token_str': 'ขาย'},
 {'sequence': '<s> มาตรา ๔๙๑ อันว่าขายฝากนั้น คือสัญญาซื้อขายซึ่งกรรมสิทธิ์ในทรัพย์สินตกไปยังผู้ซื้อ โดยมีข้อตกลงกันว่าผู้เช่าอาจไถ่ทรัพย์นั้นคืนได้</s>',
  'score': 0.020300667732954025,
  'token': 3998,
  'token_str': 'เช่า'},
 {'sequence': '<s> มาตรา ๔๙๑ อันว่าขายฝากนั้น คือสัญญาซื้อขายซึ่งกรรมสิทธิ์ในทรัพย์สินตกไปยังผู้ซื้อ โดยมีข้อตกลงกันว่าผู้ซื้อขายอาจไถ่ทรัพย์นั้นคืนได้</s>',
  'score': 0.004095397423952818,
  'token': 9190,
  'token_str': 'ซื้อขาย'},
 {'sequence': '<s> มาตรา ๔๙๑ อันว่าขายฝากนั้น คือสัญญาซื้อขายซึ่งกรรมสิทธิ์ในทรัพย์ส

In [7]:
print('Groundtruth : สำนักวิชาวิทยาศาสตร์และเทคโนโลยีสารสนเทศ')

fill_mask('สำนักวิชาวิทยาศาสตร์และ<mask>สารสนเทศ')


Groundtruth : สำนักวิชาวิทยาศาสตร์และเทคโนโลยีสารสนเทศ


[{'sequence': '<s> สํานักวิชาวิทยาศาสตร์และเทคโนโลยีสารสนเทศ</s>',
  'score': 0.8867914080619812,
  'token': 668,
  'token_str': 'เทคโนโลยี'},
 {'sequence': '<s> สํานักวิชาวิทยาศาสตร์และวิศวกรรมสารสนเทศ</s>',
  'score': 0.007297844626009464,
  'token': 1878,
  'token_str': 'วิศวกรรม'},
 {'sequence': '<s> สํานักวิชาวิทยาศาสตร์และชีวสารสนเทศ</s>',
  'score': 0.0071746911853551865,
  'token': 6023,
  'token_str': 'ชีว'},
 {'sequence': '<s> สํานักวิชาวิทยาศาสตร์และศาสตร์สารสนเทศ</s>',
  'score': 0.006563486065715551,
  'token': 96,
  'token_str': 'ศาสตร์'},
 {'sequence': '<s> สํานักวิชาวิทยาศาสตร์และธรรมสารสนเทศ</s>',
  'score': 0.005843350198119879,
  'token': 349,
  'token_str': 'ธรรม'}]

In [18]:

print('Groundtruth : ฮอกไกโดเป็นชื่อจังหวัดและเกาะที่ใหญ่เป็นอันดับสองในประเทศญี่ปุ่น')


fill_mask('ฮอกไกโดเป็นชื่อจังหวัดและเกาะที่ใหญ่เป็นอันดับสองในประเทศ<mask>')


Groundtruth : ฮอกไกโดเป็นชื่อจังหวัดและเกาะที่ใหญ่เป็นอันดับสองในประเทศญี่ปุ่น


[{'sequence': '<s> ฮอกไกโดเป็นชื่อจังหวัดและเกาะที่ใหญ่เป็นอันดับสองในประเทศญี่ปุ่น</s>',
  'score': 0.4552615284919739,
  'token': 195,
  'token_str': 'ญี่ปุ่น'},
 {'sequence': '<s> ฮอกไกโดเป็นชื่อจังหวัดและเกาะที่ใหญ่เป็นอันดับสองในประเทศฟิลิปปินส์</s>',
  'score': 0.1499887853860855,
  'token': 1710,
  'token_str': 'ฟิลิปปินส์'},
 {'sequence': '<s> ฮอกไกโดเป็นชื่อจังหวัดและเกาะที่ใหญ่เป็นอันดับสองในประเทศแคนาดา</s>',
  'score': 0.0457875095307827,
  'token': 2032,
  'token_str': 'แคนาดา'},
 {'sequence': '<s> ฮอกไกโดเป็นชื่อจังหวัดและเกาะที่ใหญ่เป็นอันดับสองในประเทศเกาหลีใต้</s>',
  'score': 0.038424838334321976,
  'token': 1627,
  'token_str': 'เกาหลีใต้'},
 {'sequence': '<s> ฮอกไกโดเป็นชื่อจังหวัดและเกาะที่ใหญ่เป็นอันดับสองในประเทศบราซิล</s>',
  'score': 0.03525587171316147,
  'token': 2666,
  'token_str': 'บราซิล'}]

In [27]:
fill_mask('เราไปฉีดวัคซีนโรคพิษสุนัขบ้าที่<mask>')


[{'sequence': '<s> เราไปฉีดวัคซีนโรคพิษสุนัขบ้าที่โรงพยาบาล</s>',
  'score': 0.10227640718221664,
  'token': 1229,
  'token_str': 'โรงพยาบาล'},
 {'sequence': '<s> เราไปฉีดวัคซีนโรคพิษสุนัขบ้าที่ผิวหนัง</s>',
  'score': 0.07309016585350037,
  'token': 4185,
  'token_str': 'ผิวหนัง'},
 {'sequence': '<s> เราไปฉีดวัคซีนโรคพิษสุนัขบ้าที่ตับ</s>',
  'score': 0.04181070998311043,
  'token': 3800,
  'token_str': 'ตับ'},
 {'sequence': '<s> เราไปฉีดวัคซีนโรคพิษสุนัขบ้าที่ศีรษะ</s>',
  'score': 0.026657581329345703,
  'token': 3389,
  'token_str': 'ศีรษะ'},
 {'sequence': '<s> เราไปฉีดวัคซีนโรคพิษสุนัขบ้าที่ปอด</s>',
  'score': 0.015487928874790668,
  'token': 4266,
  'token_str': 'ปอด'}]