In [1]:
import os
import sys
from tensorflow.keras import models
import tensorflow as tf
import numpy as np
import json

parent_dir = os.path.abspath(os.path.join(os.path.dirname(__file__), '..'))
sys.path.append(parent_dir)

# Import trained model

In [2]:
model_path = os.path.join(parent_dir, 'train', 'models')
model = models.load_model(os.path.join(model_path, 'Dense_seqpad.h5'))

In [3]:
probability_model = tf.keras.Sequential([model, 
                                         tf.keras.layers.Softmax()])

In [4]:
config_file = os.path.join(model_path, 'configure.json')
with open(config_file, 'r', encoding='utf8') as fp:
    config = json.load(fp)
    
    
labels = dict()
for k,v in config.get('labels').items():
    v = int(v)
    if v in labels:
        labels[v] = f'{labels[v]}/{k}' # OK/OTP
    else:
        labels[v] = k

In [5]:
labels

{0: 'OK/OTP', 2: 'scam', 1: 'spam'}

In [6]:
examples = [
    'รหัส OTP สำหรับการยืนยันตัวตนของคุณสำหรับการใช้งาน GHB All คือ 318266 หมายเลขอ้างอิง IDN239S',
    'คุณได้SMSนี้ รับ100฿ ไม่ต้องแชร์ คลิก https://llonp9.co/n/8cCwo5mB',
    'รหัส OTP เพื่อยืนยันการปรับวงเงินการทำรายการรายวันของคุณคือ 97032 ห้ามบอกรหัสนี้แก่บุคคลอื่น',
    'มีการเปิดใช้งาน (Activate) MyMo เมื่อวันที่ 20/08/64 เวลา 14.32 น. หากท่านไม่ได้ทำรายการโปรดติดต่อ 1143 ทันที',
    'เนื่องจากคุณเป็นผู้ใช้ติ๊กต็อกที่มีประวัติที่ดี คุณได้รับเงินสดจากทาง ติ๊กต็อก แอดLine: wtt9',
    'รายการสั่งซื้อของท่าน IKEA หมายเลข W017-21112221 ของท่านจะถูกจัดส่งโดย MW_ST9997 STORE ในวันที่ 19-01-2023  ในช่วงเวลา  09:00 -12:00.หากมีข้อสงสัยกรุณาสอบถาม 02 708 7999 หรือ อีเมล์ customerrelations.ikeath@ikano.asia.Your IKEA order W017-21112221 will be delivered by MW_ST9997 STORE on 19-01-2023  between  09:00 -12:00.Need help Call 02 708 7999 or email customerrelations.ikeath@ikano.asia',
    'KINGKONG555 ไม่แตกเว็บอื่น มาลองเว็บเรา กำลังแจก https://bit.ly/kk557',
    'ปรับค่าแตกให้สูงกว่า เฉพาะสิ้นเดือนเท่านั้น คลิก bit.ly/3LeuScU',
    'PGGOLD แตกหนักไม่เกรงใจใคร ฝากมาเลย แตกจริง99% https://bit.ly/glo33',
    'Weplay168 ไม่แตกเว็บอื่นมาลองเว็บเรากำลังแจก ด่วน https://bit.ly/wev33',
    'ยูสใหม่โอกาสชนะกว่า90% เว็Uตรงไม่อั้นถอน https://bit.ly/pao13',
    'ถอนกี่ครั้งก็ได้ ถอนได้ไม่อั้น เว็บตรง Pao168 https://bit.ly/pao13',
]

# Predict

In [7]:
from helper import textutils

3.0.8


## Example of Sequence and Padding

In [8]:
for txt in examples:
    sanitized_txt = textutils.sanitize_text(txt)
    textrep_array = textutils.padded_seq_from_text(sanitized_txt, 
                                                config['word_index'], 
                                                config['max_length'], 
                                                ignore_err=True) 
    
    print (txt)
    print (sanitized_txt)
    print (textutils.tokenize(sanitized_txt, clean=True))
    print ()
    
    predictions = probability_model.predict([textrep_array])
    predict = np.argmax(predictions[0])
    
    print (labels[predict])
    print ()    

Found word not in word_index: word=idn


รหัส OTP สำหรับการยืนยันตัวตนของคุณสำหรับการใช้งาน GHB All คือ 318266 หมายเลขอ้างอิง IDN239S
รหัส OTP สำหรับการยืนยันตัวตนของคุณสำหรับการใช้งาน GHB All คือ 318266 หมายเลขอ้างอิง IDN239S
['รหัส', 'otp', 'สำหรับ', 'การ', 'ยืนยัน', 'ตัวตน', 'ของ', 'คุณ', 'สำหรับ', 'การใช้งาน', 'ghb', 'all', 'คือ', 'หมายเลข', 'อ้างอิง', 'idn', 's']

OK/OTP

คุณได้SMSนี้ รับ100฿ ไม่ต้องแชร์ คลิก https://llonp9.co/n/8cCwo5mB
คุณได้SMSนี้ รับ100฿ ไม่ต้องแชร์ คลิก <LINK>
['คุณ', 'ได้', 'sms', 'นี้', 'รับ', 'บาท', 'ไม่ต้อง', 'แชร์', 'คลิก', '<LINK>']

scam

รหัส OTP เพื่อยืนยันการปรับวงเงินการทำรายการรายวันของคุณคือ 97032 ห้ามบอกรหัสนี้แก่บุคคลอื่น
รหัส OTP เพื่อยืนยันการปรับวงเงินการทำรายการรายวันของคุณคือ 97032 ห้ามบอกรหัสนี้แก่บุคคลอื่น
['รหัส', 'otp', 'เพื่อ', 'ยืนยัน', 'การ', 'ปรับ', 'วงเงิน', 'การ', 'ทำ', 'รายการ', 'รายวัน', 'ของ', 'คุณ', 'คือ', 'ห้าม', 'บอก', 'รหัส', 'นี้', 'แก่', 'บุคคล', 'อื่น']

OK/OTP

มีการเปิดใช้งาน (Activate) MyMo เมื่อวันที่ 20/08/64 เวลา 14.32 น. หากท่านไม่ได้ทำรายการโปรดติดต่อ 

Found word not in word_index: word=wtt


OK/OTP

เนื่องจากคุณเป็นผู้ใช้ติ๊กต็อกที่มีประวัติที่ดี คุณได้รับเงินสดจากทาง ติ๊กต็อก แอดLine: wtt9
เนื่องจากคุณเป็นผู้ใช้ติ๊กต็อกที่มีประวัติที่ดี คุณได้รับเงินสดจากทาง ติ๊กต็อก แอดLine: wtt9
['เนื่องจาก', 'คุณ', 'เป็น', 'ผู้ใช้', 'ติ๊ก', 'ต็อก', 'ที่', 'มีประวัติ', 'ที่', 'ดี', 'คุณ', 'ได้รับ', 'เงินสด', 'จาก', 'ทาง', 'ติ๊ก', 'ต็อก', 'แอด', 'line', 'wtt']



Found word not in word_index: word=mw
Found word not in word_index: word=st
Found word not in word_index: word=delivered
Found word not in word_index: word=mw
Found word not in word_index: word=st
Found word not in word_index: word=between


scam

รายการสั่งซื้อของท่าน IKEA หมายเลข W017-21112221 ของท่านจะถูกจัดส่งโดย MW_ST9997 STORE ในวันที่ 19-01-2023  ในช่วงเวลา  09:00 -12:00.หากมีข้อสงสัยกรุณาสอบถาม 02 708 7999 หรือ อีเมล์ customerrelations.ikeath@ikano.asia.Your IKEA order W017-21112221 will be delivered by MW_ST9997 STORE on 19-01-2023  between  09:00 -12:00.Need help Call 02 708 7999 or email customerrelations.ikeath@ikano.asia
รายการสั่งซื้อของท่าน IKEA หมายเลข W017-21112221 ของท่านจะถูกจัดส่งโดย MW_ST9997 STORE ในวันที่ 19-01-2023 ในช่วงเวลา 09:00 -12:00.หากมีข้อสงสัยกรุณาสอบถาม 02 708 7999 หรือ อีเมล์ <LINK> @ <LINK> IKEA order W017-21112221 will be delivered by MW_ST9997 STORE on 19-01-2023 between 09:00 -12: <LINK> help Call 02 708 7999 or email <LINK> @ <LINK>
['ราย', 'การสั่งซื้อ', 'ของ', 'ท่าน', 'ikea', 'หมายเลข', 'w', 'ของ', 'ท่าน', 'จะ', 'ถูก', 'จัดส่ง', 'โดย', 'mw', 'st', 'store', 'ใน', 'วันที่', 'ใน', 'ช่วงเวลา', 'หาก', 'มี', 'ข้อสงสัย', 'กรุณา', 'สอบถาม', 'หรือ', 'อีเมล์', '<LINK>', '<LINK>', 'ikea', 'or

Found word not in word_index: word=kingkong


OK/OTP

KINGKONG555 ไม่แตกเว็บอื่น มาลองเว็บเรา กำลังแจก https://bit.ly/kk557
KINGKONG555 ไม่แตกเว็บอื่น มาลองเว็บเรา กำลังแจก <SHORT-LINK>
['kingkong', 'ไม่', 'แตก', 'เว็บ', 'อื่น', 'มา', 'ลอง', 'เว็บ', 'เรา', 'กำลัง', 'แจก', '<SHORT-LINK>']

scam

ปรับค่าแตกให้สูงกว่า เฉพาะสิ้นเดือนเท่านั้น คลิก bit.ly/3LeuScU
ปรับค่าแตกให้สูงกว่า เฉพาะสิ้นเดือนเท่านั้น คลิก <SHORT-LINK>
['ปรับ', 'ค่า', 'แตก', 'ให้', 'สูง', 'กว่า', 'เฉพาะ', 'สิ้นเดือน', 'เท่านั้น', 'คลิก', '<SHORT-LINK>']



Found word not in word_index: word=pggold
Found word not in word_index: word=เกรงใจ


scam

PGGOLD แตกหนักไม่เกรงใจใคร ฝากมาเลย แตกจริง99% https://bit.ly/glo33
PGGOLD แตกหนักไม่เกรงใจใคร ฝากมาเลย แตกจริง99% <SHORT-LINK>
['pggold', 'แตก', 'หนัก', 'ไม่', 'เกรงใจ', 'ใคร', 'ฝาก', 'มา', 'เลย', 'แตก', 'จริง', '<SHORT-LINK>']



Found word not in word_index: word=weplay


scam

Weplay168 ไม่แตกเว็บอื่นมาลองเว็บเรากำลังแจก ด่วน https://bit.ly/wev33
Weplay168 ไม่แตกเว็บอื่นมาลองเว็บเรากำลังแจก ด่วน <SHORT-LINK>
['weplay', 'ไม่', 'แตก', 'เว็บ', 'อื่น', 'มา', 'ลอง', 'เว็บ', 'เรา', 'กำลัง', 'แจก', 'ด่วน', '<SHORT-LINK>']

scam

ยูสใหม่โอกาสชนะกว่า90% เว็Uตรงไม่อั้นถอน https://bit.ly/pao13
ยูสใหม่โอกาสชนะกว่า90% เว็Uตรงไม่อั้นถอน <SHORT-LINK>
['ยูส', 'ใหม่', 'โอกาส', 'ชนะ', 'กว่า', 'เว็', 'u', 'ตรง', 'ไม่', 'อั้น', 'ถอน', '<SHORT-LINK>']



Found word not in word_index: word=pao


scam

ถอนกี่ครั้งก็ได้ ถอนได้ไม่อั้น เว็บตรง Pao168 https://bit.ly/pao13
ถอนกี่ครั้งก็ได้ ถอนได้ไม่อั้น เว็บตรง Pao168 <SHORT-LINK>
['ถอน', 'กี่', 'ครั้ง', 'ก็ได้', 'ถอน', 'ได้', 'ไม่', 'อั้น', 'เว็บ', 'ตรง', 'pao', '<SHORT-LINK>']

scam



In [10]:
def load_model(filepath):
    model = models.load_model(filepath)
    return tf.keras.Sequential([model, 
                                tf.keras.layers.Softmax()])

deep_models = {
    'Dense_bow': load_model('models/Dense_bow.h5'),
    'Dense_tfidf': load_model('models/Dense_tfidf.h5'),
    'Dense_seqpad': load_model('models/Dense_seqpad.h5'),
    'BiLSTM_seqpad': load_model('models/BiLSTM_seqpad.h5'),
    
}
for txt in examples:
    
    print (txt)    
    sanitized_txt = textutils.sanitize_text(txt)
    
    for model_name in deep_models:
        prob_model    = None
        textrep_array = None
        
        if model_name.endswith('bow'):
            textrep_array = textutils.bow_array_from_text(sanitized_txt,
                                                          config['word_index'],
                                                          ignore_err=True)

            
        elif model_name.endswith('tfidf'):
            textrep_array = textutils.tfidf_array_from_text(sanitized_txt,
                                                            config['word_index'],
                                                            config['idf_values'],
                                                            ignore_err=True)
        elif model_name.endswith('seqpad'):
            textrep_array = textutils.padded_seq_from_text(sanitized_txt, 
                                                        config['word_index'], 
                                                        config['max_length'], 
                                                        ignore_err=True)
        
        
        
        prob_model = deep_models[model_name]
        predictions = prob_model.predict(np.array([textrep_array]))
        predict = np.argmax(predictions[0])
        
        print (f'{model_name}: {labels[predict]} {predictions}')  

    print ()

Found word not in word_index: word=idn


รหัส OTP สำหรับการยืนยันตัวตนของคุณสำหรับการใช้งาน GHB All คือ 318266 หมายเลขอ้างอิง IDN239S


Found word not in word_index: word=idn


Dense_bow: OK/OTP [[0.5744364  0.21169758 0.21386595]]


Found word not in word_index: word=idn


Dense_tfidf: OK/OTP [[0.5600077  0.21550079 0.22449152]]


Found word not in word_index: word=idn


Dense_seqpad: OK/OTP [[0.5720187  0.21199755 0.21598378]]
BiLSTM_seqpad: OK/OTP [[0.47530815 0.17489627 0.17490861 0.174887  ]]

คุณได้SMSนี้ รับ100฿ ไม่ต้องแชร์ คลิก https://llonp9.co/n/8cCwo5mB
Dense_bow: scam [[0.29388353 0.19754682 0.50856966]]
Dense_tfidf: scam [[0.27045342 0.20654875 0.52299786]]
Dense_seqpad: scam [[0.2772736  0.24228567 0.4804407 ]]
BiLSTM_seqpad: scam [[0.18929154 0.17929052 0.4532116  0.17820631]]

รหัส OTP เพื่อยืนยันการปรับวงเงินการทำรายการรายวันของคุณคือ 97032 ห้ามบอกรหัสนี้แก่บุคคลอื่น
Dense_bow: OK/OTP [[0.56761914 0.20911019 0.22327065]]
Dense_tfidf: OK/OTP [[0.54652834 0.21512076 0.23835082]]
Dense_seqpad: OK/OTP [[0.57216763 0.21151905 0.21631336]]
BiLSTM_seqpad: OK/OTP [[0.4752361  0.17491095 0.17495458 0.17489839]]

มีการเปิดใช้งาน (Activate) MyMo เมื่อวันที่ 20/08/64 เวลา 14.32 น. หากท่านไม่ได้ทำรายการโปรดติดต่อ 1143 ทันที
Dense_bow: OK/OTP [[0.5686952  0.21169682 0.21960802]]
Dense_tfidf: OK/OTP [[0.5528295  0.21782093 0.22934964]]
Dense_seqpad: O

Found word not in word_index: word=wtt


BiLSTM_seqpad: OK/OTP [[0.47506133 0.17497022 0.17504248 0.17492603]]

เนื่องจากคุณเป็นผู้ใช้ติ๊กต็อกที่มีประวัติที่ดี คุณได้รับเงินสดจากทาง ติ๊กต็อก แอดLine: wtt9


Found word not in word_index: word=wtt


Dense_bow: scam [[0.3420726  0.18062574 0.4773016 ]]


Found word not in word_index: word=wtt


Dense_tfidf: scam [[0.29070917 0.20714581 0.50214505]]


Found word not in word_index: word=wtt


Dense_seqpad: scam [[0.25027263 0.22101967 0.5287077 ]]


Found word not in word_index: word=mw
Found word not in word_index: word=st
Found word not in word_index: word=delivered
Found word not in word_index: word=mw
Found word not in word_index: word=st
Found word not in word_index: word=between


BiLSTM_seqpad: scam [[0.17593211 0.1756286  0.47322154 0.17521772]]

รายการสั่งซื้อของท่าน IKEA หมายเลข W017-21112221 ของท่านจะถูกจัดส่งโดย MW_ST9997 STORE ในวันที่ 19-01-2023  ในช่วงเวลา  09:00 -12:00.หากมีข้อสงสัยกรุณาสอบถาม 02 708 7999 หรือ อีเมล์ customerrelations.ikeath@ikano.asia.Your IKEA order W017-21112221 will be delivered by MW_ST9997 STORE on 19-01-2023  between  09:00 -12:00.Need help Call 02 708 7999 or email customerrelations.ikeath@ikano.asia


Found word not in word_index: word=mw
Found word not in word_index: word=st
Found word not in word_index: word=delivered
Found word not in word_index: word=mw
Found word not in word_index: word=st
Found word not in word_index: word=between


Dense_bow: OK/OTP [[0.5483633  0.20403534 0.24760135]]


Found word not in word_index: word=mw
Found word not in word_index: word=st
Found word not in word_index: word=delivered
Found word not in word_index: word=mw
Found word not in word_index: word=st
Found word not in word_index: word=between


Dense_tfidf: OK/OTP [[0.48594567 0.20663096 0.30742338]]


Found word not in word_index: word=mw
Found word not in word_index: word=st
Found word not in word_index: word=delivered
Found word not in word_index: word=mw
Found word not in word_index: word=st
Found word not in word_index: word=between


Dense_seqpad: OK/OTP [[0.53841907 0.22041664 0.24116433]]


Found word not in word_index: word=kingkong


BiLSTM_seqpad: OK/OTP [[0.47465596 0.17516764 0.17518628 0.17499006]]

KINGKONG555 ไม่แตกเว็บอื่น มาลองเว็บเรา กำลังแจก https://bit.ly/kk557


Found word not in word_index: word=kingkong


Dense_bow: scam [[0.22712512 0.21161948 0.5612554 ]]


Found word not in word_index: word=kingkong


Dense_tfidf: scam [[0.21738745 0.21484917 0.5677633 ]]


Found word not in word_index: word=kingkong


Dense_seqpad: scam [[0.21323934 0.22664694 0.5601137 ]]
BiLSTM_seqpad: scam [[0.17495796 0.17493235 0.47520652 0.17490321]]

ปรับค่าแตกให้สูงกว่า เฉพาะสิ้นเดือนเท่านั้น คลิก bit.ly/3LeuScU
Dense_bow: spam [[0.17864485 0.4174887  0.40386647]]
Dense_tfidf: spam [[0.17953049 0.42565843 0.3948111 ]]
Dense_seqpad: scam [[0.19836089 0.3476806  0.45395854]]


Found word not in word_index: word=pggold
Found word not in word_index: word=เกรงใจ


BiLSTM_seqpad: scam [[0.17606801 0.17969036 0.46825653 0.17598514]]

PGGOLD แตกหนักไม่เกรงใจใคร ฝากมาเลย แตกจริง99% https://bit.ly/glo33


Found word not in word_index: word=pggold
Found word not in word_index: word=เกรงใจ


Dense_bow: scam [[0.20971733 0.23784539 0.5524373 ]]


Found word not in word_index: word=pggold
Found word not in word_index: word=เกรงใจ


Dense_tfidf: scam [[0.20957264 0.23664983 0.5537776 ]]


Found word not in word_index: word=pggold
Found word not in word_index: word=เกรงใจ


Dense_seqpad: scam [[0.20528217 0.25942722 0.53529066]]


Found word not in word_index: word=weplay


BiLSTM_seqpad: scam [[0.1749099  0.17494404 0.47524965 0.17489634]]

Weplay168 ไม่แตกเว็บอื่นมาลองเว็บเรากำลังแจก ด่วน https://bit.ly/wev33


Found word not in word_index: word=weplay


Dense_bow: scam [[0.2195576  0.21254016 0.56790227]]


Found word not in word_index: word=weplay


Dense_tfidf: scam [[0.21517609 0.21525839 0.56956553]]


Found word not in word_index: word=weplay


Dense_seqpad: scam [[0.21086577 0.22591908 0.5632151 ]]
BiLSTM_seqpad: scam [[0.17491718 0.17492041 0.4752691  0.17489327]]

ยูสใหม่โอกาสชนะกว่า90% เว็Uตรงไม่อั้นถอน https://bit.ly/pao13
Dense_bow: scam [[0.22184023 0.2134783  0.5646815 ]]
Dense_tfidf: scam [[0.21554907 0.22164102 0.5628099 ]]
Dense_seqpad: scam [[0.2116164  0.24804391 0.54033965]]


Found word not in word_index: word=pao


BiLSTM_seqpad: scam [[0.17493851 0.17506222 0.4750753  0.17492403]]

ถอนกี่ครั้งก็ได้ ถอนได้ไม่อั้น เว็บตรง Pao168 https://bit.ly/pao13


Found word not in word_index: word=pao


Dense_bow: scam [[0.23063047 0.20982653 0.559543  ]]


Found word not in word_index: word=pao


Dense_tfidf: scam [[0.21713078 0.21621655 0.5666527 ]]


Found word not in word_index: word=pao


Dense_seqpad: scam [[0.2151943  0.22693925 0.55786645]]
BiLSTM_seqpad: scam [[0.17497379 0.17497012 0.4751427  0.17491339]]

