In [1]:
class Tokenizer:

    def __init__(self, n_gram, en_stop=None, th_stop=None):

        import re
        import deepcut
        from nltk.tokenize import TreebankWordTokenizer

        self.test_text = 'This is a test text. นี่เป็นตัวอย่าง ข้อความtest ใน Python 3.6.'
        self.pattern = re.compile(u'[\u0e01-\u0e2e]')
        self.eng_tokenizer = TreebankWordTokenizer()
        self.n_gram = n_gram
        self.dp = deepcut
        if en_stop:
            with open('\\dict\\' + en_stop, 'rt', encoding='utf-8') as stop_file:
                self.en_stop = set([item for item in stop_file.read().split('\n')])
        else:
            self.en_stop = set([])

    def tokenizer(self, text=None):

        def n_gram_compile(tokens, n):

            tokens = tokens[:]
            n_tokens = []
            if n <= 1:
                return tokens
            for j, token in enumerate(tokens[:-(n - 1)]):
                new_token = ''
                for word in tokens[j:j + n]:
                    if self.pattern.search(word) and len(word) > 1:
                        new_token += word
                    else:
                        new_token = ''
                        break
                if new_token:
                    n_tokens.extend([new_token])
            return n_tokens

        def n_grams_compile(tokens, n):

            if n < 2:
                return tokens
            n_tokens = []
            for j in range(2, n + 1):
                n_tokens.extend(n_gram_compile(tokens, j))
            n_tokens = tokens + n_tokens
            return n_tokens

        if text == '-test':
            text = self.test_text

        in_text = text.replace('.', ' . ').replace(u'\xa0', ' ').replace('  ', ' ')
        first_pass = self.eng_tokenizer.tokenize(in_text)
        first_pass = [item for item in first_pass[:] if item not in self.en_stop]
        second_pass = []
        for i, chunk in enumerate(first_pass):
            if self.pattern.search(chunk) and len(chunk) > 1:
                new_chunk = self.dp.tokenize(chunk)
                second_pass.extend(new_chunk)
            else:
                second_pass.append(chunk.lower())

        second_pass = n_grams_compile(second_pass, self.n_gram)

        return second_pass


In [2]:
## Use this tokenizer to create a list of 1 gram
## in other words, word segmentor
myTokenizer = Tokenizer(1)

  from ._conv import register_converters as _register_converters
Using TensorFlow backend.


Instructions for updating:
`NHWC` for data_format is deprecated, use `NWC` instead


In [3]:
import time
t1 = time.time()
myTokenizer.tokenizer("Job scope &amp; responsibilities  ทำการวิเคราะห์ข้อมูลทางการเงินการบัญชี  และผลการดำเนินงานตลอดจนสัมภาษณ์ผู้บริหารระดับสูง   เพื่อประเมินปัจจัยความเสี่ยง ในแต่ละกระบวนการทำงานที่มีผลกระทบต่อการบรรลุเป้าหมายขององค์กร สอบทานความเพียงพอของกระบวนการควบคุมภายในแต่ละกระบวนการทำงานเพื่อให้มั่นใจว่ากระบวน การปฏิบัติงานของหน่วยรับตรวจมีประสิทธิภาพและประสิทธิผล วางแผนการตรวจสอบประจำปีของทีมงานที่รับผิดชอบ สอบทานกระบวนการปฏิบัติงาน(Business Process จัดทำ Preliminary Audit Program เพื่อกำหนดวัตถุประสงค์  และขอบเขตในการตรวจสอบแต่ละงาน จัดการและเตรียมข้อมูลสำหรับการประชุมเปิดตรวจ สอบทานความถูกต้องในการสรุปผลการสอบทานระบบควบคุมภายในจากการทำ System Walkthrough ของทีมงาน  และพิจารณาวิเคราะห์เพื่อระบุเรื่อง/จุดที่ต้องทำ Detailed Test  และจัดทำ Detailed Audit Program    บริหารจัดการและควบคุมการปฏิบัติงานภายในทีมตรวจสอบให้ปฏิบัติงานได้อย่างมีประสิทธิผล    สอบทานกระดาษทำการ เพื่อตรวจสอบความถูกต้อง / เพียงพอของข้อมูลและหลักฐานในการสรุปผลการตรวจแต่ละเรื่อง    ทำการสรุปประเด็นข้อตรวจพบ และข้อเสนอแนะในการปรับปรุงแก้ไขประเด็นข้อตรวจพบกับระดับหัวหน้าหน่วยงานที่เกี่ยวข้อง รวบรวมประเด็นข้อตรวจพบทั้งหมดและจัดทำร่างรายงานผลการตรวจสอบพร้อมข้อเสนอแนะที่เป็นประโยชน์ต่อองค์กร ดำเนินการนัดประชุมปิดตรวจกับผู้บริหารระดับสูงของหน่วยรับตรวจ, จัดทำเอกสารประกอบการประชุมพร้อม Presentations  และรายงานการประชุม จัดทำ Corrective Action Plan  เพื่อใช้ในการวางแผนการติดตามผลและมอบหมายงานติดตามผลให้ทีมงาน ช่วยฝึกอบรมพนักงานใหม่และเก่าเพื่อพัฒนาประสิทธิภาพในการตรวจสอบ ให้คำปรึกษาเกี่ยวกับการควบคุมภายในของกระบวนการปฏิบัติงานแก่ผู้รับตรวจ  Qualifications   เพศชาย – หญิง อายุไม่เกิน 35 ปี  ปริญญาตรี-โท มีประสบการณ์ด้านการตรวจสอบ 5 ปีขึ้นไป   มีทักษะทางด้านคอมพิวเตอร์อย่างดีทั้ง Microsoft Word, Excel, Visio, Power Point  มีทักษะในการใช้ภาษาอังกฤษในการอ่านและเขียน  ต้องมีจรรยาบรรณในการปฏิบัติงานอย่างซื่อสัตย์, เที่ยงธรรม, รักษาความลับขององค์กรผู้รับตรวจ  รวมถึงต้องมี             ความรู้ความสามารถและมีมาตรฐานการปฏิบัติงานเยี่ยงผู้ประกอบวิชาชีพ (Professional Practices) มีทักษะในการวิเคราะห์ผลการดำเนินงาน, การวิเคราะห์ระบบงาน(ความเสี่ยง/จุดอ่อนของกระบวนการปฏิบัติงาน) อย่างดีพอ มีทักษะในการเขียนรายงานผลการตรวจสอบอย่างสร้างสรรค์และสามารถสื่อสารให้ผู้รับตรวจเข้าใจประเด็น/ผลกระทบ/ข้อเสนอแนะได้อย่างชัดเจนเพื่อให้เกิดการยอมรับ และนำไปสู่การปรับปรุงการปฏิบัติงานเพื่อให้บรรลุวัตถุประสงค์ขององค์กร  Interested candidates are invited to send your resume in English with your recent photo attached stating current / expected salary . Click  \" Apply Now \"")
print(time.time()-t1)

1.904998540878296


In [4]:
def sortKey(mytuple):
    return mytuple[1]

In [7]:
## build a corpus
##    for each doc 
##        for each word in doc
##            if word in corpus
##                 increase frequency
##            else 
##                 append word into doc, increase frequency

## create a frequency posting list
import json
import os
import time

tstart = time.time()

#file_in = "masterDB_JPA Data - 20180406_flatten.json"
file_in = "block1.json"

wordCount_title=dict()
wordCount_desc=dict()

doccount = 1

with open(file_in, encoding = 'utf-8') as fin:
    for line in fin:
        #print("At doc : "+str(doccount))
        doccount+=1
        
        line_dict = json.loads(line, encoding='utf-8')
        desc_tokens = myTokenizer.tokenizer(line_dict['desc'])
        
        for item in desc_tokens:
            if(type(wordCount_desc.get(item)) == type(None)):
                wordCount_desc[item] = 1
            else:
                wordCount_desc[item] += 1
                
        title_tokens = myTokenizer.tokenizer(line_dict['title'])
        
        for item in title_tokens:
            if(type(wordCount_title.get(item)) == type(None)):
                wordCount_title[item] = 1
            else:http://localhost:8888/notebooks/notebook/CreateDIctionary.ipynb#
                wordCount_title[item]+=1
tfin = time.time()
print(tfin-tstart)

SyntaxError: invalid syntax (<ipython-input-7-00283590dd38>, line 43)

In [9]:
sorted(list(wordCount_title.items()), key=sortKey, reverse=True)

[('งาน', 380),
 (')', 220),
 ('(', 219),
 ('พนักงาน', 136),
 ('>', 130),
 ('เจ้าหน้าที่', 107),
 ('ขาย', 93),
 ('/', 91),
 ('ประจำ', 90),
 ('.', 70),
 ('การ', 67),
 ('ผู้', 62),
 ('บัญชี', 59),
 ('engineer', 51),
 ('ช่าง', 47),
 (',', 46),
 ('-', 40),
 ('ฝ่าย', 38),
 ('manager', 37),
 ('!', 36),
 ('sales', 35),
 ('ไอที', 34),
 ('&', 29),
 ('ธุรการ', 29),
 ('วิศวกร', 28),
 ('บริการ', 28),
 ('จัดการ', 28),
 ('เงิน', 27),
 ('ๆ', 26),
 ('สาขา', 25),
 ('ช่วย', 24),
 ('อื่น', 22),
 ('ลูกค้า', 22),
 ('ด่วน', 20),
 ('สินค้า', 19),
 ('ร้าน', 19),
 ('รถ', 19),
 ('พัฒนา', 18),
 ('officer', 18),
 ('เครื่อง', 18),
 ('แบบ', 18),
 ('และ', 17),
 ('ผลิต', 17),
 ('จัดซื้อ', 17),
 ('*', 17),
 ('บริหาร', 16),
 ('ตลาด', 16),
 ('วิศวกรรม', 15),
 ('supervisor', 15),
 ('ออก', 15),
 ('executive', 15),
 ('บุคคล', 15),
 ('ได้', 15),
 ('ความ', 15),
 ('project', 14),
 ('ธนาคาร', 13),
 ('ธุรกิจ', 13),
 ('รับ', 13),
 ('pc', 13),
 ('ทำ', 13),
 ('ราย', 13),
 ('application', 13),
 ('and', 12),
 ('senior', 12),
 ('ทาง',

In [56]:
a[0][1]

3