In [1]:
import numpy as np
import json
import pandas as pd
from tqdm import tqdm

In [2]:
corpus_path = './Thai_corpus.txt'

In [None]:
with open('Thai_WordVectorDict_CBOW100.json', encoding='utf-8') as f:
    CBOW_dic = json.load(f)
#print(CBOW_dic)

In [3]:
with open('Thai_WordVectorDict_SVD100.json', encoding='utf-8') as f:
    SVD_dic = json.load(f)
#print(SVD_dic)

In [25]:
def convert_text_to_vector(text, dictionary, n, m):
    
  #split the text into words
  print (text)
  text = str(text).strip().split()
  
  #It is the list for all the vectors in text
  text_vectors = []
  text_words = []

  #inspect all n-grams in the text
  for i in range(len(text) - n + 1):
        #The list of vectors for words in the n-gram
        gram_vec = []
        words = []
        #Let's look into every word of the n-gram
        for word in text[i:i+n]:
            #If current word is not in dictionary, we skip this n-gram 
            if word not in dictionary:
                gram_vec = []
                break
            vec_ = dictionary[word][:m]
            gram_vec.append(vec_)
            words.append(word)
        
      #If the list of vectors is not correct, we skip the n-gram
        if len(gram_vec) != n or len(gram_vec[-1]) != m:
            continue
        text_vectors.append(np.array(gram_vec).flatten())
        text_words.append(' '.join(words))
  text_dict = dict(zip(text_words, text_vectors))
  return text_dict

In [26]:
def vectorize_corpus_with_ngrams(corpus_path: str,
                                   separator: str,
                                   word_vector_dict: dict, n : int , m : int  ) -> np.ndarray:
    colnames=['Text Title', 'X', 'Y', 'Text'] 
    df_corpus = pd.read_csv(corpus_path, delimiter= "$", names =colnames, header=None)[['Text Title', 'Text']]
    corpus = df_corpus['Text'].tolist()
    #print (corpus)
    vectorized_corpus = list()
    for text_index, text in enumerate(tqdm(corpus)):
        vectorized_text = dict()
        if not text:
            continue
        
        vectorized_t = convert_text_to_vector(text, word_vector_dict,n,m)
        vectorized_text['document_index'] = text_index
        vectorized_text['vectorized_text'] = vectorized_t
        vectorized_corpus.append(vectorized_text)
    return np.array(vectorized_corpus, dtype=object)

In [27]:
#How long is the n-gram
n = 1
#How long is a vector for every word
m = 100


In [28]:
text = "test_corpus.txt"

In [31]:
colnames=['Text Title', 'X', 'Y', 'Text'] 

In [32]:
df_corpus = pd.read_csv(text, delimiter= "$", names =colnames, header=None)[['Text Title', 'Text']]

In [33]:
df_corpus

Unnamed: 0,Text Title,Text
0,,ชุดิจรรมแทัษะภาษา อังฤษเพื่อาร สื่อสาร ล่ม สาร...
1,เทศน์เรื่องมังสวิรัติโดยหลวงตามหาบัวญาณสัมปันโน,เทศน์ เรื่อง มังสวิรัติ หลวง หาบัว เบื้อ หา จา...
2,,
3,,สเตเสวนาคสรูป ผลารถำเนิน งานาร เวที่ เสวนา นัค...
4,,เบษายน ล่งทางารเินใล้ ที่มั ด้ย่น หข่าวคราว มิ...


In [36]:
df_corpus =df_corpus.dropna(subset=['Text'])
df_corpus

Unnamed: 0,Text Title,Text
0,,ชุดิจรรมแทัษะภาษา อังฤษเพื่อาร สื่อสาร ล่ม สาร...
1,เทศน์เรื่องมังสวิรัติโดยหลวงตามหาบัวญาณสัมปันโน,เทศน์ เรื่อง มังสวิรัติ หลวง หาบัว เบื้อ หา จา...
3,,สเตเสวนาคสรูป ผลารถำเนิน งานาร เวที่ เสวนา นัค...
4,,เบษายน ล่งทางารเินใล้ ที่มั ด้ย่น หข่าวคราว มิ...


In [29]:
vectorized_corpus = vectorize_corpus_with_ngrams(text,
                                               ' ',
                                               SVD_dic,n,int(m/n))

  0%|          | 0/5 [00:00<?, ?it/s]

ชุดิจรรมแทัษะภาษา อังฤษเพื่อาร สื่อสาร ล่ม สาระารเรียนร้ภาษา ประเทศ นางสาวนันทนิตย์นิโรธสั๓ ๓า ตาแหนงครวทยชิา นะ คร ขานาณาร รงเรียน ศาลเจ้าห้าวนุคูลวิทยาสำนังานเขตบางขุนเทียนรุง เทพมหานคร คานา ชุดิจรรมฟิทัษะภาษา อังฤษเพื่อารสื่อสาร ลุ่มสาระารเรียนรู้ ภาษา ประเทศ นัเรียน ชั้น ประถม ศึษา ปี จัดทำ สื่อารเรียนรู้ประอบารเรียนาร สอน วิชา ภาษา อังฤษ ประสบ สำเร็จ ยิ่ง ผู้ เรียน สามารถ รู้ สามารถ ประยุต์ ใช้ เิด ประโยชน์ ชีวิต ประจำ ชุดิจรรมฟิทัษะภาษา อังฤษเพื่อารสื่อสาร ลุ่มสาระารเรียนรู้ ภาษา ประเทศ ภาษา อังฤษ นัเรียน ชั้น ประถม ศึษา ปี จัดทำ ทั้งหมด เล่ม เล่ม เป็นชุดิจรรมที่ บเโ๓ นัเรียน เรียนรู้ ศัพท์ารสนทนาร อ่าน และารเขียน เี่ยวับิจรรมยาม ว่างมีารบูรณารทัษะ คือารฟ้ง พูด อ่าน เขียน สัมพันธั์น ลำดับ เรียนรู้ จา ใบ รู้ ชุดิจรรม ประอบ คู่มือ นัเรียน ทดสอ บ่อน เรียน และิจรรมในชุดิจรรมนัเรียน เรียนรู้ จน ครบ จำนวน ลำดับ ของิจรรมแต่ ละิจรรมทำ นัเรียน เข้าใจ เนื้อหา ดี หวัง ยิ่ง ชุดิจรรมฟิทัษะภาษา อังฤษ เล่ม ประโยชน์ ครู ผู้ สอน นัเรียน ร่วมมือ ในารจัดิจรรมารเรียนาร สอน แนวทาง ชองิจรรม พัฒนา นันท

100%|██████████| 5/5 [00:00<00:00, 11.42it/s]

เบษายน ล่งทางารเินใล้ ที่มั ด้ย่น หข่าวคราว มิจฉาชีพ แ๊ง ไชร้บัญชี บวนาร เหล่า นี่ แยบยล หรือาร ใหม่ อุบาย ล่อลวง หลอ ศัพท์ ทันารหลอ ลวง ไทร รู้ เท่า ครื่อง มือ ผิด ะทำ คัญ ในารร มือ สำ ม้า จจุบัน ปัจ แนวทาง แ้ไน อนาคต าับารจัดาร ม้ บัญชีัญ หา แล มแ รเง้นหรอ โงทางา ปเแบบ หอง ชาชนเล ใหั้บปร าง เสียหาย ะเท อี ปร ภาคเอชน จิง มือัน าลตังนัน าศ เงน ห์ ข้อ มลช่าร าร ามร์ สถิติ โทยปี แ๊ง หลอ ลวง จำนวน โทรศัพท์ หลอ ลวง เพิ่ม จา ปี่อน เพิ่ม จา ปี่อน ที่มา พผลารสำรวจ หองสวนดุ สีตโพล มหาวิทยาลัยสวนดุสีต เดือนพจา ประชาชน ตัว คน ไทย พน เจอ แ๊งเทรมา มูลค่า รตล้อ โงธุรรรม ชำระ เงินแย ช่องทางาร ชำระ เงิน เครื่อง รูด บัตร ฝี อื่น มูลค่า บาท หมาย เหต มูลค่า ถู ล้อ โง สถาบันารผินดำเนินารพิสูจน์ จนถึง เิดาร ต้อโง จริง คน รู้ จัเคย ธนาคารแห่งประเทศไทย คิอ อะไ ต๋ ตัวอย่าง หรือารถ้อโงทางารผิน หลาลาย ประเภท ทั้งารหโมยบัตร อิเล็ทรอนิส์หรือาร ขโมย ข้อมูล บน บัตร ซื้อ สินค้า ออนไลน์าร ปลอมเแปล งบปัตรรทพ ไปดผิน สด ตู้ โพหรือาร ขโมย ตัวตน ผู้ อื่น สวมรอย เปิดบ ปัญชี ธนาคาร บัตร อิเล็ทรอนิส์ รณี มิจฉาชีพ หลอ ลวง โท




In [None]:
vectorized_corpus = vectorize_corpus_with_ngrams(corpus_path,
                                               ' ',
                                               CBOW_dic,n,int(m/n))

In [None]:
np.save("Thai_vectorized_corpus_CBOW_1gram_6", vectorized_corpus)

In [None]:
np.save("Thai_vectorized_corpus_SVD_1gram_6", vectorized_corpus)