## **Load libraries and data**

In [1]:
!pip install --upgrade pythainlp
!pip install pyLDAvis



In [2]:
import pandas as pd
import pythainlp
import gensim
import pyLDAvis.gensim
pyLDAvis.enable_notebook()
import warnings
warnings.filterwarnings("ignore", category=DeprecationWarning) 



In [3]:
df = pd.read_csv('Wongnai Reviews - Small.csv')

In [4]:
df.tail()

Unnamed: 0,Review ID,Review
295,296,ค่ำนี้คุณเพื่อนอยากส้มตำ หมูเฮาเลยพากันลงมากิน...
296,297,ร้านสะอาดดี ตกแต่งสวยงาม มีที่จอดรถ ราคาเมนูต่...
297,298,เช้าๆ รีบๆ วิ่งมาเข่าห้องเรียนแทบไม่ทันแต่ต้อง...
298,299,ร้านนี้เป็นร้านกาแฟเล็กๆ ข้างๆ ร้านๆ Happy Man...
299,300,ทรูคอฟฟี่สาขาซีคอนอยู่ในศูนย์บริการของทรู ชั้น...


## **Tokenize Words**

In [5]:
stopwords = list(pythainlp.corpus.thai_stopwords())
removed_words = [' ', '  ', '\n', 'ร้าน', '(', ')']
screening_words = stopwords + removed_words

def tokenize_with_space(sentence):
  merged = ''
  words = pythainlp.word_tokenize(str(sentence), engine='newmm')
  for word in words:
    if word not in screening_words:
      merged = merged + ',' + word
  return merged[1:]

In [8]:
df['Review_tokenized'] = df['Review'].apply(lambda x: tokenize_with_space(x))

In [9]:
df.tail()

Unnamed: 0,Review ID,Review,Review_tokenized
295,296,ค่ำนี้คุณเพื่อนอยากส้มตำ หมูเฮาเลยพากันลงมากิน...,"ค่ำ,เพื่อน,ส้มตำ,หมู,เฮา,ลงมา,กิน,ส้มตำ,ออฟฟิศ..."
296,297,ร้านสะอาดดี ตกแต่งสวยงาม มีที่จอดรถ ราคาเมนูต่...,"สะอาด,ดี,ตกแต่ง,สวยงาม,ที่จอดรถ,ราคา,เมนู,เทีย..."
297,298,เช้าๆ รีบๆ วิ่งมาเข่าห้องเรียนแทบไม่ทันแต่ต้อง...,"เช้า,รีบ,วิ่ง,เข่า,ห้องเรียน,แทบ,ต้องหา,ของกิน..."
298,299,ร้านนี้เป็นร้านกาแฟเล็กๆ ข้างๆ ร้านๆ Happy Man...,"ร้านกาแฟ,Happy,Mango,อาทิตย์,นัด,เพื่อน,นั่ง,ค..."
299,300,ทรูคอฟฟี่สาขาซีคอนอยู่ในศูนย์บริการของทรู ชั้น...,"ทรู,คอ,ฟ,ฟี่,สาขา,ซีคอน,ศูนย์,บริการ,ทรู,ชั้น,..."


## **Create Dictionary**

In [10]:
documents = df['Review_tokenized'].to_list()
texts = [[text for text in doc.split(',')] for doc in documents]
dictionary = gensim.corpora.Dictionary(texts)

In [11]:
print(dictionary.token2id.keys())

ษณีย์', 'I', 'Japan', 'Larb', 'you', 'กลิ่นอาย', 'ข้าวปั้น', 'ชาม', 'ช่างคิด', 'ตคอ', 'ตั๊กแตน', 'บมิ', 'บางนา', 'ปุระ', 'ยำสลัด', 'รีรอ', 'ววว', 'วาซาบิ', 'ว้าว', 'สมะ', 'สะดิ้ง', 'หมอน', 'เกะ', 'เมกะ', 'แมลง', 'โซะ', 'โด้', 'โระ', 'โว', 'ไข่ต้ม', 'ดวงใจ', 'ตามตรง', 'กะทิ', 'ข้าวแกง', 'คำถาม', 'คูปอง', 'ง.', 'งอ', 'ตจ', 'ทองพันชั่ง', 'นู่', 'ปุ๊บ', 'พน', 'มะระ', 'ว.', 'สก', 'อ่างทอง', 'เชีบ', 'เอ', 'โคตร', 'CP', 'กฤษณา', 'ครู่เดียว', 'วันดีคืนดี', 'สมาส', 'อด', 'เข็ง', '        ', 'กล้อ', 'ขาดตอน', 'คล่องตัว', 'น์', 'ประกาย', 'สนามบิน', 'สุข', 'สเต๊ก', 'หรูหรา', 'เกวียน', 'เฟ้รนฟ', 'แกงป่า', 'ๆรส', 'Lamb', 'Satay', 'กะหล่ำ', 'กัว', 'กาน', 'ขลุกขลิก', 'จี', 'จึ', 'ช่', 'ซวน', 'ซาน', 'ซู่', 'ดอก', 'ดึ๋ง', 'บลอค', 'บัว', 'ฟั่น', 'รว', 'ราก', 'วช่วน', 'สะเต๊ะ', 'หมา', 'หยาง', 'หูหนู', 'อุดม', 'ฮัว', 'เข่า', 'เฉ่า', 'เฝิ่น', 'เพี้ยน', 'เสฉวน', 'เส้นก๋วยเตี๋ยว', 'แท้ ๆ', 'โจว', 'โร่', 'done', 'medium', 'rare', 'salmon', 'sirloin', 'steak', 'well', 'ขอโทษ', 'ทั้งสอง', 'ทึ่', 'น้ำตะไคร้', 'บ.

In [12]:
gensim_corpus = [dictionary.doc2bow(text, allow_update=True) for text in texts]
word_frequencies = [[(dictionary[id], frequence) for id, frequence in couple] for couple in gensim_corpus]

## **Topic Modeling**

In [14]:
num_topics = 30
chunksize = 4000 # size of the doc looked at every pass
passes = 20 # number of passes through documents
iterations = 50
eval_every = 1  # Don't evaluate model perplexity, takes too much time.

# Make a index to word dictionary.
temp = dictionary[0]  # This is only to "load" the dictionary.
id2word = dictionary.id2token

%time model = gensim.models.LdaModel(corpus=gensim_corpus, id2word=id2word, chunksize=chunksize, \
                       alpha='auto', eta='auto', \
                       iterations=iterations, num_topics=num_topics, \
                       passes=passes, eval_every=eval_every)

Wall time: 18.9 s


In [15]:
pyLDAvis.gensim.prepare(model, gensim_corpus, dictionary)

In [16]:
model.show_topic(1)

[('นั่ง', 0.02012897),
 ('กาแฟ', 0.018716576),
 ('ดี', 0.016384603),
 ('ทาน', 0.014045301),
 ('หวาน', 0.0134324785),
 ('เค้ก', 0.013136307),
 ('ลอง', 0.012442464),
 ('อร่อย', 0.012412482),
 ('ราคา', 0.011059255),
 ('รส', 0.009319485)]

In [17]:
df['topics'] = df['Review_tokenized'].apply(lambda x: model.get_document_topics(dictionary.doc2bow(x.split(',')))[0][0])
df['score'] = df['Review_tokenized'].apply(lambda x: model.get_document_topics(dictionary.doc2bow(x.split(',')))[0][1])

In [18]:
df.tail()

Unnamed: 0,Review ID,Review,Review_tokenized,topics,score
295,296,ค่ำนี้คุณเพื่อนอยากส้มตำ หมูเฮาเลยพากันลงมากิน...,"ค่ำ,เพื่อน,ส้มตำ,หมู,เฮา,ลงมา,กิน,ส้มตำ,ออฟฟิศ...",18,0.996965
296,297,ร้านสะอาดดี ตกแต่งสวยงาม มีที่จอดรถ ราคาเมนูต่...,"สะอาด,ดี,ตกแต่ง,สวยงาม,ที่จอดรถ,ราคา,เมนู,เทีย...",1,0.991984
297,298,เช้าๆ รีบๆ วิ่งมาเข่าห้องเรียนแทบไม่ทันแต่ต้อง...,"เช้า,รีบ,วิ่ง,เข่า,ห้องเรียน,แทบ,ต้องหา,ของกิน...",5,0.989208
298,299,ร้านนี้เป็นร้านกาแฟเล็กๆ ข้างๆ ร้านๆ Happy Man...,"ร้านกาแฟ,Happy,Mango,อาทิตย์,นัด,เพื่อน,นั่ง,ค...",3,0.838256
299,300,ทรูคอฟฟี่สาขาซีคอนอยู่ในศูนย์บริการของทรู ชั้น...,"ทรู,คอ,ฟ,ฟี่,สาขา,ซีคอน,ศูนย์,บริการ,ทรู,ชั้น,...",8,0.887287
