In [None]:
!pip install --upgrade pythainlp
!pip install pyLDAvis



In [None]:
import pandas as pd
import pythainlp
import gensim
import pyLDAvis.gensim
pyLDAvis.enable_notebook()
import warnings
warnings.filterwarnings("ignore", category=DeprecationWarning)

In [None]:
df = pd.read_csv('Grab Reviews - Phakchum Khumhom.csv')

In [None]:
df.tail()

Unnamed: 0,Review_ID,Review
15,16,รอบนี้สั่งยำแบบรสหวาน อร่อยเลยค่ะ แต่เหมือนปริ...
16,17,เหมือนรสชาติไม่ค่อยคงที่มั้ยคะครั้งที่แล้วสั่ง...
17,18,ผัดฟักทองเค็มนำไปหน่อยค่ะ
18,19,สั่งมาครั้งที่ 2 แล้วค่ะ ตั้งแต่ย้ายร้าน เนื่อ...
19,20,ผัดฟักทองรอบนี้เค็มโดดไป ส่วนยำมีไม่ค่อยเข้มข้...


### Tokenize words

In [None]:
stopwords = list(pythainlp.corpus.thai_stopwords())
removed_words = [' ', '  ', '\n', 'ร้าน', 'ค่ะ', 'นะคะ', 'รส', 'รสชาติ', 'กิน', 'ทาน','นๆ','น', 'กก', 'ดดด', '(', ')', '/', '+', '.', '1', '2', '3', '4', '5', '6', '7', '8', '9', '55']
screening_words = stopwords + removed_words

def tokenize_with_space(sentence):
  merged = ' '
  words = pythainlp.word_tokenize(str(sentence), engine='newmm')
  for word in words:
    if word not in screening_words:
      merged = merged + ',' + word
  return merged[1:]

In [None]:
df['Review_tokenized'] = df['Review'].apply(lambda x: tokenize_with_space(x))

In [None]:
df.tail()

Unnamed: 0,Review_ID,Review,Review_tokenized
15,16,รอบนี้สั่งยำแบบรสหวาน อร่อยเลยค่ะ แต่เหมือนปริ...,",รอบ,สั่ง,ยำ,หวาน,อร่อย,เหมือน,ปริมาณ,แอบ,ลดลง"
16,17,เหมือนรสชาติไม่ค่อยคงที่มั้ยคะครั้งที่แล้วสั่ง...,",เหมือน,คงที่,สั่ง,เหมือน,ติด,หวาน,รอบ,หวาน,เค็ม"
17,18,ผัดฟักทองเค็มนำไปหน่อยค่ะ,",ผัด,ฟักทอง,เค็ม"
18,19,สั่งมาครั้งที่ 2 แล้วค่ะ ตั้งแต่ย้ายร้าน เนื่อ...,",สั่ง,ย้าย,บ้าน,ตอน,กระแส,สั่ง,ลอง,ตอนนี้,รู้,..."
19,20,ผัดฟักทองรอบนี้เค็มโดดไป ส่วนยำมีไม่ค่อยเข้มข้...,",ผัด,ฟักทอง,รอบ,เค็ม,โดด,ยำ,เข้มข้น,ติด,ขม"


### Create dictionary

In [None]:
documents = df['Review_tokenized'].to_list()
texts = [[text for text in doc.split(',')] for doc in documents]
dictionary = gensim.corpora.Dictionary(texts)

In [None]:
print(dictionary.token2id.keys())

dict_keys(['', 'จัดจ้าน', 'จืด', 'ดี', 'ผัด', 'ฟักทอง', 'ยำ', 'หมายถึง', 'อร่อย', 'เผ็ด', 'กลิ่น', 'กะเพรา', 'กับข้าว', 'ขม', 'คน', 'ความคล้ายคลึง', 'คาดหวัง', 'จมูก', 'จับฉ่าย', 'จ้น', 'ชอบ', 'ชิม', 'ซอส', 'ซีอิ้ว', 'ดัน', 'ตำ', 'ตี', 'ทิศทาง', 'นิดนึง', 'นึง', 'น้ำ', 'บวบ', 'ปลายลิ้น', 'ฝา', 'ม', 'มัง', 'รสจัด', 'รอบ', 'รีวิว', 'รู้', 'ลอง', 'ลาบ', 'ล้างน้ำ', 'หน่อไม้', 'อันนี้', 'เขียว', 'เข้มข้น', 'เค็ม', 'เจ้', 'เปรี้ยว', 'เส้น', 'เหมือน', 'เห็ด', 'แกง', 'แกงเลียง', 'แก้ว', 'แม้แต่น้อย', 'โดด', 'โอเค', 'ใส่', 'ไข่เค็ม', 'ข้าว', 'คลี', 'ตุ๋น', 'บุก', 'ส่วนตัว', 'เวิร์ค', 'แปลก', 'เหมือนเดิม', 'ข้าวผัด', 'นุ่ม', 'สั่ง', 'หวาน', 'อาหาร', 'เชื่อม', 'กี้', 'ถั่วเหลือง', 'ถ้วย', 'สูตร', 'เหม็น', 'แน่ใจ', 'แบบนี้', 'แม็ก', 'ไหม', 'ตอน', 'ติด', 'ทำอาหาร', 'พลาสติก', 'รบกวน', 'ระวัง', 'เจอ', 'เศษ', 'ไข่', 'จึ้ง', 'ธรรมดา', 'ปริมาณ', 'ราคา', 'รู้สึก', 'เทียบ', 'แพง', 'คัน', 'ตล๊อดดดดด', 'หลี', 'เด็ด', 'Celery', 'Happy', 'Shot', 'ดีมาก', 'ตก', 'นัว', 'ฝีมือ', 'มีความสุข', 'อารมณ์', 'เพลิน', 

In [None]:
gensim_corpus = [dictionary.doc2bow(text, allow_update=True) for text in texts]
word_frequencies = [[(dictionary[id], frequence) for id, frequence in couple] for couple in gensim_corpus]

### Topic modeling

In [None]:
num_topics = 20
chunksize = 4000
passes = 20
iterations = 50
eval_every = 1

temp = dictionary[0]
id2word = dictionary.id2token

model = gensim.models.LdaModel(corpus=gensim_corpus, id2word=id2word, chunksize=chunksize, \
                               alpha='auto', eta='auto', \
                               iterations=iterations, num_topics=num_topics, \
                               passes=passes, eval_every=eval_every)

In [None]:
vis_data = pyLDAvis.gensim.prepare(model, gensim_corpus, dictionary, mds='mmds')



In [None]:
vis_data