# Load libraries and data

In [1]:
!pip install --upgrade pythainlp
!pip install pyLDAvis



In [2]:
import pandas as pd
import pythainlp
import gensim
import pyLDAvis.gensim
pyLDAvis.enable_notebook()
import warnings
warnings.filterwarnings("ignore", category=DeprecationWarning)

In [3]:
df = pd.read_csv('The House Of Smooth Curry Review.csv')

In [4]:
df.tail()

Unnamed: 0,Review ID,Review
10,11,อาหารอร่อยแบบไทยโบราณภาคกลาง บรรยากาศดีมาก ตกแ...
11,12,อาหารรสชาติดี บรรยากาศดี พนักงานสุภาพ บริการดี...
12,13,บรรยากาศดีมากมีความเป็นไทยสูง เหมือนชาววัง อาห...
13,14,เพิ่งเคยกินเมี่ยงคำครั้งแรก ประทับใจเลยค่ะ รสช...
14,15,บริการดี อาหารอร่อย พนักงานมีเซอร์ไพร์สให้ด้วย...


# Tokenize Words

In [5]:
stopwords = list(pythainlp.corpus.thai_stopwords())
removed_word = [' ','  ','\n','ร้าน', '(', ')','ค่ะ','ครับ']
screening_words = stopwords + removed_word

In [6]:
def tokenize_with_space(sentence):
  merged = ''
  words = pythainlp.word_tokenize(str(sentence), engine = 'newmm')
  for word in words:
      if word not in screening_words:
        merged = merged + ',' + word
  return merged[1:]

In [7]:
df['Review_tokenized'] = df['Review'].apply(lambda x: tokenize_with_space(x))

In [8]:
df.tail()

Unnamed: 0,Review ID,Review,Review_tokenized
10,11,อาหารอร่อยแบบไทยโบราณภาคกลาง บรรยากาศดีมาก ตกแ...,"อาหาร,อร่อย,ไทย,โบราณ,กลาง,บรรยากาศ,ดีมาก,ตกแต..."
11,12,อาหารรสชาติดี บรรยากาศดี พนักงานสุภาพ บริการดี...,"อาหาร,รสชาติ,ดี,บรรยากาศ,ดี,พนักงาน,สุภาพ,บริก..."
12,13,บรรยากาศดีมากมีความเป็นไทยสูง เหมือนชาววัง อาห...,"บรรยากาศ,ดีมาก,ไทย,เหมือน,ชาววัง,อาหาร,ตกแต่ง,..."
13,14,เพิ่งเคยกินเมี่ยงคำครั้งแรก ประทับใจเลยค่ะ รสช...,"กิน,เมี่ยงคำ,ครั้งแรก,ประทับใจ,รสชาติ,อร่อย,กล..."
14,15,บริการดี อาหารอร่อย พนักงานมีเซอร์ไพร์สให้ด้วย...,"บริการ,ดี,อาหาร,อร่อย,พนักงาน,เซอร์,ไพร,์ส,บรร..."


# Create Ditionary

In [9]:
documents = df['Review_tokenized'].to_list()
text = [[text for text in doc.split(',')] for doc in documents]
dictionary = gensim.corpora.Dictionary(text)

In [10]:
print(dictionary.token2id.keys())

dict_keys(['1', 'drink', 'welcome', 'ขนม', 'คำแนะนำ', 'ซี่โครง', 'ดี', 'บริการ', 'พนักงาน', 'ฟรี', 'สุภาพ', 'หมู', 'อร่อย', 'อาหาร', 'เมนู', 'เลือก', 'เสิร์ฟ', 'โดยเฉพาะ', 'โต้', 'ให้ทาน', 'ได้ดี', 'งาน', 'ดีมาก', 'ทำอาหาร', 'นิ้ม', 'บรรยากาศ', 'พ', 'ม', 'รัก', 'วัตถุดิบ', 'สมราคา', 'เชฟ', 'แจ่มใส', 'แจ้', 'คอย', 'น้ำ', 'พื้นที่', 'รสชาติ', 'รองรับ', 'ร้องขอ', 'เติม', 'ใส่ใจ', 'ไม่ต้อง', 'ตกแต่ง', 'พนักงานบริการ', 'สดชื่น', 'สวยงาม', 'สะอาด', 'ไทย', 'ชัช', 'ดูแล', 'น่ารัก', 'น้อง', 'รน', 'ศิร', 'เท', 'กลั่นกรอง', 'กา', 'ก้าว', 'ครบรอบ', 'จาน', 'ต้น', 'ประทับใจ', 'มาจาก', 'รบ', 'รายละเอียด', 'ริก', 'รู้', 'ลืม', 'หัวใจ', 'เข้ามา', 'เริศ', 'แต่งงาน', 'โดน', 'ใจ', 'ใส', 'กลมกล่อม', 'ครอบครัว', 'ทาน', 'ผู้ใหญ่', 'หรู', 'เป็นแนว', 'เหมาะกับ', 'โมเดิร์น', 'กก', 'พูดจา', 'ย', 'ยย', 'แนะนำ', 'กะทิ', 'กุ้ง', 'คุ้มค่า', 'ตัว', 'สด', 'เลี่ยน', 'แกง', 'โดยรวม', 'ความรู้สึก', 'ดีเยี่ยม', 'ผู้จัดการ', 'รับประทาน', 'อบอุ่น', 'เหมาะสำหรับ', 'กลาง', 'วุ่นวาย', 'เกินงาม', 'เป็นกันเอง', 'โบราณ', 'กลับมา'

In [11]:
gensim_corpus = [dictionary.doc2bow(text, allow_update=True) for text in text]
word_frequencies = [[(dictionary[id], frequence) for id, frequence in couple] for couple in gensim_corpus]

# Topic Modeling

In [12]:
num_topics=30
chunksize = 4000 # size of the doc looked at every pass
passes = 20 # number of passes through documents
iterations = 50
eval_every = 1 # do not evaluate model perplexity, takes too much time

# make a index to word dictionary
temp = dictionary[0]  # this is only to load the dictionary
id2word = dictionary.id2token

model = gensim.models.LdaModel(corpus=gensim_corpus, id2word=id2word, chunksize=chunksize, \
                      alpha='auto', eta='auto', \
                      iterations=iterations, num_topics=num_topics, \
                      passes=passes, eval_every=eval_every)



Visualize Result


In [13]:
vis_data = pyLDAvis.gensim.prepare(model, gensim_corpus, dictionary, mds='mmds')



In [14]:
vis_data