In [2]:
import gensim
from gensim import corpora

from pythainlp.tokenize import word_tokenize

import re

In [3]:
def clean(doc):
    while True:
        new_doc = re.sub('[^\u0E00-\u0E7F]+', '', doc)
        if doc == new_doc:
            break
        else:
            doc = new_doc

    return doc

def remove_stop_words (corpus, dictionary, threshold):
    TfidfModel = gensim.models.TfidfModel
    tfidf = TfidfModel(corpus, dictionary)

    stop_words = []
    for doc in corpus:
        stop_words += [id for id, value in tfidf[doc] if value < threshold]

    dictionary.filter_tokens(bad_ids=stop_words)
    return dictionary

def load_corpus(file_directory):
    comments = []

    with open(file_directory, 'r') as f:
        start = False
        num = -2

        for line in f:
            if line.startswith('comment'):
                num += 1
                if num < 0:
                    continue

                comment = ''.join(x for x in line.split(':')[2:])
                comments.insert(num, comment)
                start = True

            elif start:
                comments[num] += line
        
    return comments
                
def get_tokenized_corpus(corpus):
    tokenized_corpus = []
    
    for num in range(len(corpus)):
        tokenized_corpus.insert(num, clean(corpus[num]))
        tokenized_corpus[num] = word_tokenize(tokenized_corpus[num], engine='icu')
        
    return tokenized_corpus

### Preprocess Corpus

In [12]:
corpus = load_corpus('../data/facebook/1/ผู้บริโภค - TrueCoffee.txt')
tokenized_corpus = get_tokenized_corpus(corpus)
print('Total documents ' + str(len(tokenized_corpus)))

dictionary = corpora.Dictionary(tokenized_corpus)
bow_corpus = [dictionary.doc2bow(doc) for doc in tokenized_corpus]

dictionary = remove_stop_words(bow_corpus, dictionary, 0.03)
bow_corpus = [dictionary.doc2bow(doc) for doc in tokenized_corpus]

Total documents 350


In [13]:
for i, doc in enumerate(bow_corpus):
    print(str(i) + ': ', end='')
    for id, value in doc:
        print('(' + dictionary[id] + ', ' + str(value) + ')', end=' ')
    print('')

0: (กาแฟ, 1) (ก่อน, 1) (ค่ะ, 1) (จน, 1) (ชง, 1) (บอก, 1) (พนง, 1) (มาก, 1) (ร้าน, 2) (ว่า, 1) (สวย, 2) (ส่ง, 1) (อยาก, 1) (เงิน, 1) (เถอะ, 1) (เรียน, 1) (เอา, 1) (แต่ง, 1) (ไป, 1) 
1: (ส่ง, 1) (ควร, 1) (ค้า, 1) (จาก, 1) (ถ้า, 1) (ทรู, 1) (มัน, 1) (มา, 1) (มูฟ, 1) (ลูก, 1) (สิทธิ์, 1) (เต็ม, 1) (เรา, 1) (แล้ว, 1) (โปร, 1) (ใจ, 1) (ให้, 1) (ไม่, 1) 
2: (มาก, 1) (ไม่, 1) (ครับ, 2) (คุ้ม, 1) (ช่วง, 1) (ช่วย, 1) (ช้า, 1) (ด้วย, 1) (นี้, 1) (ปรับปรุง, 1) (ราย, 1) (เดือน, 1) (เนต, 1) (เลย, 1) (แต่, 1) (แพง, 1) (ใช้, 1) 
3: (ค, 1) (คาส, 1) (คาเฟ่, 1) (ชา, 1) (ตาบั, 1) (ติ, 1) (รส, 1) (รา, 1) (ล, 1) (ออ, 1) 
4: (เต็ม, 1) (แต่, 1) (ชา, 1) (กิน, 1) (ก็, 1) (ขนาด, 1) (จะ, 1) (นั้น, 1) (น้ำ, 2) (หมด, 1) (อะไร, 1) (เดียว, 1) (เปล่า, 1) (เมนู, 1) (เหลือ, 1) (แก้ว, 3) (แข็ง, 2) (แน่น, 1) (แป๊บ, 1) (ไทย, 1) 
5: (มาก, 1) (ครับ, 1) (ด้วย, 1) (ปรับปรุง, 1) (คนับ, 1) (ที, 1) (นี่, 1) (บ่อย, 1) (บ้าน, 1) (พัด, 1) (รึ, 1) (ลม, 1) (หลุด, 1) (หวย, 1) (หาย, 1) (เน็ต, 2) (โพย, 1) 
6: (กาแฟ, 1) (จน, 2) (ว่า, 1) (

98: (เต็ม, 1) (ตลอด, 1) (อี, 1) (สิทธ์, 1) (ผี, 1) 
99: (ว่า, 1) (น้อย, 1) (ไม่มี, 1) (อยู่, 1) (หวาน, 1) (จริง, 1) (คำ, 1) 
100: (กาแฟ, 1) (ไป, 1) (กว่า, 1) (ที่, 1) (ดี, 1) (ลอง, 1) (เปลี่ยน, 1) (อื่น, 1) (อย่าง, 1) (ขาย, 1) (ไม่ใช่, 1) 
101: (ก่อน, 1) (ปรับปรุง, 1) (ถือ, 1) (สัญญา, 1) (นมือ, 1) 
102: (กาแฟ, 1) (ไป, 1) (จะ, 1) (ไหน, 1) (แรง, 1) (มึง, 1) (ง, 1) (แม่, 1) (ดีด, 1) (สัส, 1) 
103: (ร้าน, 2) (ว่า, 1) (มัน, 1) (แต่, 1) (นะ, 1) (มอ, 1) (อ่ะ, 1) (กุ, 1) (ร่อย, 1) (นึก, 1) (ทอ, 1) (บรรยากาศ, 1) (สับ, 1) (อื, 1) (แปลกๆ, 1) 
104: (ค่ะ, 1) (ไม่, 2) (ชา, 1) (กิน, 1) (ชอบ, 1) (อร่อย, 1) (ปั่น, 1) (เขียว, 1) (เลี่ยน, 1) (หวาน, 1) (ชะ, 1) (มัช, 1) (มากๆ, 1) 
105: (อยาก, 1) (โปร, 1) (ให้, 1) (นี้, 1) (กว่า, 1) (ทำ, 1) (เยอะ, 1) 
106: (มี, 1) (ที่, 1) (ทุก, 1) (สูตร, 1) 
107: (แล้ว, 1) (ไม่, 1) (นี้, 1) (เลย, 1) (กิน, 1) (ถึง, 1) (แบรนด์, 1) (อร่อย, 1) (ความ, 1) (เคย, 1) (รู้สึก, 1) (อออ, 1) (ฮื้อ, 1) 
108: (ไม่, 1) (บ้าน, 1) (ได้, 1) (นะ, 1) (ละ, 1) (ตก, 1) (ดู, 1) (กุ, 1) (ทกาก, 1) (

300: (กาแฟ, 1) (ไม่, 1) (แพง, 1) (รส, 1) (ที่, 1) (ได้, 1) (ราคา, 1) (โบราณ, 1) (เกิน, 1) (เป็น, 1) (กับ, 1) (สม, 1) (ชาต, 1) 
301: (กาแฟ, 1) (ชง, 1) (ไม่, 2) (คุ้ม, 1) (แพง, 1) (น้อย, 1) (ได้, 1) (อร่อย, 1) 
302: (จะ, 1) (มี, 1) (เปิด, 1) (สาขา, 1) (น่า, 1) (ชม, 1) 
303: (ก่อน, 1) (มาก, 1) (ปรับปรุง, 1) (จะ, 1) (เน็ต, 1) (ดี, 1) (กก, 2) 
304: (มาก, 1) (กระจอก, 1) 
305: (สาขา, 1) (เพิ่ม, 1) 
306: (กาแฟ, 1) (ก่อน, 1) (ค่ะ, 1) (ชง, 1) (เรียน, 1) (ไป, 1) (ควร, 1) (ให้, 1) (คน, 1) (พนักงาน, 1) (ทุก, 1) 
307: (ไป, 2) (โปร, 1) (ไม่, 1) (เลย, 1) (ใช้, 1) (มี, 1) (เหมือน, 1) (ได้, 1) (ไว้, 1) (ขอ, 1) (แดก, 1) (ซื้อ, 1) (เคย, 1) (ทำไม, 1) (ฟรี, 1) 
308: (สวย, 1) (ไม่, 1) (คน, 1) (ขาย, 1) 
309: (กาแฟ, 1) (ค่ะ, 1) (แต่, 1) (แพง, 1) (ก็, 1) (อร่อย, 1) (แอบ, 1) (นิ, 1) (นุง, 1) (สห, 1) 
310: (ยาก, 1) (หากิน, 1) (เฉยๆ, 1) 
311: (บอก, 1) (เงิน, 1) (ไม่, 1) (อร่อย, 1) (เสียดาย, 1) (ตรงๆ, 1) 
312: (ราคา, 1) (ลด, 1) 
313: (รส, 1) (กัน, 1) (ราคา, 1) (และ, 1) (ทาง, 1) (ชาด, 1) (สวน, 1) 
314: (ร้าน, 1) (ไม

### Create LDA Model

In [14]:
num_topics = 4
Lda = gensim.models.ldamodel.LdaModel
ldamodel = Lda(bow_corpus, num_topics=num_topics, id2word=dictionary, passes=50)

In [15]:
print('\nterm-topic-matrix')
print(ldamodel.get_topics())


term-topic-matrix
[[0.01466982 0.00019893 0.013471   ... 0.00019893 0.00019899 0.00019899]
 [0.01919109 0.00359063 0.0080606  ... 0.00012696 0.00012698 0.00012698]
 [0.00192386 0.00145997 0.00027314 ... 0.00026075 0.00026086 0.00026086]
 [0.00999492 0.00098894 0.00845608 ... 0.00096699 0.00096682 0.00096682]]


In [16]:
print('\ntopic term')
for i in range(num_topics):
    print(ldamodel.show_topic(i, topn=10))


topic term
[('แพง', 0.035641048), ('ไม่', 0.03423366), ('อร่อย', 0.02685907), ('ราคา', 0.020701498), ('ชา', 0.018646512), ('ไป', 0.017850814), ('กาแฟ', 0.014669822), ('รส', 0.014415243), ('ค่ะ', 0.013470997), ('ก็', 0.011225417)]
[('ไม่', 0.029390663), ('กาแฟ', 0.019191092), ('ได้', 0.017711667), ('มาก', 0.013526935), ('ที่', 0.0134167075), ('น้ำ', 0.013056319), ('รสชาติ', 0.012023604), ('แต่', 0.010961145), ('ร้าน', 0.010952984), ('เลย', 0.010467462)]
[('กก', 0.02942067), ('มาก', 0.027629605), ('ไม่', 0.02496772), ('กิน', 0.021563025), ('เลย', 0.014608618), ('เน็ต', 0.013066586), ('เคย', 0.012936104), ('ก็', 0.012514045), ('จะ', 0.012150672), ('มี', 0.008715434)]
[('ไป', 0.019158717), ('ใช้', 0.018523354), ('จะ', 0.017092137), ('ทรู', 0.01687093), ('เต็ม', 0.016111143), ('โปร', 0.0136091905), ('ไม่', 0.012486797), ('มา', 0.012355172), ('ที่', 0.011422044), ('แต่', 0.011057258)]


In [17]:
outputs = [[] for i in range(num_topics)]
for i, doc in enumerate(bow_corpus):
    max = 0
    topic = 0
    for topic_id, prob in ldamodel.get_document_topics(doc):
        if max < prob:
            max = prob
            topic = topic_id
    outputs[topic].append(corpus[i])

In [21]:
for i, comment in enumerate(outputs[3]):
    print(i, comment)

0 ไม่ควรส่งโปรมาให้เราถ้าสิทธิ์มันเต็มแล้วจากใจลูกค้าทรูมูฟ

1 ราคาสตาบัครสชาติออลคาเฟ่

2 ใช้ทีไรเต็มตลอดพนักงานแนะนำให้กดไว้ตอนเที่ยงคืน

3 ทรูที่บ้านใช้ได้แต่กลางคืนกลางวันใช้ไม่ได้แต่จ่ายพันกว่าบาททุกเดือนควรปรับปรุงฝากทรูคอฟฟี่ไปบอกด้วย

4 ชอคโกแลตปั่นรสชาติเหมือนเอาแต่ละแก้วที่ไม่หมดมาผสมรวมกันให้ชาเขียวน้ำแข็งไม่มีเลยเละเป็นโจ๊กไม่เย็นแพงเกินคุณภาพจริงๆ

5 เหมือนจะพรีเมียมแต่เมื่อลองแร้วเอิ่มมมบางตัวโอเครนะค่อยๆปรับไปทีละจุด

6 โปรแต้มมรึงหมดเร็วไปนะเหมือนมือถือวันหมดอิดอก

7 ขนาดตอนเป็นลูกค้าทรูมูฟยังไม่กินตอนนี้ย้ายค่ายแล้วอย่าหวังจะได้แดก

8 ราคาแพงใช้สิทธิลดแล้วยังแพงไม่อร่อยอีกต่างหากหลังๆมานี่สิทธิเต็มมตลอด

9 ซื้อลิขสิทธิ์มาด้วยนะจ่ายรายเดือนไปแต่ไม่มีให้ดู

10 เอาพอย์ซทรูแลกกาแฟงงว่าพอย์ซก็พอย์ซกูแต่เสือกบอกว่าสิทธิ์เต็มโควต้าแล้วนะค่ะมึงให้สิทธิ์พอย์ซแลกเดือนละแก้วหรอไอ้ทรู

11 ราคาที่ตั้งนี่เพื่ิอขายนิลอาร์มสตรองที่ดวงจันทร์หรือนักบินอวกาศที่กระสวยนาซ่าเหรอ

12 บาริสต้ายังไม่ได้มาตรฐานดีอย่างเดียวคือใช้สิทธิ์พวกทรูยูหรือพวกพอยท์มาเป็นส่วนลดพวกเมนูที่อร่อยๆชอบมาแป๊บๆแล้

In [13]:
print(len(bow_corpus), len(corpus))

109 109
