In [1]:
import tensorflow as tf
from tensorflow.keras import layers
import numpy as np
from tensorflow.keras.preprocessing.text import one_hot
from tensorflow.keras.preprocessing.sequence import pad_sequences
from sklearn.model_selection import train_test_split
import pandas as pd
import jieba

## read random select review csv

In [2]:
df = pd.read_csv("csv/random_review_text_restaurant.csv",header=None)
df.loc[:,1]

0                     空調位置不好,較悶熱。假日人多時，上菜速度緩慢,一頓飯超過2小時。  
1       中午約莫一點在店內待了至少十分鐘以上，櫃台完全沒人，也稍微喊了一下也無人回應，請問店是有在開...
2       等了半小時說單子不見，還完全不記得我們點什麼，完全沒開始做餐，要我們重劃單，但錢都收了，竟然...
3       今天聽到一位附近工地客人跟店家要隔熱套，店家說沒有喔！ 隨客人離開後，店家居然說，手繭這麼厚...
4       22/05/13:   不好意思，這裡的徒手包含沒有戴手套喔，若是有戴手套我也不會特地來留言...
                              ...                        
1495    菜色很多，又便宜，還有免費的甜湯跟湯品，在這個精華地段，有這樣CP值高的自助餐，真是附近居民...
1496    目前好像只有這裡的豆漿，喝得出是自己用鐵鍋煮的那種自然焦味。      很多早餐店的豆漿是用...
1497                 好吃！   肉好大塊   麵好Q彈   吃得很飽   這CP值頗高的  
1498    第一次吃到這種口感的蛋餅，很好吃也不用等很久   外皮薄脆香，有點像在吃蘇打餅乾的感覺   ...
1499                           超讚   老闆再次新發明   千層蛋佐暖心醬油糕  
Name: 1, Length: 1500, dtype: object

## tokenize with jieba

In [3]:
def get_custom_stopwords(stop_words_file):
    with open(stop_words_file,encoding="utf-8") as f:
        stopwords = f.read()
    stopwords_list = stopwords.split('\n')
    custom_stopwords_list = [i for i in stopwords_list]
    return custom_stopwords_list

In [4]:
stop_words_file = "stopwords.txt"
stopwords = get_custom_stopwords(stop_words_file)

In [5]:
poun=('，','。','！','：','「','」','…','、','？','【','】','.',':','?',';','!','~','`','+','-','<','>','/','[',']','{','}',"'",'"', '\n'," ","")
list_ = []
jieba.set_dictionary('dict.txt.big')
for originReview in df.loc[:,1]:
    # 刪除標點符號
    filteredText = "".join(c for c in originReview if c not in (poun))
    # 讀入停用詞
    stopWords = {}.fromkeys([ line.rstrip() for line in stopwords])
    #  以精確模式分詞
    words = jieba.cut(filteredText, cut_all=False)
    # 去除停用詞後, 以空白斷詞
    final = ''
    for seg in words:
        if seg not in stopWords:
            seg+=' '
            final += seg
    list_.append(final)
df['cutted_comment'] = list_

Building prefix dict from C:\Users\mason89823\BDSE28_FinalTopic\個人GIT\dict.txt.big ...
Loading model from cache C:\Users\MASON8~1\AppData\Local\Temp\jieba.ub2ca4d1fa2c360f5b7b131e89caf64f2.cache
Loading model cost 0.866 seconds.
Prefix dict has been built successfully.


In [6]:
df.loc[:,"cutted_comment"]

0                  空調 位置 不好 悶熱 假日 人多時 上菜 速度 緩慢 一頓飯 超過 小時 
1       中午 約莫 一點 店 內待 至少 十分鐘 以上 櫃台 完全 沒人 稍微 喊 一下 無人 回應...
2       半小 時說 單子 不見 完全 記得 點 完全 做餐 重劃 錢 收 完全 明細 紀錄 外 送 ...
3       今天 聽到 一位 附近 工地 客人 店家 隔熱 套 店家 說 喔 客人 離開 後 店家 說手...
4       220513 不好意思 徒手 包含 戴 手套 喔 戴 手套 特地來 留言 謝謝 想給 建議 ...
                              ...                        
1495          菜色 便宜 免費 甜湯 湯品 精華 地段 CP 值高 自助餐 真是 附近 居民 福氣 
1496    目前 好像 豆漿 喝 得出 鐵鍋 煮 那種 自然 焦味 早餐 店 豆漿 封裝 好 豆漿 袋 ...
1497                       好吃 肉 好 大塊 麵 好 Q 彈吃得 很飽 CP 值 高 
1498    第一次 吃 這種 口感 蛋餅 好吃 不用 久 外皮 薄脆 香 有點像 吃 蘇打餅乾 感覺 口...
1499                          超 讚 老闆 再次 新發明 千層 蛋佐暖心 醬油 糕 
Name: cutted_comment, Length: 1500, dtype: object

In [7]:
# 1 = [0,0,0]
# 2 = [0,0,1]
# 3 = [0,1,0]
# 4 = [1,0,0]
# 5 = [0,1,1]
df.loc[:,"new_rating"] = df.loc[:,0].apply(lambda x : [0,0,0] if x == 1 else ([0,0,1] if x == 2 else ([0,1,0] if x ==3 else ([1,0,0] if x == 4 else [0,1,1]))))

In [8]:
df.head()

Unnamed: 0,0,1,cutted_comment,new_rating
0,1,"空調位置不好,較悶熱。假日人多時，上菜速度緩慢,一頓飯超過2小時。",空調 位置 不好 悶熱 假日 人多時 上菜 速度 緩慢 一頓飯 超過 小時,"[0, 0, 0]"
1,1,中午約莫一點在店內待了至少十分鐘以上，櫃台完全沒人，也稍微喊了一下也無人回應，請問店是有在開...,中午 約莫 一點 店 內待 至少 十分鐘 以上 櫃台 完全 沒人 稍微 喊 一下 無人 回應...,"[0, 0, 0]"
2,1,等了半小時說單子不見，還完全不記得我們點什麼，完全沒開始做餐，要我們重劃單，但錢都收了，竟然...,半小 時說 單子 不見 完全 記得 點 完全 做餐 重劃 錢 收 完全 明細 紀錄 外 送 ...,"[0, 0, 0]"
3,1,今天聽到一位附近工地客人跟店家要隔熱套，店家說沒有喔！ 隨客人離開後，店家居然說，手繭這麼厚...,今天 聽到 一位 附近 工地 客人 店家 隔熱 套 店家 說 喔 客人 離開 後 店家 說手...,"[0, 0, 0]"
4,1,22/05/13: 不好意思，這裡的徒手包含沒有戴手套喔，若是有戴手套我也不會特地來留言...,220513 不好意思 徒手 包含 戴 手套 喔 戴 手套 特地來 留言 謝謝 想給 建議 ...,"[0, 0, 0]"


In [25]:
# define documents
X = df.loc[:,"cutted_comment"]

# define class labels
y = np.array(df.loc[:,"new_rating"].to_list())

vocab_size = 1500
maxlen = 300
encoded_docs = [one_hot(d, vocab_size) for d in X]
padded_docs = pad_sequences(encoded_docs, maxlen=maxlen, padding='post')

model = tf.keras.Sequential()
model.add(layers.Embedding(vocab_size, 8, input_length=maxlen))
model.add(layers.Flatten())

# 加上一般的完全連接層(Dense)
model.add(layers.Dense(3, activation='sigmoid'))
model.add(layers.Dense(3, activation='sigmoid'))
model.add(layers.Dense(3, activation='sigmoid'))

# compile the model
model.compile(optimizer='adam', loss='mean_squared_error', metrics=['accuracy'])

# summarize the model
print(model.summary())

# fit the model
X_train, X_test, y_train, y_test = train_test_split(padded_docs, y, random_state=1,test_size=0.2)
model.fit(X_train, y_train,epochs=200)

# evaluate the model
loss, accuracy = model.evaluate(X_train, y_train)
print('Accuracy: %f' % (accuracy*100))


Model: "sequential_16"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 embedding_16 (Embedding)    (None, 300, 8)            12000     
                                                                 
 flatten_14 (Flatten)        (None, 2400)              0         
                                                                 
 dense_48 (Dense)            (None, 3)                 7203      
                                                                 
 dense_49 (Dense)            (None, 3)                 12        
                                                                 
 dense_50 (Dense)            (None, 3)                 12        
                                                                 
Total params: 19,227
Trainable params: 19,227
Non-trainable params: 0
_________________________________________________________________
None
Epoch 1/200
Epoch 2/200
Epoch 3/200
Epoch 4/

Epoch 73/200
Epoch 74/200
Epoch 75/200
Epoch 76/200
Epoch 77/200
Epoch 78/200
Epoch 79/200
Epoch 80/200
Epoch 81/200
Epoch 82/200
Epoch 83/200
Epoch 84/200
Epoch 85/200
Epoch 86/200
Epoch 87/200
Epoch 88/200
Epoch 89/200
Epoch 90/200
Epoch 91/200
Epoch 92/200
Epoch 93/200
Epoch 94/200
Epoch 95/200
Epoch 96/200
Epoch 97/200
Epoch 98/200
Epoch 99/200
Epoch 100/200
Epoch 101/200
Epoch 102/200
Epoch 103/200
Epoch 104/200
Epoch 105/200
Epoch 106/200
Epoch 107/200
Epoch 108/200
Epoch 109/200
Epoch 110/200
Epoch 111/200
Epoch 112/200
Epoch 113/200
Epoch 114/200
Epoch 115/200
Epoch 116/200
Epoch 117/200
Epoch 118/200
Epoch 119/200
Epoch 120/200
Epoch 121/200
Epoch 122/200
Epoch 123/200
Epoch 124/200
Epoch 125/200
Epoch 126/200
Epoch 127/200
Epoch 128/200
Epoch 129/200
Epoch 130/200
Epoch 131/200
Epoch 132/200
Epoch 133/200
Epoch 134/200
Epoch 135/200
Epoch 136/200
Epoch 137/200
Epoch 138/200
Epoch 139/200
Epoch 140/200
Epoch 141/200
Epoch 142/200
Epoch 143/200
Epoch 144/200
Epoch 145/200
Epoch

Epoch 154/200
Epoch 155/200
Epoch 156/200
Epoch 157/200
Epoch 158/200
Epoch 159/200
Epoch 160/200
Epoch 161/200
Epoch 162/200
Epoch 163/200
Epoch 164/200
Epoch 165/200
Epoch 166/200
Epoch 167/200
Epoch 168/200
Epoch 169/200
Epoch 170/200
Epoch 171/200
Epoch 172/200
Epoch 173/200
Epoch 174/200
Epoch 175/200
Epoch 176/200
Epoch 177/200
Epoch 178/200
Epoch 179/200
Epoch 180/200
Epoch 181/200
Epoch 182/200
Epoch 183/200
Epoch 184/200
Epoch 185/200
Epoch 186/200
Epoch 187/200
Epoch 188/200
Epoch 189/200
Epoch 190/200
Epoch 191/200
Epoch 192/200
Epoch 193/200
Epoch 194/200
Epoch 195/200
Epoch 196/200
Epoch 197/200
Epoch 198/200
Epoch 199/200
Epoch 200/200
Accuracy: 97.750002


In [30]:
# define documents
X = df.loc[:,"cutted_comment"]

# define class labels
y = np.array(df.loc[:,"new_rating"].to_list())

vocab_size = 1500
maxlen = 300
encoded_docs = [one_hot(d, vocab_size) for d in X]
padded_docs = pad_sequences(encoded_docs, maxlen=maxlen, padding='post')

model = tf.keras.Sequential()
model.add(layers.Embedding(vocab_size, 8, input_length=maxlen))
model.add(layers.SimpleRNN(128))

# 加上一般的完全連接層(Dense)
model.add(layers.Dense(3, activation='sigmoid'))
model.add(layers.Dense(3, activation='sigmoid'))
model.add(layers.Dense(3, activation='sigmoid'))

# compile the model
model.compile(optimizer='adam', loss='mean_squared_error', metrics=['accuracy'])

# summarize the model
print(model.summary())

# fit the model
X_train, X_test, y_train, y_test = train_test_split(padded_docs, y, random_state=1,test_size=0.2)
model.fit(X_train, y_train,epochs=200)

# evaluate the model
loss, accuracy = model.evaluate(X_test, y_test)
print('Accuracy: %f' % (accuracy*100))


Model: "sequential_21"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 embedding_21 (Embedding)    (None, 300, 8)            12000     
                                                                 
 simple_rnn_2 (SimpleRNN)    (None, 128)               17536     
                                                                 
 dense_63 (Dense)            (None, 3)                 387       
                                                                 
 dense_64 (Dense)            (None, 3)                 12        
                                                                 
 dense_65 (Dense)            (None, 3)                 12        
                                                                 
Total params: 29,947
Trainable params: 29,947
Non-trainable params: 0
_________________________________________________________________
None
Epoch 1/200
Epoch 2/200
Epoch 3/200
Epoch 4/

Epoch 72/200
Epoch 73/200
Epoch 74/200
Epoch 75/200
Epoch 76/200
Epoch 77/200
Epoch 78/200
Epoch 79/200
Epoch 80/200
Epoch 81/200
Epoch 82/200
Epoch 83/200
Epoch 84/200
Epoch 85/200
Epoch 86/200
Epoch 87/200
Epoch 88/200
Epoch 89/200
Epoch 90/200
Epoch 91/200
Epoch 92/200
Epoch 93/200
Epoch 94/200
Epoch 95/200
Epoch 96/200
Epoch 97/200
Epoch 98/200
Epoch 99/200
Epoch 100/200
Epoch 101/200
Epoch 102/200
Epoch 103/200
Epoch 104/200
Epoch 105/200
Epoch 106/200
Epoch 107/200
Epoch 108/200
Epoch 109/200
Epoch 110/200
Epoch 111/200
Epoch 112/200
Epoch 113/200
Epoch 114/200
Epoch 115/200
Epoch 116/200
Epoch 117/200
Epoch 118/200
Epoch 119/200
Epoch 120/200
Epoch 121/200
Epoch 122/200
Epoch 123/200
Epoch 124/200
Epoch 125/200
Epoch 126/200
Epoch 127/200
Epoch 128/200
Epoch 129/200
Epoch 130/200
Epoch 131/200
Epoch 132/200
Epoch 133/200
Epoch 134/200
Epoch 135/200
Epoch 136/200
Epoch 137/200
Epoch 138/200
Epoch 139/200
Epoch 140/200
Epoch 141/200
Epoch 142/200
Epoch 143/200
Epoch 144/200
Epoch 

Epoch 152/200
Epoch 153/200
Epoch 154/200
Epoch 155/200
Epoch 156/200
Epoch 157/200
Epoch 158/200
Epoch 159/200
Epoch 160/200
Epoch 161/200
Epoch 162/200
Epoch 163/200
Epoch 164/200
Epoch 165/200
Epoch 166/200
Epoch 167/200
Epoch 168/200
Epoch 169/200
Epoch 170/200
Epoch 171/200
Epoch 172/200
Epoch 173/200
Epoch 174/200
Epoch 175/200
Epoch 176/200
Epoch 177/200
Epoch 178/200
Epoch 179/200
Epoch 180/200
Epoch 181/200
Epoch 182/200
Epoch 183/200
Epoch 184/200
Epoch 185/200
Epoch 186/200
Epoch 187/200
Epoch 188/200
Epoch 189/200
Epoch 190/200
Epoch 191/200
Epoch 192/200
Epoch 193/200
Epoch 194/200
Epoch 195/200
Epoch 196/200
Epoch 197/200
Epoch 198/200
Epoch 199/200
Epoch 200/200
Accuracy: 20.333333
