## 幾種思路

思路1：TF-IDF + 機器學習分類器
直接使用TF-IDF對文本提取特徵，並使用分類器進行分類。在分類器的選擇上，可以使用SVM、LR、或者XGBoost。

思路2：FastText
FastText是入門款的詞向量，利用Facebook提供的FastText工具，可以快速構建出分類器。

思路3：WordVec + 深度學習分類器
WordVec是進階款的詞向量，並通過構建深度學習分類完成分類。深度學習分類的網絡結構可以選擇TextCNN、TextRNN或者BiLSTM。

思路4：Bert詞向量
Bert是高配款的詞向量，具有強大的建模學習能力。

## 獲取五種模型的資料集

In [118]:
import matplotlib.pyplot as plt
import os
import pandas as pd
import numpy as np
import re
path = '../data/review_data(seg+pos+stopwords)_n+v+f+p.csv'
df = pd.read_csv(path)
print(df.shape)
df.head()

(1530, 9)


Unnamed: 0,reviews,value,comfort,location,cleanliness,service,ws_pos_reviews,filtered,filtered_noun
0,價格合理舒適的房間老闆娘人很好還會自己做早餐給旅客重點是早餐吃到飽,1.0,1.0,0.0,0.0,1.0,"價格(Na),合理(VH),舒適(VH),的(DE),房間(Nc),老闆娘(Na),人(Na...","價格(Na),合理(VH),舒適(VH),房間(Nc),老闆娘(Na),人(Na),好(VH...","價格(Na),合理(VH),舒適(VH),房間(Nc),老闆娘(Na),人(Na),好(VH..."
1,內部房間滿乾淨的還有大場地可以讓團體來使用我覺得很棒,0.0,1.0,0.0,1.0,0.0,"內部(Ncd),房間(Nc),滿(Dfa),乾淨(VH),的(DE),還(D),有(V_2)...","內部(Ncd),房間(Nc),乾淨(VH),場地(Na),團體(Na),使用(VC),覺得(...","內部(Ncd),房間(Nc),乾淨(VH),場地(Na),團體(Na),使用(VC),覺得(..."
2,隔音還可以房間不小但美中不足沒有乾濕分離,0.0,1.0,0.0,0.0,0.0,"隔音(A),還可以(D),房間(Nc),不(D),小(VH),但(Cbb),美中不足(VH)...","隔音(A),還可以(D),房間(Nc),小(VH),美中不足(VH),乾(VH),濕(VH)...","房間(Nc),小(VH),美中不足(VH),乾(VH),濕(VH),分離(VHC)"
3,房子設計的很棒房間採光很好大廳挑高氣派房價合理台東必住民宿,1.0,1.0,0.0,0.0,0.0,"房子(Na),設計(VC),的(DE),很(Dfa),棒(VH),房間(Nc),採光(Na)...","房子(Na),設計(VC),棒(VH),房間(Nc),採光(Na),好(VH),大廳(Nc)...","房子(Na),設計(VC),棒(VH),房間(Nc),採光(Na),好(VH),大廳(Nc)..."
4,Cp值高乾淨舒適空間大樓下有免費吐司和咖啡老闆回復速度快,1.0,1.0,0.0,0.0,1.0,"Cp值(FW),高(VH),乾淨(VH),舒適(VH),空間(Na),大樓(Na),下(Nc...","Cp值(FW),高(VH),乾淨(VH),舒適(VH),空間(Na),大樓(Na),下(Nc...","Cp值(FW),高(VH),乾淨(VH),舒適(VH),空間(Na),大樓(Na),下(Nc..."


### 檢查重複值、空值

In [119]:
#印出重複資料
df[df.duplicated()]

Unnamed: 0,reviews,value,comfort,location,cleanliness,service,ws_pos_reviews,filtered,filtered_noun
1495,有可愛動物區飼養孔雀兔子雞鴨鵝鴕鳥沒看到可以餵食牧草,0.0,1.0,0.0,0.0,0.0,"有(V_2),可愛(VH),動物區(Nc),飼養(VC),孔雀(Na),兔子(Na),雞(N...","可愛(VH),動物區(Nc),飼養(VC),孔雀(Na),兔子(Na),雞(Na),鴨(Na...","可愛(VH),動物區(Nc),飼養(VC),孔雀(Na),兔子(Na),雞(Na),鴨(Na..."


In [120]:
#移除重複值
df = df.drop_duplicates()
print(df.shape)

(1529, 9)


In [121]:
#印出空值資料
df[df.isnull().T.any()]

Unnamed: 0,reviews,value,comfort,location,cleanliness,service,ws_pos_reviews,filtered,filtered_noun


### 切分為五個資料集

In [122]:
df_value = df[['value','filtered_noun']]
df_value.rename(columns={'value': 'label'}, inplace=True)
df_comfort = df[['comfort','filtered_noun']]
df_comfort.rename(columns={'comfort': 'label'}, inplace=True)
df_location = df[['location','filtered_noun']]
df_location.rename(columns={'location': 'label'}, inplace=True)
df_cleanliness = df[['cleanliness','filtered_noun']]
df_cleanliness.rename(columns={'cleanliness': 'label'}, inplace=True)
df_service = df[['service','filtered_noun']]
df_service.rename(columns={'service': 'label'}, inplace=True)

### 清理資料

In [123]:
def remove_N_comma(sentence):
    # 把後面(N..)(V..)(F..)拿掉
    sentence = str(sentence)
    pattern = re.compile(r"\([N,V,F,P].*?\)") #移除詞性標示
    sentence = re.sub(pattern, '', sentence)
    pattern = re.compile(r",") #將逗號替換為空格
    sentence = re.sub(pattern, ' ', sentence)
    return sentence
pd.options.mode.chained_assignment = None  # 忽略警告
df_value['filtered_noun'] = df_value.apply(lambda x: remove_N_comma(x['filtered_noun']),axis=1)
df_comfort['filtered_noun'] = df_value.apply(lambda x: remove_N_comma(x['filtered_noun']),axis=1)
df_location['filtered_noun'] = df_value.apply(lambda x: remove_N_comma(x['filtered_noun']),axis=1)
df_cleanliness['filtered_noun'] = df_value.apply(lambda x: remove_N_comma(x['filtered_noun']),axis=1)
df_service['filtered_noun'] = df_value.apply(lambda x: remove_N_comma(x['filtered_noun']),axis=1)

In [124]:
df_location

Unnamed: 0,label,filtered_noun
0,0.0,價格 合理 舒適 房間 老闆娘 人 好 做 早餐 旅客 重點 早餐 吃到飽
1,0.0,內部 房間 乾淨 場地 團體 使用 覺得 棒
2,0.0,房間 小 美中不足 乾 濕 分離
3,0.0,房子 設計 棒 房間 採光 好 大廳 挑高 氣派 房價 合理 台東 住 民宿
4,0.0,Cp值 高 乾淨 舒適 空間 大樓 下 免費 吐司 咖啡 老闆 回復 速度
...,...,...
1525,1.0,餐點 好吃 服務 好 交通 方便 房間 舒適 乾淨 衛浴 設備 齊全 廉價 值得 推薦
1526,0.0,氣氛 不錯 ktv房 裝潢 有點 歷史 客人 素質 不一 設備 少數 破損
1527,0.0,環境 乾淨 早餐 好吃 車庫 台 汽車 車 外面 戶外 停車場 停
1528,1.0,空間 寬敞 部分 房型 提供 KTV 林口 地區 休息 好 地方


In [203]:
df_location.to_csv('../data/review_data(df_location)_n+v+f+p.csv', encoding='utf_8_sig', index=False)

In [125]:
df_location.loc[df_location['filtered_noun'].str.contains('在') & df_location['label']==1]

Unnamed: 0,label,filtered_noun
7,1.0,在 日月潭 地區 棒 飯店 服務 人員 親切 放鬆 趟 旅程
41,1.0,住 想 體驗 在 虎井 住宿 虎井 不錯 景觀 船班 太少 可惜
49,1.0,民宿 位於 朝日 溫泉 附近 吃 店家 建議 在 鬧區 用餐
102,1.0,地點 在 鬧區 購物 用餐 走路 人 房 乾淨 舒服 棒 民宿 推
186,1.0,飯店 在 西門町 方便 逛街 服務 親切 房價 親民 cp值 高
214,1.0,算 在 整 區域 中心點 山莊 主人 家人 親切 房間 設備 簡單 乾淨
246,1.0,夜晚 酒吧 點 杯 調酒 坐 在 天台 賞 夜景 浪漫 下 次 高雄 住 家 飯店
338,1.0,住宿 方面 棒 樓下 便利商店 方便 第六 市場 在 棟 下樓 逛街
345,1.0,環境 舒適 乾淨 高 在 交流道 附近 週邊 好吃 碗粿 下 次 在 回訪
394,1.0,房間 乾淨 舒服 熱情 小 管家 客人 朋友 在 照顧 周邊 美食 台南 住宿 首選


## 模型訓練

In [231]:
#import package
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.feature_extraction.text import TfidfVectorizer 
from imblearn.pipeline import Pipeline, make_pipeline
from sklearn.model_selection import cross_validate
import pickle #儲存模型用
from sklearn.model_selection import train_test_split
from imblearn.over_sampling import SMOTE

#模型
from sklearn.svm import SVC
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier

### 切分資料集

In [250]:
def split_data(df):
    x = df.filtered_noun
    y = df.label
    # x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2) #訓練集：測試集 = 8:2
    return x,y

### 三種模型訓練

In [251]:
def train_SVM(X,y):
    #向量化
    vectorizer = TfidfVectorizer()
    #clf = make_pipeline(vectorizer, SMOTE(random_state=12), SVC(kernel='linear'))
    clf = Pipeline([
      ('vect', CountVectorizer()),
       ('tfidf', TfidfTransformer()),
       ('smote', SMOTE(random_state=12)),
       ('svc', SVC(kernel='linear'))
    ])
    scores = cross_validate(clf, X, y, scoring=['accuracy','recall','precision','f1','roc_auc'], cv=10, return_train_score=False)
    return scores
def train_LR(X,y):
    #向量化
    vectorizer = TfidfVectorizer()
    clf = make_pipeline(vectorizer, LogisticRegression(random_state=0))
    scores = cross_validate(clf, X, y, scoring=['accuracy','recall','precision','f1','roc_auc'], cv=10, return_train_score=False)
    return scores
def train_RF(X,y):
    #向量化
    vectorizer = TfidfVectorizer()
    clf = make_pipeline(vectorizer, RandomForestClassifier(n_estimators=200, max_depth=3, random_state=0))
    scores = cross_validate(clf, X, y, scoring=['accuracy','recall','precision','f1','roc_auc'], cv=10, return_train_score=False)
    return scores

IndentationError: unexpected indent (Temp/ipykernel_21764/2650116020.py, line 11)

### 顯示訓練結果

In [252]:
def show_output(scores_SVM,scores_LR,scores_RF):
    total_score=[]
    SVM_list = [scores_SVM['test_accuracy'].mean(),
                scores_SVM['test_recall'].mean(),
                scores_SVM['test_precision'].mean(),
                scores_SVM['test_f1'].mean(),
                scores_SVM['test_roc_auc'].mean(),]
    LR_list = [scores_LR['test_accuracy'].mean(),
                scores_LR['test_recall'].mean(),
                scores_LR['test_precision'].mean(),
                scores_LR['test_f1'].mean(),
               scores_LR['test_roc_auc'].mean(),]
    RF_list = [scores_RF['test_accuracy'].mean(),
                scores_RF['test_recall'].mean(),
                scores_RF['test_precision'].mean(),
                scores_RF['test_f1'].mean(),
               scores_RF['test_roc_auc'].mean()]
    total_score.append(SVM_list)
    total_score.append(LR_list)
    total_score.append(RF_list)
    df_scores = pd.DataFrame(total_score, columns=["accuracy", "recall", "precision", "f1_score",'AUC'],index=['SVM','LR','RF'])
    return df_scores

## 模型一、value

In [253]:
df_value.head()

Unnamed: 0,label,filtered_noun
0,1.0,價格 合理 舒適 房間 老闆娘 人 好 做 早餐 旅客 重點 早餐 吃到飽
1,0.0,內部 房間 乾淨 場地 團體 使用 覺得 棒
2,0.0,房間 小 美中不足 乾 濕 分離
3,1.0,房子 設計 棒 房間 採光 好 大廳 挑高 氣派 房價 合理 台東 住 民宿
4,1.0,Cp值 高 乾淨 舒適 空間 大樓 下 免費 吐司 咖啡 老闆 回復 速度


In [254]:
x, y = split_data(df_value)
scores_SVM = train_SVM(x,y)
scores_LR = train_LR(x,y)
scores_RF = train_RF(x,y)

  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))


In [255]:
show_output(scores_SVM,scores_LR,scores_RF)

Unnamed: 0,accuracy,recall,precision,f1_score,AUC
SVM,0.913016,0.6849,0.793346,0.730515,0.901488
LR,0.865278,0.230199,0.9875,0.367202,0.900028
RF,0.826032,0.0,0.0,0.0,0.882531


## 模型二、comfort

In [256]:
df_comfort.head()

Unnamed: 0,label,filtered_noun
0,1.0,價格 合理 舒適 房間 老闆娘 人 好 做 早餐 旅客 重點 早餐 吃到飽
1,1.0,內部 房間 乾淨 場地 團體 使用 覺得 棒
2,1.0,房間 小 美中不足 乾 濕 分離
3,1.0,房子 設計 棒 房間 採光 好 大廳 挑高 氣派 房價 合理 台東 住 民宿
4,1.0,Cp值 高 乾淨 舒適 空間 大樓 下 免費 吐司 咖啡 老闆 回復 速度


In [257]:
x, y = split_data(df_comfort)
scores_SVM = train_SVM(x,y)
scores_LR = train_LR(x,y)
scores_RF = train_RF(x,y)

In [258]:
show_output(scores_SVM,scores_LR,scores_RF)

Unnamed: 0,accuracy,recall,precision,f1_score,AUC
SVM,0.756712,0.788992,0.827961,0.806062,0.82285
LR,0.759967,0.933096,0.754113,0.83356,0.844332
RF,0.644212,1.0,0.644212,0.783608,0.790721


## 模型三、location

In [259]:
df_location.head()

Unnamed: 0,label,filtered_noun
0,0.0,價格 合理 舒適 房間 老闆娘 人 好 做 早餐 旅客 重點 早餐 吃到飽
1,0.0,內部 房間 乾淨 場地 團體 使用 覺得 棒
2,0.0,房間 小 美中不足 乾 濕 分離
3,0.0,房子 設計 棒 房間 採光 好 大廳 挑高 氣派 房價 合理 台東 住 民宿
4,0.0,Cp值 高 乾淨 舒適 空間 大樓 下 免費 吐司 咖啡 老闆 回復 速度


In [260]:
x, y = split_data(df_location)
scores_SVM = train_SVM(x,y)
scores_LR = train_LR(x,y)
scores_RF = train_RF(x,y)

  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))


In [261]:
show_output(scores_SVM,scores_LR,scores_RF)

Unnamed: 0,accuracy,recall,precision,f1_score,AUC
SVM,0.88031,0.743478,0.841406,0.788131,0.915087
LR,0.829936,0.467391,0.938749,0.619414,0.918244
RF,0.699149,0.0,0.0,0.0,0.916356


## 模型四、cleanliness

In [262]:
df_cleanliness.head()

Unnamed: 0,label,filtered_noun
0,0.0,價格 合理 舒適 房間 老闆娘 人 好 做 早餐 旅客 重點 早餐 吃到飽
1,1.0,內部 房間 乾淨 場地 團體 使用 覺得 棒
2,0.0,房間 小 美中不足 乾 濕 分離
3,0.0,房子 設計 棒 房間 採光 好 大廳 挑高 氣派 房價 合理 台東 住 民宿
4,0.0,Cp值 高 乾淨 舒適 空間 大樓 下 免費 吐司 咖啡 老闆 回復 速度


In [263]:
x, y = split_data(df_cleanliness)
scores_SVM = train_SVM(x,y)
scores_LR = train_LR(x,y)
scores_RF = train_RF(x,y)

  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))


In [264]:
show_output(scores_SVM,scores_LR,scores_RF)

Unnamed: 0,accuracy,recall,precision,f1_score,AUC
SVM,0.961429,0.880732,0.969732,0.922366,0.974624
LR,0.915656,0.699756,0.972921,0.811439,0.969296
RF,0.736429,0.0,0.0,0.0,0.951876


## 模型五、service

In [265]:
df_service.head()

Unnamed: 0,label,filtered_noun
0,1.0,價格 合理 舒適 房間 老闆娘 人 好 做 早餐 旅客 重點 早餐 吃到飽
1,0.0,內部 房間 乾淨 場地 團體 使用 覺得 棒
2,0.0,房間 小 美中不足 乾 濕 分離
3,0.0,房子 設計 棒 房間 採光 好 大廳 挑高 氣派 房價 合理 台東 住 民宿
4,1.0,Cp值 高 乾淨 舒適 空間 大樓 下 免費 吐司 咖啡 老闆 回復 速度


In [266]:
x, y = split_data(df_service)
scores_SVM = train_SVM(x,y)
scores_LR = train_LR(x,y)
scores_RF = train_RF(x,y)

In [267]:
show_output(scores_SVM,scores_LR,scores_RF)

Unnamed: 0,accuracy,recall,precision,f1_score,AUC
SVM,0.892075,0.897826,0.92301,0.909202,0.947922
LR,0.893382,0.927174,0.901181,0.913116,0.952488
RF,0.601703,1.0,0.601703,0.751328,0.927884
