In [20]:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.cluster import KMeans
from sklearn.ensemble import IsolationForest
from sklearn.preprocessing import LabelEncoder
import jieba
import json
import os

In [25]:
directory = "甜點"
file_names = os.listdir(directory)

In [44]:
file_index = 12
file_name = file_names[file_index]
file_name

'榕樹下台灣古早冰.json'

In [101]:
data = {}
with open(os.path.join(directory, file_name), "r") as f:
    data = json.load(f)

In [102]:
df = pd.DataFrame(data['comments'])
df = df.fillna("")

# 對評論進行分詞，先進行類型檢查和處理
df['comment'] = df['comment'].astype(str).apply(lambda x: ' '.join(jieba.cut(x)))

In [111]:
# 使用 TF-IDF 進行特徵提取
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(df['comment'])

In [108]:
# 使用 K-means 進行聚類
kmeans = KMeans(n_clusters=10, random_state=42)
df['cluster'] = kmeans.fit_predict(X)

In [109]:
# 使用Isolation Forest進行異常檢測
isolation_forest = IsolationForest(contamination=0.1, random_state=42)
df['anomaly'] = isolation_forest.fit_predict(X)# 使用Isolation Forest進行異常檢測

In [110]:
df

Unnamed: 0,author,comment,other,star,cluster,anomaly
0,N,古色古香 的 用餐 環境 \n 冰品 配料 選擇 多 CP 值 很 高,{'服務': '內用…'},5,8,1
1,稍微愛吃,在 地人 推薦 一定 要來 吃 一下 雖然 地圖 上 顯示 暫停 營業 問過 店家 ...,,5,1,-1
2,張庭瑄,剛點 好料 ~ 說 不要 糖水 結果 交給 另 一位 店員 她 沒 聽 到 又 誤加...,,5,6,-1
3,Jerry Kuan,好吃 又 便宜 的 古 早味 ！,,5,2,1
4,Lady阿朱馬,十幾種 口味 供選擇 ， CP 值高 。,,4,4,1
5,靜怡黃,料多 便宜 又 好 古 早味 👍 好 好吃 …,,5,2,1
6,Song Yuan gift SY,食材 是 老 闆 娘 自己 存 手工 製 作 ！ \n 非常 新鮮 好吃 😋 …,,5,1,1
7,劉昭秀,"在 河 溝邊 的 剉 冰 ， 衛生 ok , 1 碗 40 元 ， 不用 排 常常 的 ...",,4,1,-1
8,晴晴,乾淨衛生 又 好吃 🥳 \n 老 闆 娘 人 超好 的 唷 😍 …,,5,1,1
9,孫美秀,風景 好 很 有 古 早味 的 氣息 ， 又 像 個庭園 ， 有 花草 。,,5,5,1
