# 匯入電影資料

In [1]:
import json

# 開啟並讀取 JSON 檔案
with open("movies_data.json", "r", encoding="utf-8") as file:
    movies_data = json.load(file)

# 只輸出前三筆資料
for i, movie in enumerate(movies_data[:3]):
    print(f"資料 {i + 1}:")
    print(movie)
    print()

資料 1:
{'doc_id': 1, 'cname': '一世狂野', 'ename': 'Blow', 'pagerank': 1.3232355756297015e-05, 'label': ['劇情', '犯罪', '歷史/傳記'], 'intro': '喬治戎格一生都在追求所謂的美國夢，也就是享受美好富裕的生活，但是他卻不願像他父親那樣一輩子都只是個出賣勞力的建築工人。於是他搬到陽光明媚的加州，靠著販賣大麻賺錢，起初，他販毒只是為了享受自由自在的生活，但是當他野心越來越大，他的勢力也日益坐大之際，卻在此時被捕入獄。他在牢裡認識一個能言善道，自稱熟識哥倫比亞販毒集團的牢友狄亞哥，他出獄後果真把當時勢力最大的毒梟艾斯科巴介紹給喬治認識，艾斯科巴計畫將古柯鹼大量引進美國的迪斯可舞廳，希望能引領一股吸毒狂歡的風潮。除了毒品供應商之外，狄亞哥也介紹了一個美艷又狂野的女人瑪莎給喬治，他們瘋狂相愛，之後馬莎還替他生下一個可愛的女兒克莉絲汀娜，也是喬治一生的最愛。喬治很快就靠著販毒發大財，他還得買一棟大房子專門存放每天賺進來的大把鈔票，但是日進斗金卻整天提心吊膽的生活卻讓喬治開始省思，到底他要繼續過著揮霍富裕的生活，還是為了自己心愛的女兒應該轉性投資正當的事業？可是這時聯邦調查局的探員，也開始盯上毒源禍首的喬治……', 'released_date': '2001-10-12', 'links': 'https://movies.yahoo.com.tw/movieinfo_main/1'}

資料 2:
{'doc_id': 2, 'cname': '玩命關頭', 'ename': 'The Fast and the Furious', 'pagerank': 1.3232355756297015e-05, 'label': ['動作', '劇情', '犯罪', '懸疑/驚悚'], 'intro': '唐米尼杜洛托是洛城街頭賽車界的老大哥，他身邊有一群忠心耿耿的手下，他白天忙著組裝高性能跑車，晚上則是開著他的愛車，動輒以一次一萬美元的賭注和別人軋車。布萊恩也渴望接受極速的挑戰，他對自己的駕駛技術很有信心，但是在旁觀者的眼中他只是一個菜鳥，他開了一輛超炫的跑車想和唐老大一較高下，也希望得到他的青睞，當比賽結束，布萊恩輸得一塌塗地之後，警方接獲風聲前來取締，布萊恩在無意間從

In [2]:
import nltk
from nltk.corpus import stopwords
nltk.download('stopwords')
stop_words = set(stopwords.words('chinese'))
import jieba
from collections import defaultdict
import re

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\user\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


# 分詞

In [3]:
# 分詞並過濾中文停用詞
for movie in movies_data:
    # 只對 cname, label, intro 欄位進行分詞
    for field in ['cname', 'intro']:
        if field == 'label':
            words = jieba.cut(' '.join(movie[field]), cut_all=False)
        else:
            words = jieba.cut(movie[field], cut_all=False)
        # 過濾中文停用詞
        words = [w for w in words if w not in {stopwords,'、','\t', '\n', ' ', '？', '，', '?', '!', '！', '。', '~', ',', '/', '、', ']', '[', '(', ')', '...', '的',"\n", ", ", " ", "\r\n", "，", "。", "…", "★", "、", "《", "》", "！"}]
        # 將分詞結果合併起來
        movie[field + '_words'] = ' '.join(words)

Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\user\AppData\Local\Temp\jieba.cache
Loading model cost 0.625 seconds.
Prefix dict has been built successfully.


In [10]:
print(movies_data[1])
print(movies_data[2])
print(movies_data[3])

{'doc_id': 2, 'cname': '玩命關頭', 'ename': 'The Fast and the Furious', 'pagerank': 1.3232355756297015e-05, 'label': ['動作', '劇情', '犯罪', '懸疑/驚悚'], 'intro': '唐米尼杜洛托是洛城街頭賽車界的老大哥，他身邊有一群忠心耿耿的手下，他白天忙著組裝高性能跑車，晚上則是開著他的愛車，動輒以一次一萬美元的賭注和別人軋車。布萊恩也渴望接受極速的挑戰，他對自己的駕駛技術很有信心，但是在旁觀者的眼中他只是一個菜鳥，他開了一輛超炫的跑車想和唐老大一較高下，也希望得到他的青睞，當比賽結束，布萊恩輸得一塌塗地之後，警方接獲風聲前來取締，布萊恩在無意間從一名心狠手辣的幫派份子強尼手中救了唐老大一命，於是他就被納入唐老大的權力核心，唐老大的妹妹蜜雅也對布萊恩產生好感，但是他們都不知道布萊恩其實是一名臥底警探。布萊恩滲入賽車圈的目的是調查一連串的卡車搶案，嫌犯都是開著跑車的蒙面人，警方和聯邦調查局希望能儘早逮到搶匪，以免卡車司機採取激烈的手段對這些搶匪進行報復行動，其中最有嫌疑的就是唐老大和強尼。正當唐老大和強尼形成水火不相容的情勢。布萊恩和唐老大兄妹的關係卻越來越深，他不但和唐老大結為好友，更忍不住對蜜雅產生好感，但是他也同時承受來自警方和ＦＢＩ的壓力，必須儘快查出誰才是真正的搶匪，他在天人交戰之際，在法律和友情之間，必須做出困難的決定。', 'released_date': '2001-10-13', 'links': 'https://movies.yahoo.com.tw/movieinfo_main/2', 'cname_words': '玩命 關頭', 'intro_words': '唐米尼 杜洛托 是 洛城 街頭賽 車界 老大哥 他 身邊 有 一群 忠心耿耿 手下 他 白天 忙 著 組裝 高性能 跑車 晚上 則是 開著 他 愛車 動輒 以 一次 一萬 美元 賭注 和 別人 軋車 布萊恩 也 渴望 接受 極速 挑戰 他 對 自己 駕駛技術 很 有 信心 但是 在 旁 觀者 眼中 他 只是 一個 菜 鳥 他開 了 一輛 超炫 跑 車想 和 唐 老大 一較 高下 也 希望 得到 他 青睞 當比賽 結束 布萊恩輸 得 一塌塗 地 之 後 警方 接獲

# 計算TF-IDF 並存起來

In [5]:
import collections
import pandas as pd
import math

# 初始化變量
record_set = set()
idf_count_dict = collections.defaultdict(int)
num_articles = 0

# 計算 IDF 值
for d in movies_data:
    if len(d["label"]) != 0:
        tokens = d["intro_words"]
        # 計算每個單詞的 IDF
        for token in set(tokens):
            record_set.add(token)
            idf_count_dict[token] += 1
        num_articles += 1
    if num_articles == 6000:
        break

x_data, y_data = [], []
# 計算每個單詞的 TF-IDF 值
for d in movies_data:
    if len(d["label"]) != 0:
        # 計算單詞出現次數
        chart = collections.Counter(d["intro_words"])
        temp_dict = {}
        # 計算 TF-IDF
        for w, n in chart.items():
            tf = round(n / sum(chart.values()), 4)
            idf = round(num_articles / idf_count_dict[w], 4)
            temp_dict[w] = round(tf * math.log(idf, 10), 4)

        x_data.append(temp_dict)
        y_data.append({"label": d["label"][0]})

        if len(y_data) % 100 == 0:
            if len(y_data) == 6000:
                break

print("Creating x...")
# 將 x_data 轉換為 DataFrame
x_df = pd.DataFrame(x_data, columns=list(record_set))
x_df = x_df.fillna(0)
print("Creating y...")
# 將 y_data 轉換為 DataFrame
y_df = pd.DataFrame(y_data, columns=["label"])

Creating x...
Creating y...


# 訓練模型KNN SVM RF

In [6]:
x_train, x_test = x_df[: -500], x_df[-500: ]
y_train, y_test = y_df[: -500], y_df[-500: ]

In [7]:
from sklearn.neighbors import KNeighborsClassifier

KNN = KNeighborsClassifier()
print("Training KNN")
KNN.fit(x_train, y_train)
print("Predicting KNN")
result1 = KNN.predict(x_test)

from sklearn import ensemble

RF = ensemble.RandomForestClassifier(n_estimators = 100)
print("Training RF")
RF.fit(x_train, y_train)
print("Predicting RF")
result2 = RF.predict(x_test)

from sklearn import svm
SVM = svm.SVC()
print("Training SVM")
SVM.fit(x_train, y_train)
print("Predicting SVM")
result3 = SVM.predict(x_test)

Training KNN
Predicting KNN


  return self._fit(X, y)
  mode, _ = stats.mode(_y[neigh_ind, k], axis=1)
  RF.fit(x_train, y_train)


Training RF
Predicting RF
Training SVM


  y = column_or_1d(y, warn=True)


Predicting SVM


In [8]:
def evaluate_score(prediction, answer):
    n = 0
    for i in range(len(prediction)):
        if (prediction[i] == answer._get_value(5500 + i, "label")):
            n += 1
    
    return n / len(prediction)

# 結果

In [9]:
print(f"KNN score: {evaluate_score(result1, y_test)}")
print(f"RF score: {evaluate_score(result2, y_test)}")
print(f"SVM score: {evaluate_score(result3, y_test)}")

KNN score: 0.296
RF score: 0.496
SVM score: 0.538


# 有嘗試用9500筆訓練，發現準確率更低
KNN score: 0.29
RF score: 0.47
SVM score: 0.468
因此最後選擇用5500筆做訓練的模型來預測後500筆資料




