In [224]:
import json
import pandas as pd
import numpy as np
from io import StringIO
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.model_selection import train_test_split
from sklearn import neighbors

In [225]:
def preprocess(fileName):
    with open(fileName, newline='',  encoding='utf-8') as jsonfile:
        data = json.load(jsonfile)
        #data = [val for key,val in data.items()]
        data = json.dumps(data, ensure_ascii=False)
        df = pd.read_json(StringIO(data), orient='index')
        df['Movie Category'] = df['Movie Category'].apply(lambda x: x[0] if len(x)>0 else np.nan)
        
        # remove None or nan movie category
        df = df[~pd.isnull(df['Movie Category'])]
        df = df[~(df['Movie Category']=='None')]
        return df

In [226]:
fileName= "movie_info.json"
oneCateDf = preprocess(fileName)
vectorizer = TfidfVectorizer(analyzer='word', ngram_range=(1,4),
                     min_df = 0, stop_words = None, sublinear_tf=True)
X_train, X_test, y_train, y_test = train_test_split(
 oneCateDf['Story Intro'], oneCateDf['Movie Category'], test_size=0.1, random_state=42)
response = vectorizer.fit_transform(X_train)

In [227]:
clf = neighbors.KNeighborsClassifier(n_neighbors=3)
clf.fit(response,y_train)

KNeighborsClassifier(n_neighbors=3)

In [228]:
response_test = vectorizer.transform(X_test)
clf.predict(response_test)

array(['愛情', '喜劇', '劇情', '劇情', '劇情', '動作', '劇情', '劇情', '劇情', '劇情', '劇情',
       '劇情', '劇情', '劇情', '劇情', '劇情', '劇情', '劇情', '劇情', '劇情', '劇情', '冒險',
       '劇情', '劇情', '劇情', '劇情', '劇情', '劇情', '動作', '劇情', '劇情', '劇情', '劇情',
       '劇情', '劇情', '劇情', '劇情', '劇情', '劇情', '劇情', '劇情', '劇情', '劇情', '劇情',
       '劇情', '劇情', '劇情', '劇情', '劇情', '動作', '劇情', '動作', '劇情', '劇情', '劇情',
       '喜劇', '劇情', '劇情', '劇情', '劇情', '劇情', '劇情', '劇情', '劇情', '動作', '劇情',
       '劇情', '劇情', '劇情', '冒險', '動作', '劇情', '動作', '劇情', '劇情', '劇情', '動作',
       '動作', '劇情', '劇情', '劇情', '劇情', '劇情', '劇情', '劇情', '劇情', '劇情', '劇情',
       '劇情', '劇情', '劇情', '動作', '劇情', '劇情', '劇情', '動作', '劇情', '劇情', '劇情',
       '劇情', '劇情', '劇情', '劇情', '劇情', '劇情', '動作', '劇情', '劇情', '劇情', '動作',
       '劇情', '劇情', '劇情', '劇情', '劇情', '劇情', '劇情', '劇情', '劇情', '冒險', '劇情',
       '劇情', '劇情', '冒險', '冒險', '劇情', '劇情', '劇情', '劇情', '劇情', '動畫', '劇情',
       '劇情', '愛情', '劇情', '劇情', '劇情', '劇情', '冒險', '劇情', '劇情', '劇情', '劇情',
       '喜劇', '劇情', '劇情', '劇情', '冒險', '劇情', '劇情', '劇

In [212]:
X_test.iloc[0]

'★《一個巨星的誕生》奧斯卡最佳男配角提名山姆艾略特領銜演出★老兵不死，亦未凋零。二戰退休刺客，再現傳奇性的冒險旅程★2019土星獎最佳獨立電影★2018內華達電影節最佳評審團獎★2020夏威夷影評人協會凱文巴爾（山姆艾略特飾）是一名刺殺希特勒並成功改變歷史的傳奇刺客。這個超強老兵在退休後再度接到了一個祕密任務－追蹤和消滅一隻患有可怕傳染病的大腳怪。而在執行這個不可能的任務的時候，巴爾在過去二戰時的片段回憶不斷湧現，糾纏於他的心頭。'

In [213]:
np.array(y_test)

array(['動作', '愛情', '喜劇', '喜劇', '動畫', '動作', '劇情', '劇情', '愛情', '劇情', '喜劇',
       '劇情', '動作', '劇情', '喜劇', '歷史/傳記', '動畫', '劇情', '犯罪', '喜劇', '劇情',
       '動作', '劇情', '劇情', '劇情', '喜劇', '喜劇', '劇情', '動作', '劇情', '動畫', '劇情',
       '劇情', '愛情', '劇情', '劇情', '喜劇', '動作', '動作', '劇情', '劇情', '愛情', '動畫',
       '音樂/歌舞', '動作', '音樂/歌舞', '動作', '劇情', '劇情', '動作', '喜劇', '動作', '劇情',
       '劇情', '恐怖', '喜劇', '動作', '動作', '動作', '劇情', '懸疑/驚悚', '劇情', '恐怖',
       '劇情', '劇情', '影展', '冒險', '劇情', '音樂/歌舞', '冒險', '動作', '劇情', '動作',
       '劇情', '動畫', '愛情', '動作', '喜劇', '劇情', '動作', '劇情', '劇情', '劇情',
       '溫馨/家庭', '劇情', '劇情', '劇情', '動畫', '奇幻', '勵志', '劇情', '動作', '動作',
       '劇情', '劇情', '動作', '愛情', '紀錄片', '劇情', '喜劇', '劇情', '喜劇', '劇情',
       '懸疑/驚悚', '劇情', '動作', '劇情', '喜劇', '動作', '動作', '動作', '劇情', '愛情',
       '喜劇', '劇情', '劇情', '劇情', '劇情', '劇情', '動作', '冒險', '奇幻', '冒險', '動作',
       '劇情', '劇情', '動作', '愛情', '動作', '動作', '動作', '劇情', '動作', '劇情',
       '懸疑/驚悚', '動作', '劇情', '喜劇', '動畫', '劇情', '劇情', '劇情', '動畫', '喜劇',
       '動作', 

In [201]:
oneCateDf

Unnamed: 0,Chinese Name,English Name,Movie Category,Release Date,Story Intro
0,玩命關頭9,Fast&Furious9,動作,2021-08-11,馮迪索飾演的唐老大和莉蒂與他的兒子小布萊恩，正在過著與世隔絕的平靜生活，但是他們都知道這種平...
1,脫稿玩家,Originaltitle:FreeGuy,動作,2021-08-12,《脫稿玩家》故事描述一個銀行小職員-蓋伊(萊恩雷諾斯)日復一日年復一年做著無聊的工作，過著樸...
2,被偷走的童年,WhenHitlerStolePinkRabbit,歷史/傳記,2021-08-13,★《何處是我家》奧斯卡金獎導演卡洛琳林克最新作品★改編自童書巨匠朱迪絲克爾暢銷自傳體小說★透...
3,感動她77次,77Heartwarmings,愛情,2021-08-13,★香港天后蔡卓妍，帥氣男星周柏豪、再加上泰國偶像男神馬力歐共同演出糾心三角戀，想挽回10年感...
4,汪汪隊立大功電影版,PAWPatrol:TheMovie,動畫,2021-08-13,《汪汪隊立大功電影版》汪汪隊出發救援！當汪汪隊的死對頭韓丁納當上鄰近的冒險市市長，並且開始大...
...,...,...,...,...,...
5028,巴黎A片現場,L'amourestunefête,劇情,2019-05-17,法蘭克與塞吉是一對艷福匪淺的警探。為了打擊情色業的洗錢歪風，接受上級指派臥底，在巴黎皮加勒區...
5029,逆轉風帆,TurningTide,劇情,2014-08-29,★佛朗索瓦克魯塞繼《逆轉人生》後最新力作★法國票房飆破億元台幣，口碑撼動千萬人★耗時兩年馬拉...
5030,偷情大丈夫,ThePlayers,劇情,2012-07-06,★《大藝術家》奧斯卡金獎導演、男主角最新瘋狂爆笑喜劇★十個男人九個壞一個想搞怪★法國三大首席...
5031,巴黎夜未眠,EnsembleC'estTout,劇情,2008-01-04,★打破歐洲的暢銷書銷售紀錄，法國銷量逼近200萬冊，全歐總銷量破400萬冊！★連續130週登...
