In [58]:
pip install scikit-learn

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


In [59]:
import jieba
import json
from sklearn import metrics

In [26]:
with open("movie_all_info.json") as movie:
  movie_info=json.load(movie) 
with open("stopword.txt","r",encoding="utf8") as f:
  stopword=f.read()


In [23]:
class Appearance:
  def __init__(self,docId,frequency):
    self.docId=docId
    self.frequency=frequency
  def __repr__(self):
    return str(self.__dict__)

In [24]:
class Database:
  def __init__(self):
    self.db=dict()
  def __repr__(self):
    return str(self.dict)
  def get(self,id):
    return self.db.get(id,None)
  def add(self,document):
    return self.db.update({document['id']:document})
  def remove(self,document):
    return self.db.pop({document['id']:document})  

In [25]:
class InvertedIndex:
  def __init__(self,db):
    self.index=dict()
    self.db=db
  def __repr__(self):
    return str(self.index)
  def index_doc(self,document):
    terms=[t for t in jieba.cut(document["intro"],cut_all=False) if t not in stopword]
    appearances_dic=dict()
    for term in terms:
      # print(term)
      term_frequency=appearances_dic[term].frequency if term in appearances_dic else 0
      appearances_dic[term]=Appearance(document['id'],term_frequency+1)
      # print(appearances_dic[term])
    #把invert update
    update_dic={key:[appearance] if key not in self.index 
                else self.index[key]+[appearance]
                for (key,appearance) in appearances_dic.items()}
    self.index.update(update_dic)
    self.db.add(document)
    
    return document
  def lookup_query(self,query):
    return{term:self.index[term] for term in query.split(" ") if term in self.index}


In [None]:
db = Database()
index = InvertedIndex(db)
for i in range(len(movie_info)):
  doc=dict(id=movie_info[i]["id"],intro=movie_info[i]["intro"])
  index.index_doc(doc)


In [79]:
search_term = input("Enter term to search: ")
result = index.lookup_query(search_term)
rank={}
true=[]
prediction=[]
for term in result.keys():
    for appearance in result[term]:
        document = db.get(appearance.docId)
        true.append(document["id"])
        if movie_info[document["id"]-1]["pagerank"]>0.00001:
          rank.update({document["id"]:movie_info[document["id"]-1]["pagerank"]})
          prediction.append(document["id"])
print("共符合"+str(len(rank))+" indexing:"+str(len(movie_info)))
answear=sorted(rank.items(), key=lambda x:x[1],reverse=True)
for i in range(len(answear)):
  print(str(answear[i][0])+"("+str(answear[i][1])+"):"+movie_info[answear[i][0]-1]["intro"])

Enter term to search: 葉問
共符合12 indexing:7878
1230(0.00022081520320408666):具有大規模毀滅能力，來自異次元的巨大怪獸，以及人類為了消滅牠們而打造，由人類駕駛的超巨型機器人之間曾經展開一場在全世界各地進行的殊死戰，但那只是一場規模更大的戰爭的序幕，在《環太平洋2：起義時刻》一片中，怪獸軍團將大舉進攻，向全人類展開一場全面性的終極大戰。約翰波耶加（《STARWARS：原力覺醒》、《STARWARS：最後的絕地武士》）飾演叛逆青年傑克潘塔考斯特，他曾經是一名極具潛力的機甲獵人駕駛員，他傳奇性的父親為了讓人類贏得勝利，在一場和怪獸之間進行的激烈戰鬥中不幸壯烈犧牲，傑克也因此放棄他的訓練，被捲入充滿犯罪份子的地下世界。但是當一支數量更多、更殘暴、更具毀滅性的怪獸軍團入侵，開始攻擊全世界的各大城市，並且試圖逼迫全人類向牠們臣服之際，與他關係疏離的姐姐森真子（菊地凜子飾演）正在率領一支新世代的機甲獵人駕駛員準備迎戰，他們全都是在戰爭陰影底下長大的青年，她給了傑克最後一次機會，讓他得以延續他父親的遺志，這些英勇的戰士想要為壯烈犧牲的上一代機甲獵人駕駛員報仇雪恨，而他們獲得勝利唯一的希望則是在這個全人類的起義時刻團結一致，擊敗企圖滅絕人類的怪獸軍團。和傑克一起並肩作戰的同伴包括他的競爭對手，同樣是機甲獵人駕駛員的藍布德（《玩命關頭8》史考特伊斯威特飾演），英勇無畏，被夾在傑克和藍布德中間的茱兒芮斯（《辦公室大狂殺》安卓亞霍娜飾演），以及年僅十五歲的機甲獵人天才駭客艾瑪拉（新進演員卡莉史派妮飾演），這些隸屬泛太平洋防衛軍團的英雄也成為他僅存的家人。他們在這個攸關人類存亡的起義時刻同心協力、誓死奮戰，成為地表最強的防衛部隊，他們即將展開一場驚天動地、氣勢磅礴的冒險旅程。回歸參與演出的演員包括柏恩高曼和查理戴，他們分別飾演葛特里布博士以及牛頓蓋斯勒博士，全世界最頂尖的科學家，他們曾經隸屬當年關閉突破點戰役的團隊，目前都站在對抗怪獸再度入侵的最前線。新加入的演員包括景甜（《長城》、《金剛：骷髏島》），她在片中飾演邵立雯，邵氏工業的執行長，她相信她建立的無人機甲獵人軍團才是對抗怪獸入侵的最佳防衛，以及中國動作巨星張晉（《葉問3》、《一代宗師》），他飾演的全將軍是泛太平洋防衛軍團一絲不苟、恪守不渝的指揮官。《環太平洋2：起義

In [80]:
print('Precision:', metrics.precision_score(true, prediction,average="micro"))
print('Recall:', metrics.recall_score(true, prediction,average="micro"))

Precision: 1.0
Recall: 1.0
