In [1]:
import pandas as pd

#加载训练数据
data = pd.read_csv('data/question.csv')

#出于简单起见,只保留4个类型
select = data['label'].isin([3, 4, 5, 7])
data = data[select]

#重置索引
data = data.reset_index(drop=True)

data

Unnamed: 0,label,question
0,3,nm的剧情是什么
1,3,nm主要讲什么内容
2,3,nm的主要剧情是什么
3,3,nm主要讲什么故事
4,3,nm的故事线索是什么
5,3,nm讲了什么
6,3,nm的剧情简介
7,3,nm的故事内容
8,3,nm的主要情节
9,3,nm的情节梗概


In [2]:
from sklearn.naive_bayes import MultinomialNB
from sklearn.feature_extraction.text import TfidfVectorizer
import jieba


def train():
    #分词
    question = [' '.join(jieba.lcut(i)) for i in data.question]

    #通过TF IDF对文本数据进行向量化处理
    model_feature = TfidfVectorizer()
    features = model_feature.fit_transform(question).toarray()
    print('features=', features.shape)

    #贝叶斯分类器
    model_class = MultinomialNB(alpha=0.01)
    model_class.fit(features, data.label)

    return model_feature, model_class


model_feature, model_class = train()

model_feature, model_class

Building prefix dict from the default dictionary ...
Loading model from cache /tmp/jieba.cache
Loading model cost 0.644 seconds.
Prefix dict has been built successfully.


features= (37, 27)


(TfidfVectorizer(), MultinomialNB(alpha=0.01))

In [3]:
import jieba.posseg

#导入词库
jieba.load_userdict('data/userdict.txt')


#分词+词性标注
def parse_text(text):
    text = {i.word: i.flag for i in jieba.posseg.cut(text)}

    words = list(text.keys())
    flags = list(text.values())

    return words, flags


words, flags = parse_text('李连杰演过什么电影')

words, flags

(['李连杰', '演', '过', '什么', '电影'], ['nr', 'v', 'ug', 'r', 'n'])

In [4]:
#分类一个问题
def predict(words, flags):
    #抽象问题中的名词
    abstract_words = []
    for i in range(len(words)):
        if flags[i] in ['nr', 'nm', 'ng']:
            abstract_words.append(flags[i])
            continue
        abstract_words.append(words[i])

    abstract_words = ' '.join(abstract_words)

    #问题分类
    feature = model_feature.transform([abstract_words]).toarray()

    return model_class.predict(feature)[0]


predict(words, flags)

7

In [5]:
import py2neo

#连接
graph = py2neo.Graph('bolt://192.168.56.122:7687',
                     name='neo4j',
                     auth=('neo4j', '123123'))

#查询
cql = "match (m:Movie) where m.title='英雄' return m.introduction"
graph.run(cql)

m.introduction
战国末期，赵国有三个名震天下的侠客，他们是：“长空”、“残剑”、“飞雪”。因为他们，秦王十年里没睡过一个安稳觉。可是他们却被一个默默无闻，名叫无名的秦国剑客所杀。消息传来，秦王振奋，急召无名上殿相见。在秦王的大殿里，神秘的烛火燃烧着，秦王与无名只有十步的距离，无名将击杀长空、残剑、飞雪的故事娓娓道来：他利用三人之间爱恨交织的关系，瓦解了他们的力量，各个击破，因此取胜。可秦王机智过人，听出了无名故事中的破绽，说出了另一个故事的**：残剑等三人是主动求败，献出生命，用苦肉计帮助无名上殿，无名才是真正最危险的刺客，而无名告诉秦王：他看错了一个人，那就是残剑。于是真正的故事从头叙起……最后，无名拿起了剑，此时他离秦王只有十步，他的绝技是“十步一杀”。


In [6]:
# 3:nm 简介
def get_answer_3(words, flags):
    movie_name = words[flags.index('nm')]
    cql = "match(m:Movie) where m.title='%s' return m.introduction" % movie_name
    return graph.run(cql)


words, flags = parse_text('建国大业是讲什么的')

get_answer_3(words, flags)

m.introduction
在抗战结束之后，各阶级、各党派、广大人民群众反战情绪高涨。于是，在民主爱国人士张澜等人的斡旋下，毛泽东（唐国强 饰）代表的共产党与蒋介石（张国立 饰）代表的国民党拉开了重庆谈判的序幕。为了表示诚意，共产党主动放弃了部分占领的解放区，然而，国民党却丝毫没有建立民主政府的意思，反而驱赶民主党派，逐渐走向了军政府独裁统治的灭亡之路。 期间，以毛泽东为首的共产党人通过建立广泛的爱国统一战线，获得了全中国人民群众的支持，为中国人民政治协商会议的召开奠定了扎实的基础，与此同时，垂死挣扎的国民党仍妄图借助阴谋暗杀等卑劣手段阻挠会议召开，一场为建立新中国的决战由此展开…… 本片汇集了史无前例的172位国内明星，开创了新时期主旋律题材的先河。


In [7]:
# 4:nm 演员列表
def get_answer_4(words, flags):
    movie_name = words[flags.index('nm')]
    cql = "match(n:Person)-[r:actedin]->(m:Movie) where m.title='%s' return n.name" % movie_name
    result = graph.run(cql)
    return [i.get('n.name') for i in result]


words, flags = parse_text('建国大业是谁演的')

get_answer_4(words, flags)

['Jin Xin',
 '王宝强',
 '葛优',
 'Chen Baoguo',
 '徐玟晴',
 '徐帆',
 '甄子丹',
 '郭晓冬',
 '梁朝伟',
 '陈建斌',
 '唐国强',
 'You Liping',
 '刘烨',
 '刘德华',
 '宁静',
 '刘沙',
 '龚蓓苾',
 '苗圃',
 '成龙',
 'Hong Chen',
 '梁家辉',
 '陈凯歌',
 'Feng Yuanzheng',
 'Jiang Wen',
 '刘仪伟',
 '邓超',
 '赵薇',
 '冯小刚',
 '陶泽如',
 '王学兵',
 '陈坤',
 '胡军',
 '周星驰',
 '黄晓明',
 '张涵予',
 '黄圣依',
 '孙红雷',
 '王伍福',
 '黎明',
 '刘劲',
 '李强',
 '佟大为',
 '邬君梅',
 '章子怡',
 '陈数',
 '吴宇森',
 'Chen Dao-Ming',
 '李滨',
 '修宗迪',
 '杨晓丹',
 'Donald Freeman',
 'Wong Bing',
 '王学圻',
 '张国立',
 '吴刚',
 '刘仪伟',
 '李连杰',
 'Wang Jian']

In [8]:
# 5:nnt 介绍
def get_answer_5(words, flags):
    actor_name = words[flags.index('nr')]
    cql = f"match(n:Person) where n.name='%s' return n.biography" % actor_name
    return graph.run(cql)


words, flags = parse_text('李连杰介绍')

get_answer_5(words, flags)

n.biography
李连杰（Jet Li），1963年4月26日生于北京市，华语影视男演员、导演、制作人 、武术运动员、商人。1971年进入北京什刹海体校，从而开始武术运动员的生涯。1975年参加全运会武术套路比赛，获得全能冠军。1979年因伤退出武术界。1982年主演个人首部电影《少林寺》，该片打破华语电影在中国内地的票房纪录。1986年自导自演动作片《中华英雄》。1991年主演的动作片《黄飞鸿之壮志凌云》奠定其在影坛的地位。1992年凭借武侠片《笑傲江湖Ⅱ：东方不败》获得更多关注。1995年获得第32届台湾电影金马奖大陆人士特别奖 。1998年赴美国好莱坞发展，同年出演其在好莱坞的首部电影《致命武器4》。2001年担任动作片《变种元素》的制作人。2002年因主演武侠片《英雄》而成为美国《时代周刊》的封面人物 。2003年凭借动作片《宇宙追缉令》获得第12届MTV电影奖最佳打斗场面提名。2008年凭借动作片《投名状》获得第27届香港电影金像奖最佳男主角 。2009年成为中国企业家俱乐部会员。2010年入选美国《时代周刊》“年度最具影响力人物百人榜” 。2011年参与创办太极禅国际文化发展有限公司。2013年在《中华武术》三十年颁奖盛典中，获得“中华武术30年最具武术影响力人物奖”。2016年主演古装片《封神传奇》 。李连杰热心公益慈善。2007年创建公益组织壹基金。2009年担任世界卫生组织亲善大使。2010年担任国际红十字会亲善大使。2014年在《中国慈善家》“中国慈善名人榜”中排名第二位。


In [9]:
#7:nnt 电影作品
def get_answer_7(words, flags):
    actor_name = words[flags.index('nr')]
    cql = "match(n:Person)-[]->(m:Movie) where n.name='%s' return m.title" % actor_name
    result = graph.run(cql)
    return [i.get('m.title') for i in result]


words, flags = parse_text('李连杰演过什么电影')

get_answer_7(words, flags)

['黑侠',
 '投名状',
 'Cause: The Birth of Hero',
 'Sat sau ji wong',
 '黄飞鸿之三狮王争霸',
 '英雄',
 'Zhong hua wu shu',
 '黄飞鸿之铁鸡斗蜈蚣',
 '黄飞鸿之二男儿当自强',
 'The One',
 'The Expendables 3',
 '少林真功夫',
 'Kiss of the Dragon',
 'Ultimate Fights from the Movies',
 'Zhong hua ying xiong',
 'Fong Sai Yuk juk jaap',
 'The Expendables',
 'Hong Xi Guan: Zhi Shao Lin wu zu',
 '龙在天涯',
 'Mao xian wang',
 '霍元甲',
 "Inferno: The Making of 'The Expendables'",
 '给爸爸的信',
 'The Mummy: Tomb of the Dragon Emperor',
 '不二神探',
 'Shao Lin xiao zi',
 'Zhong Nan Hai bao biao',
 '白蛇传说',
 'Gong Shou Dao',
 'The Expendables 2',
 '鼠胆龙威',
 'Lethal Weapon 4',
 'Eastern Heroes: The Video Magazine - Volume 2',
 '南北少林',
 'Jing wu ying xiong',
 'Chop Socky: Cinema Hong Kong',
 '黄飞鸿',
 '太极张三丰',
 'Dragons of the Orient',
 '黄飞鸿之西域雄狮',
 'Top Fighter',
 '海洋天堂',
 '方世玉',
 'The Forbidden Kingdom',
 '笑傲江湖II东方不败',
 'Shao Lin Si',
 '封神传奇',
 '龙行天下',
 'Romeo Must Die',
 '建国大业',
 '倚天屠龙记之魔教教主',
 '龙门飞甲',
 'Unleashed',
 'War',
 'Cradle 2 the Grave']

In [10]:
def get_answer(question):
    words, flags = parse_text(question)

    pred_label = predict(words, flags)

    print('pred_label=', pred_label)

    func = {
        3: get_answer_3,
        4: get_answer_4,
        5: get_answer_5,
        7: get_answer_7
    }[pred_label]

    return func(words, flags)


get_answer('倚天屠龙记之魔教教主是讲什么的')

pred_label= 3


m.introduction
张翠山（吴镇宇 饰）携妻及子张无忌（李连杰 饰）从孤岛出发赶去给其师父贺百岁大寿的途中，被人暗算，张无忌中寒冰掌。在武当山，张翠山和妻子被各大门派逼迫致死，张无忌也不再能练习武功，只能靠张三丰每日所输真气得以残活。张三丰的举动引来宋青书（邹兆龙 饰）的妒忌，他联合了峨眉女弟子周芷若（黎姿 饰）共同对付张无 忌。明教圣女小昭（邱淑贞 饰）令张无忌改变命运，使其先在断崖上遇到高人治好体内寒冰毒、学会九成“九阳神功”，又在明教禁地练得“乾坤大挪移心法”。得知蒙古郡主赵敏（张敏 饰）设计令江湖六大派围攻光明顶想歼灭明教时，张无忌决意为拯救明教赴汤蹈火
