In [1]:
#coding=utf-8
import codecs
import re
import numpy as np
import pandas as pd
import rdflib

In [2]:
# 基于模板匹配的问答系统
quest1 = "赵云的字是什么？"
# template1 = re.compile(r"赵云")
template1 = re.compile(r"(\S[^的]*)的字是什么？")
matches = re.search(template1,quest1)
if matches: 
    print(matches.group(0))                          # full match
    print(matches.group(1))                          # match group1

    
# 更普适的一个模板
quest2 = "曹丕的父亲是谁？"
# template1 = re.compile(r"赵云")
template2 = re.compile(r"(\S[^的]*)的(\S[^是]*)是(\S[^?]*)？")
matches2 = re.search(template2,quest2)
if matches: 
    print(matches2.group(0))                          # full match
    print(matches2.group(1))                          # match group1
    print(matches2.group(2))                          # match group2
    print(matches2.group(3))                          # match group3

赵云的字是什么？
赵云
曹丕的父亲是谁？
曹丕
父亲
谁


In [3]:
quest3 = "谁的父亲是曹操？"
print(re.search(template2,quest3).groups())

('谁', '父亲', '曹操')


In [4]:
quest4 = "曹丕的什么是曹操？"
print(re.search(template2,quest3).groups())

('谁', '父亲', '曹操')


In [5]:
print(re.sub(template2,r"\1的父亲是\3",quest3))

谁的父亲是曹操


这里提取出来的三个对象，实际上就是三元组的组成部分，我们因此可以把这个问句改写成一个查询，从RDF中找到我们需要的信息。

以下RDF知识图谱是根据三国在线：http://www.e3ol.com/ 上的资料整理得到。

In [6]:
g = rdflib.Graph()
g.parse("./data/MISC.ttl",format="turtle")

<Graph identifier=N4627b3985f854faf8219d89212722be2 (<class 'rdflib.graph.Graph'>)>

In [7]:
query_words = ["谁","什么"]

In [8]:
def to_query(template,question):
    global query_words
    matches = re.search(template,question).groups()
    is_query_entities = [int(x in query_words) for x in matches]
    N_query_entities = sum(is_query_entities)
    quest_placeholders = ["","","","","",""]
    if N_query_entities == 0: 
        return ""
    cnt = 0
    for i,entity in enumerate(matches):
        if is_query_entities[i]:
            quest_placeholders[i] = "?x"+str(i)
            quest_placeholders[i+3] = "?x"+str(i)
            cnt += 1
        else:
            quest_placeholders[i] = ""
            quest_placeholders[i+3] = "ns1:" + entity
    query0 = """
    PREFIX ns1: <http://www.e3ol.com/biography/html/> 
    select %s %s %s
    where {
    %s %s %s.
    }
    """ % (quest_placeholders[0],quest_placeholders[1],quest_placeholders[2],quest_placeholders[3],quest_placeholders[4],quest_placeholders[5])
    return query0

In [9]:
def answer(question):
    template = re.compile(r"(\S[^的]*)的(\S[^是]*)是(\S[^?]*)？")
    global query_words
    matches = re.search(template,question).groups()
    is_query_entities = [int(x in query_words) for x in matches]
    query0 = to_query(template,question)
    if query0 == "": 
        print("没有问题或模板不匹配")
        return
    results = g.query(query0)
    ns1 = "http://www.e3ol.com/biography/html/"
    shorten = lambda x: str(x)[len(ns1):]
    if len(results) > 0:
        for record in results:
            cnt = 0
            answer_placeholders = ["","",""]
            for i,entity in enumerate(matches):
                if is_query_entities[i]:
                    answer_placeholders[i] = shorten(record[cnt])
                    cnt += 1
                else:
                    answer_placeholders[i] = '\\'+str(i+1)
            answer_temp = r"{}的{}是{}".format(*answer_placeholders)
            print(re.sub(template,answer_temp,question))
    else:
        print("没有找到结果或模板不匹配")

In [10]:
print(to_query(r"(\S[^的]*)的(\S[^是]*)是(\S[^?]*)？","谁的父亲是曹操？"))


    PREFIX ns1: <http://www.e3ol.com/biography/html/> 
    select ?x0  
    where {
    ?x0 ns1:父亲 ns1:曹操.
    }
    


In [11]:
answer("谁的父亲是曹操？")

曹彰的父亲是曹操
曹丕的父亲是曹操
曹植的父亲是曹操
曹昂的父亲是曹操


In [12]:
answer("曹丕的什么是曹操？")

曹丕的父亲是曹操


In [13]:
answer("曹丕的父亲是谁？")

曹丕的父亲是曹操


更有挑战性的双查询

In [14]:
answer("曹操的什么是谁？")

曹操的子女是曹整
曹操的子女是曹华
曹操的配偶是李姬
曹操的子女是曹植
曹操的配偶是刘氏[曹操妾]
曹操的子女是曹玹
曹操的子女是曹茂
曹操的母亲是丁氏
曹操的子女是曹矩
曹操的配偶是秦夫人
曹操的子女是曹昂
曹操的子女是曹节[献穆皇后]
曹操的配偶是赵姬
曹操的配偶是王昭仪
曹操的子女是曹彪
曹操的子女是曹衮
曹操的子女是曹乘
曹操的配偶是宋姬[曹操妃]
曹操的配偶是孙姬
曹操的配偶是武宣皇后
曹操的子女是曹京
曹操的子女是曹棘
曹操的子女是曹丕
曹操的子女是曹干
曹操的子女是曹据
曹操的子女是曹上
曹操的配偶是刘姬
曹操的官至是丞相
曹操的子女是曹均
曹操的子女是金乡公主
曹操的子女是曹宇
曹操的官至是谥曰武
曹操的配偶是陈氏[曹操妾]
曹操的子女是安阳公主
曹操的子女是曹彰
曹操的官至是追魏太祖武皇帝
曹操的曾效力过是东汉
曹操的官至是魏王
曹操的子女是曹峻
曹操的子女是曹冲
曹操的子女是曹徽
曹操的子女是曹林
曹操的兄弟是曹德
曹操的子女是广宗殇公
曹操的配偶是周姬
曹操的子女是曹铄
曹操的配偶是尹夫人
曹操的兄弟是曹彬
曹操的子女是曹宪
曹操的配偶是丁夫人
曹操的配偶是刘夫人
曹操的父亲是曹嵩
曹操的配偶是杜夫人
曹操的子女是曹熊
