知识图谱越来越火，技术人员开始习惯使用`Sparql`查询`RDF`数据。但是，我们**如何构建一个RDF数据呢?**

# 构建RDF数据的工具

## Jena：JAVA语言编写

Java 语言编写的，具有推理功能，适合开发和技术研究使用。

## rdflib：Python语言编写

RDFlib是一个纯Python包，用于RDF。RDFLib包含了大多数处理RDF所需的内容,包括:
1. 解析和序列化w文件：RDF/XML, N3, NTriples, N-Quads, Turtle, TriX, RDFa， Microdata格式的数据
2. 一个图形接口，可以由许多存储实现中的任何一个来支持
3. 基于伯克利数据库，为内存存储和持久存储做了存储实现
4. SPARQL 1.1 实现 - 支持 SPARQL 1.1 查询和更新数据
5. 支持的文件格式有: 'rdf/xml'，'xml' , 'n3' ,'nt' ,'trix','rdfa'

安装：`pip install rdflib`

# 使用rdflib库

## 创建RDF数据文件

In [1]:
# 创建一个节点，并以rdf格式序列化输出
from rdflib import Graph
import rdflib

# 创建图：RDF本质上也是一个图
g = Graph() 

# 创建关系：属性
has_border_with = rdflib.URIRef('http://localhost/has_border_with') # 国与国之间的边界相邻
located_in = rdflib.URIRef('http://localhost/located_in') # 国家位于哪里

# 创建资源：国家
Germany = rdflib.URIRef('http://localhost/germany') # 德国
France = rdflib.URIRef('http://localhost/france') # 法国
China = rdflib.URIRef('http://localhost/china') # 我国
Korea = rdflib.URIRef('http://localhost/korea') # 朝鲜

# 创建资源：洲
Europa = rdflib.URIRef('http://localhost/europa') # 欧洲
Asia = rdflib.URIRef('http://localhost/asia') # 亚洲

# 创建RDF三元组: (资源，关系，资源)
g.add((Germany,has_border_with,France))
g.add((China,has_border_with,Korea))
g.add((Germany,located_in,Europa))
g.add((France,located_in,Europa))
g.add((China,located_in,Asia))
g.add((Korea,located_in,Asia))

# 序列化输出RDF数据
g.serialize('./code/1.rdf')

结果如下:
![](./image/1.png)

## 导入数据

 导入上步创建的RDF数据：`./code/1.rdf`

In [2]:
from rdflib import Graph
import pprint

# 创建一个图：RDF本质是也是一个图
g = Graph()

# 导入rdf文件，并解析
g.parse('./code/1.rdf',format='xml')

print('图的大小为：',len(g))
print()
# 遍历图中所有的三元组
for triple in g:
    pprint.pprint(triple)
    print()

图的大小为： 6

(rdflib.term.URIRef('http://localhost/germany'),
 rdflib.term.URIRef('http://localhost/has_border_with'),
 rdflib.term.URIRef('http://localhost/france'))

(rdflib.term.URIRef('http://localhost/china'),
 rdflib.term.URIRef('http://localhost/located_in'),
 rdflib.term.URIRef('http://localhost/asia'))

(rdflib.term.URIRef('http://localhost/china'),
 rdflib.term.URIRef('http://localhost/has_border_with'),
 rdflib.term.URIRef('http://localhost/korea'))

(rdflib.term.URIRef('http://localhost/france'),
 rdflib.term.URIRef('http://localhost/located_in'),
 rdflib.term.URIRef('http://localhost/europa'))

(rdflib.term.URIRef('http://localhost/germany'),
 rdflib.term.URIRef('http://localhost/located_in'),
 rdflib.term.URIRef('http://localhost/europa'))

(rdflib.term.URIRef('http://localhost/korea'),
 rdflib.term.URIRef('http://localhost/located_in'),
 rdflib.term.URIRef('http://localhost/asia'))



## Sparql查询

### 查询<a,?,?>类型的RDF三元组数据

`<a,?,?>`这里`a`是已经给定的，待查询的内容是`?,?`的内容

In [3]:
# Sparql查询语句
# <a,?,?>,这里的relation 和 part 都是用来指代待查询的内容，
# 而且这个名字不需要与RDF内一致，自己可以随时修改，
# 它们代表的其实是待查询的三元组中的某个位置，
# 但必须在前面加上 ? 标识待查询
# 而且在 where语句中，相对顺序不能变，而且要用空格与其他变量隔开
q = "select ?relation ?part where {<http://localhost/germany> ?relation ?part}"
r1 = g.query(q)
print(r1)
print()
r1 = list(r1)
for i in r1:
    print(i)
    print()

<rdflib.plugins.sparql.processor.SPARQLResult object at 0x0000022FFF802DA0>

(rdflib.term.URIRef('http://localhost/has_border_with'), rdflib.term.URIRef('http://localhost/france'))

(rdflib.term.URIRef('http://localhost/located_in'), rdflib.term.URIRef('http://localhost/europa'))



由于我们查询的是`德国`，因此返回的内容都是与德国组成的三元组信息，并且RDF三元组结构都是`(Germany,?,?)`。

### 查询 <\?,a,\?> 类型的RDF三元组数据

In [4]:
# Sparql查询语句
q = "select ?country ?part where{?country <http://localhost/located_in> ?part}"
r1 = g.query(q)
print(r1)
print()
r1 = list(r1)
for i in r1:
    print(i)
    print()

<rdflib.plugins.sparql.processor.SPARQLResult object at 0x0000022FFF759048>

(rdflib.term.URIRef('http://localhost/france'), rdflib.term.URIRef('http://localhost/europa'))

(rdflib.term.URIRef('http://localhost/china'), rdflib.term.URIRef('http://localhost/asia'))

(rdflib.term.URIRef('http://localhost/germany'), rdflib.term.URIRef('http://localhost/europa'))

(rdflib.term.URIRef('http://localhost/korea'), rdflib.term.URIRef('http://localhost/asia'))



### 查询<?,?,a>类型的RDF三元组数据

In [5]:
# Sparql查询语句
q = "select ?country ?relation where{?country  ?relation <http://localhost/france>}"
r1 = g.query(q)
print(r1)
print()
r1 = list(r1)
for i in r1:
    print(i)
    print()

<rdflib.plugins.sparql.processor.SPARQLResult object at 0x0000022FFF7EC5C0>

(rdflib.term.URIRef('http://localhost/germany'), rdflib.term.URIRef('http://localhost/has_border_with'))



### 查询<a,b,?>类型的RDF三元组数据

In [6]:
# Sparql查询语句
q = "select ?country  where{<http://localhost/germany> <http://localhost/located_in> ?country}"
r1 = g.query(q)
print(r1)
print()
r1 = list(r1)
for i in r1:
    print(i)
    print()

<rdflib.plugins.sparql.processor.SPARQLResult object at 0x0000022FFF0ADAC8>

(rdflib.term.URIRef('http://localhost/europa'),)



### 查询<a,?,b>类型的RDF三元组数据

In [7]:
# Sparql查询语句
q = "select ?relation where{<http://localhost/germany>  ?relation <http://localhost/france>}"
r1 = g.query(q)
print(r1)
print()
r1 = list(r1)
for i in r1:
    print(i)
    print()

<rdflib.plugins.sparql.processor.SPARQLResult object at 0x0000022FFF08DFD0>

(rdflib.term.URIRef('http://localhost/has_border_with'),)



### 查询<?,a,b>类型的RDF三元组数据

In [8]:
# Sparql查询语句
q = "select ?country where{?country  <http://localhost/located_in> <http://localhost/europa>}"
r1 = g.query(q)
print(r1)
print()
r1 = list(r1)
for i in r1:
    print(i)
    print()

<rdflib.plugins.sparql.processor.SPARQLResult object at 0x0000022FFF852438>

(rdflib.term.URIRef('http://localhost/france'),)

(rdflib.term.URIRef('http://localhost/germany'),)



### 如何判断查询结果是否为空

In [9]:
# Sparql查询语句
q = "select ?relation where{<http://localhost/germany>  ?relation <http://localhost/china>}"
r1 = g.query(q)
print(r1)
print()
r1 = list(r1)
for i in r1:
    print(i)
    print()

<rdflib.plugins.sparql.processor.SPARQLResult object at 0x0000022FFF7F8C50>



显然，在我们定义的RDF中，德国 和 中国并有联系，而查询结果也表明了结果为空，但是我们如何用程序来判定呢？

In [10]:
# 我们来输出几个关于查询结果的信息
# Sparql查询语句
q = "select ?relation where{<http://localhost/germany>  ?relation <http://localhost/china>}"
r1 = g.query(q)
print('r1.vars: ',r1.vars)
print()
print('r1.bindings: ',r1.bindings)
print()
print('r1.graph: ',r1.graph)

r1.vars:  [rdflib.term.Variable('relation')]

r1.bindings:  []

r1.graph:  None


`r1.vars`：是我们待查询的变量，`r1.graph`：是查询结果构成的图，`r1.bindings`: 是查询结果组成的列表，因此我们可以**通过判断`r1.bindings`是否为空列表，来判断查询内容是否为空**

In [11]:
if r1.bindings == [] :
    print('查询结果为空')

查询结果为空
