In [1]:
import metaknowledge as mk

import warnings
warnings.filterwarnings("ignore")

In [2]:
RC = mk.RecordCollection(r'D:\python科学计量可视化\数据\Demo data\Python-Wos', cached = True)

In [3]:
RC2021 = RC.yearSplit(2020,2021)

RC.networkOneMode()中的参数解释：

    创建一个由一个标签对象的网络。这与networkMultiLevel()中指定一个标签功能相同;
    一个networkOneMode()看起来就像是在RecordCollection中任意一个标签和提取标签对应的值（内容）。比如作者标签'authorsFull'，如果有多名作者，就会返回为网络图的一个边，所以在指定作者标签'authorsFull'会创建一个作者合作网络;
    如果nodeCount为'True'，则计算节点每次出现的次数；如果edgeWeight为'True'，则边计数共出现的次数。默认情况下两者都为'True'；
    
    注：不要将其用于构建共引网络。请使用RC.networkCoCitation()，它更准确，且有更多选项。
    
    * mode: [str]数据类型。两个字符的WOS标签或标签的全名
    * nodeCount: [bool]数据类型。默认为'True'，如果为'True'，每个节点将有一个名为'count'的属性，其中包含一个整数，给出该对象发生的次数。,
    * edgeWeight: [bool]数据类型。默认为'True'，如果为'True'，每条边都会有一个名为'weight'的属性，其中包含了两个对象共同出现的次数，是一个整数。
    * stemmer: [fnunction]数据类型。默认为'None'，如果stemmer是一个可调用的对象，基本上是一个函数，也可能是一个类，它将被调用，用于图中每个节点的ID，所有ID都是字符串。
        比如说:函数`f = lambda x: x[0],如果作为stemmer给出，将导致所有ID为其stemmer对应ID的第一个字符。
            例如，标题'Goos-Hanchen和Imbert-Fedorov shifts for leaky guided mode'将创建节点名为'G'。
        简单理解：该参数就是对节点的显示信息进行自定义操作，比如截取指定位数字符显示，或者是按照某一规则处理。
    * edgeAttribute: 默认为None即可；
    * nodeAttribute: 默认为None即可,可以任意指定一个字符串，会在生成网络数据集中添加该字符串属性，但是该属性没有进行计算。


## 1. 测试mode参数

 比如node指定为关键词keywords，可以指定的标签对象为：

In [4]:
print(RC.tags())

{'SN', 'PM', 'AB', 'AF', 'PD', 'SP', 'SC', 'OA', 'CL', 'NR', 'FX', 'CT', 'PG', 'EA', 'RP', 'LA', 'C1', 'DT', 'PI', 'FU', 'OI', 'UT', 'EM', 'PY', 'HO', 'HP', 'TC', 'DI', 'DA', 'PA', 'EP', 'CR', 'PT', 'U2', 'SO', 'AR', 'J9', 'Z9', 'IS', 'U1', 'JI', 'AU', 'HC', 'BP', 'TI', 'PU', 'CY', 'SI', 'RI', 'VL', 'DE', 'WC', 'ID', 'GA', 'EI'}


In [5]:
keywords = RC.networkOneMode('keywords')
print(mk.graphStats(keywords))

Nodes: 4907
Edges: 57645
Isolates: 70
Self loops: 0
Density: 0.00478904
Transitivity: 0.127754


In [6]:
keywords = RC.networkOneMode('Keywords')
print(mk.graphStats(keywords))
#对于标签的大小写敏感，所以在不是很熟悉全拼的情况下建议使用两个字符的简写

Nodes: 0
Edges: 0
Isolates: 0
Self loops: 0
Density: 0
Transitivity: 0


In [7]:
#之前介绍过如何获取两字字符的全称getAltName
R = RC.peek()

for i in RC.tags():
    print(i,R.getAltName(i))

SN ISSN
PM pubMedID
AB abstract
AF authorsFull
PD month
SP confSponsors
SC subjectCategory
OA None
CL confLocation
NR citedRefsCount
FX fundingText
CT confTitle
PG pageCount
EA None
RP reprintAddress
LA language
C1 authAddress
DT docType
PI publisherCity
FU funding
OI orcID
UT wosString
EM email
PY year
HO confHost
HP None
TC wosTimesCited
DI DOI
DA None
PA publisherAddress
EP endingPage
CR citations
PT pubType
U2 None
SO journal
AR articleNumber
J9 j9
Z9 totalTimesCited
IS issue
U1 None
JI isoAbbreviation
AU authorsShort
HC None
BP beginningPage
TI title
PU publisher
CY confDate
SI specialIssue
RI ResearcherIDnumber
VL volume
DE authKeywords
WC subjects
ID keywords
GA documentDeliveryNumber
EI eISSN


In [8]:
keywords = RC.networkOneMode('ID')
print(mk.graphStats(keywords))
#获取到keywords对应的两字符格式就是ID

Nodes: 4907
Edges: 57645
Isolates: 70
Self loops: 0
Density: 0.00478904
Transitivity: 0.127754


## 2. 测试nodeCount参数

mode参数是必需传入的参数，以期刊SO为例，测试nodeCount参数

In [9]:
journal = RC.networkOneMode('SO',nodeCount=True)
print(mk.graphStats(journal))

Nodes: 4
Edges: 0
Isolates: 4
Self loops: 0
Density: 0
Transitivity: 0


In [10]:
journal.nodes.data()
#收集的就只有四个期刊，由于该字段只能有一个元素，所以网络数据集中的节点就是4，彼此之间没有连线

NodeDataView({'JOURNAL OF INFORMETRICS': {'count': 891}, 'SCIENTOMETRICS': {'count': 3480}, 'JOURNAL OF THE ASSOCIATION FOR INFORMATION SCIENCE AND TECHNOLOGY': {'count': 1340}, 'JOURNAL OF THE AMERICAN SOCIETY FOR INFORMATION SCIENCE AND TECHNOLOGY': {'count': 647}})

In [11]:
journal = RC.networkOneMode('SO',nodeCount=False)
print(mk.graphStats(journal))

Nodes: 4
Edges: 0
Isolates: 4
Self loops: 0
Density: 0
Transitivity: 0


换一个mode参数进行，比如subjectCategory SC

In [12]:
subjectCategory = RC.networkOneMode('SC',nodeCount=True)
print(mk.graphStats(subjectCategory))

Nodes: 2
Edges: 1
Isolates: 0
Self loops: 0
Density: 1
Transitivity: 0


In [13]:
subjectCategory.nodes.data()

NodeDataView({'Computer Science': {'count': 6358}, 'Information Science & Library Science': {'count': 6358}})

In [14]:
subjectCategory = RC.networkOneMode('SC',nodeCount=False)
print(mk.graphStats(subjectCategory))

Nodes: 2
Edges: 1
Isolates: 0
Self loops: 0
Density: 1
Transitivity: 0


In [15]:
subjectCategory.nodes.data()

NodeDataView({'Computer Science': {}, 'Information Science & Library Science': {}})

## 3. 测试edgeWeight参数

In [16]:
subjectCategory = RC.networkOneMode('SC',edgeWeight=True)
print(mk.graphStats(subjectCategory))

Nodes: 2
Edges: 1
Isolates: 0
Self loops: 0
Density: 1
Transitivity: 0


In [17]:
subjectCategory.edges.data()

EdgeDataView([('Computer Science', 'Information Science & Library Science', {'weight': 6358})])

In [18]:
subjectCategory = RC.networkOneMode('SC',edgeWeight=False)
print(mk.graphStats(subjectCategory))

Nodes: 2
Edges: 1
Isolates: 0
Self loops: 0
Density: 1
Transitivity: 0


In [19]:
subjectCategory.edges.data()

EdgeDataView([('Computer Science', 'Information Science & Library Science', {})])

## 4. 测试stemmer参数

还是以SC为例，测试stemmer参数

In [20]:
subjectCategory = RC.networkOneMode('SC',stemmer=lambda x:x[0])
print(mk.graphStats(subjectCategory))

Nodes: 2
Edges: 1
Isolates: 0
Self loops: 0
Density: 1
Transitivity: 0


In [21]:
subjectCategory.nodes.data()

NodeDataView({'C': {'count': 6358}, 'I': {'count': 6358}})

In [22]:
subjectCategory.edges.data()
#不光是节点的显示信息收到影响，而且连线汇总的节点名称也是有影响

EdgeDataView([('C', 'I', {'weight': 6358})])

In [23]:
subjectCategory = RC.networkOneMode('SC',stemmer=lambda x:x.split()[0])
print(mk.graphStats(subjectCategory))

Nodes: 2
Edges: 1
Isolates: 0
Self loops: 0
Density: 1
Transitivity: 0


In [24]:
subjectCategory.nodes.data()
#比如按照空格进行分割字符串后索引第一个元素作为节点的显示信息

NodeDataView({'Computer': {'count': 6358}, 'Information': {'count': 6358}})

## 5. 测试edgeAttribute参数

该参数在使用手册中未进行介绍,源代码中是直接调用networkMultiMode()

作为创建有向图、无向图和多维图的判断依据,直接赋值字符串会进行报错,默认设置为None即可

In [25]:
subjectCategory = RC.networkOneMode('SC',edgeAttribute='a')
print(mk.graphStats(subjectCategory))
#该参数应该和nodeAttribute参数功能类似，创建一个连线的属性，但是在当前版本的networkx模块中无法运行，所以保持默认None即可

NetworkXNotImplemented: not implemented for multigraph type

In [26]:
subjectCategory.edges.data()

MultiEdgeDataView([])

## 6. 测试nodeAttribute参数

In [27]:
subjectCategory = RC.networkOneMode('SC',nodeAttribute='c')
print(mk.graphStats(subjectCategory))

Nodes: 2
Edges: 1
Isolates: 0
Self loops: 0
Density: 1
Transitivity: 0


In [28]:
subjectCategory.nodes.data()
#理解就是添加一个属性，但是也没有进行结果运算

NodeDataView({'Computer Science': {'count': 6358, 'c': []}, 'Information Science & Library Science': {'count': 6358, 'c': []}})