Skip to content
把在Scopus网站搜索得到的结果,转化成能用Histcite进行分析的文本的脚本
Branch: master
Clone or download
Fetching latest commit…
Cannot retrieve the latest commit at this time.
Permalink
Type Name Latest commit message Commit time
Failed to load latest commit information.
.gitignore
README.md
Scopus2Histcite.py
scopus.ris

README.md

Scopus2HistCite

非常欣喜地发现这个小脚本在他诞生后的数年后仍然有人在使用,甚至在得到公众号科研利器王老师的推荐。 enter description here

最初的脚本是windows下面写的,使用的是python2。以现在的眼光看来,写的很丑陋 虽然我现在早已转到用OSX作为我的主力使用系统,但是HISTCITE毕竟只有WINDOWS版本. 准备抽空改进一下, 谢谢给我鼓励的人们.

原来的介绍

个人工作中,经常会有这样的情况:从一篇或者几篇文章出发,找出此领域中被引用比较多,开山祖师级别的文献,作文献二次检索是比较容易想到的思路。

二次检索可以用scopus网站,不过怎么找出二次检索之后,哪些文献比较重要呢?很容易想到有类似功能的Histocite,感谢罗昭锋的博客等老师的大力推广,我在多年前就已经使用过这个软件进行文献检索。

经过观察 scopus的导出格式和 histcite的导入格式,发现其实histcite所需要的信息在scopus里都有,但是要经过一系列的加工,把无用的信息给去除,还要进行一系列的关键字代替。

代替过程:逐行读入原来的ris文件,并作相应处理

  1. 第一行,写入FN Thomson Reuters Web of Knowledge™。第二行 写入VR 1.0
  2. 原来ris文件,每篇文献记录间用单行隔开
  3. 每篇文献由数行组成,每行开头两个字符有相应的意义,转成相应的histcite标记
'TI', # title
'T2', # jounal
'AU', # author,这个代替最麻烦
'VL', # volumn
'IS', # issue
'SP', # start page
'EP', # end page
'PY', # public year
'DO' # doi ?这个不重要
  1. 具体代替思路可见下图,其实读源代码更清楚 enter description here

重构完毕, 改进点

  • 用python3代替了python2
  • 代码写的更加清楚点,不像原来那么"丑"
  • 基本思路和原来一样,搞清楚不同的mark是什么意思,搞清楚一条文章记录的"起转承接",作相应的代替

使用方法

  • 推荐使用文献引文分析利器 HistCite 详细使用教程暨 HistCite Pro 首发页面
  • git clone我的repo或者直接下载 python脚本
  • 从scopus网站导出文献记录,有两个注意点
    1. 要换成英文版scopus enter description here
    2. 导出时,要选择ris格式,要注意把References选上。 enter description here
  • 导出的文献名是scopus.ris,放在和Scopus2Histcite.py同一个目录下, 运行这个脚本 python3 Scopus2Histcite.py
  • 或者放到任意位置, python3 Scopus2Histcite.py \path\to\your\risfile
  • 会在当前目录下生成savedres.txt,用前面修改版的HistCite Pro导入。
You can’t perform that action at this time.