Journal

学术期刊质量查询系统（shinyapp在线版：Journal）

收集中英文学术期刊信息，制作具有交互界面的查询系统，直观了解不同学术期刊的影响因子、分区、收录等信息，用于读文献时判断论文质量、投稿时选择目标期刊。此外本程序采用R语言编程，涉及爬虫和shiny等功能，可作为案例学习相关编程技能。

关于项目数据：中文期刊信息和2018年英文期刊信息采用R爬虫获取，分别源自知网和LetPub；2022JCR数据源自网络下载。

所有代码和数据，切勿用于商业用途；适度使用爬虫工具，小心违法！

===== 2022.08.13更新=====

增加了选择期刊以进行对比的页面，使用时注意：
- 在1~3页浏览时，单击表格中的期刊，可进行选择，选择结果将展示在第4页
- 1~3页侧边栏，是对数据进行刷新，会重置第四页选择的结果，而search框中的选择，不改变数据，因此不会重置结果
- 第四页仅做展示，没有可修改的参数项，为了期刊间对比，默认表格一页展示100条
更改了原始数据journal2018.csv和journalchinese.csv中的url列，利用html语法定义为链接，则表格展示时仅出现“Link”字样，从而减小表格的占用的宽度

===== 2022.07.16更新=====

增加了中文期刊的质量信息

对于中文爬虫，有几点需要注意：

此次爬虫代码文件为#linshi5-WebCrawlerCNKIjournal.R
本次爬虫采用selenium，所用R语言爬虫技巧可以应付绝大部分使用场景。
对于爬虫环境搭建，主要包括Java环境、selenium-server、chromedriver三部分，网上相应教程较多。
Chromedriver无头模式不稳定，常有页面信息无反馈的情况，频率约2/1000，若是否用无头模式速度差别不大，则推荐不用headless。

===== 2022.07.13更新=====

更新了JCR2022影响因子数据，由于该数据与LetPub的条目差异较大，因此并未删除原数据，两组数据同时展示。

===== 2022.02.30更新 =====

修改了shinyapp，并将其部署在我自己的阿里云上，欢迎访问：Journal，再也不用受制于shinyapps.io了。但是这个数据还是2018年的影响因子，实际上已经过时了，仅做参考吧，有时间再去更新数据。

===== 2019.03.12更新 =====
用了几天Excel版，筛选和排序太过繁琐，查询起来也让人头疼，因此做了个shinyapp解决以上问题，此次将ui.r和server.r上传在23_journal_info文件夹中。

对于github上的网络版，配置好环境，在R中通过shiny::runGitHub("Journal","lcpmgh",subdir="23_journal_info")打开。本来想部署在shinyapps.io上，但是有中文乱码的bug，这里做了一个大幅度阉割的英文版24_journal_info_en，就看看就行，连学科分类和期刊分区的筛选都没办法实现，等有机会把数据译成全英文的，再部署完整版。

本地使用时，建议将r加入环境变量，建立bat文件，代码类似Rscript -e "library(shiny);runApp('D:/23_journal_info',launch.browser=T)"（注意server.r中默认读取github上的数据），这样只需运行bat文件，省的每次都打开R，体验上更类似于一款独立的软件。

===== 以下为原readme内容 =====
起因是想找一下优质期刊的论文看，然而查询中科院jcr分区太麻烦了，有个网站LetPub还能用，但是在我看来也不好用，看了下这个网站超级简陋，没有任何的反爬虫机制，还不如豆瓣电影，所以就写了个代码跑一下、

几个说明：

此次上传的内容包括，R爬虫脚本demo014_JournalInfo.r，以及抓取到的数据文件Journal.csv，Journa_info.xlsx，两个文件内容相同，都是LetPub全站的10235个期刊的23项信息。
文件Journal.csv是代码直接输出的结果，Journa_info.xlsx是为了方便使用，在Excel中对csv文件进行转换，然后简单美化后的结果（R直接写入Excel要调用Java，效率太低了）。
由于网站排版不是很规范，而且样本量太大，具体信息可能有误，参考时请慎重，若对某一项有疑问，可根据对应的Url核实，Url会连接到LetPub上该期刊的详情页面。
特别说明，网络爬虫很容易触犯法律，因此 本项目仅供学习交流，切勿作商业用途，由此造成的一切后果请自行承担！

另外，之前电脑刚好重装系统，于是所有的东西都需要重新配置，在此也说明下此次R爬虫的准备工作：

r和rstudio，目前r v3.5.2，rstudio v1.1.463，r3.5版不能用3.4的旧包，所有都要重装，此版本rstudio不时会有bug，重启下就行了
jdk v11.0.2，windows10专业版1809，之前1703不能装最新的jdk，这次1809又不能用之前的jdk8，另外1809的桌面新建功能卡顿，貌似目前还没有解决办法
phantomjs和chromedriver，去网上下载，加入环境变量中使用，由于此次爬虫过于简单，用phantomjs就行，并且因为不显示内容，速度比chrome要快不少
selenium server，v2.50.1，一个java的脚本，高版本的不支持phantomjs了，这个还能用
此次所用r包，都位于CRAN上，直接装

此次运行只记录了第二个函数的时间，耗时两个多小时……

Name		Name	Last commit message	Last commit date
Latest commit History 31 Commits
www		www
#linshi5-WebCrawlerCNKIjournal.R		#linshi5-WebCrawlerCNKIjournal.R
README.md		README.md
demo014_JournalInfo.R		demo014_JournalInfo.R
journal2018.csv		journal2018.csv
journal2022.csv		journal2022.csv
journal2022category.csv		journal2022category.csv
journalchinese.csv		journalchinese.csv
msyh.ttc		msyh.ttc
server.R		server.R
timeconsuming.png		timeconsuming.png
ui.R		ui.R

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Journal

几个说明：

About

Releases

Packages

Languages

lcpmgh/Journal

Folders and files

Latest commit

History

Repository files navigation

Journal

几个说明：

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages