中国明星数据爬取。你甚至可以拿到互联网上所有的人之间的关系,接下来你可以自己发挥!基于这些数据,你可以完成更多有趣的事情。比如说社交网络分析,关系网络可视化,算法研究,和其他有意思的事情。Chinese star data crawling. You can even get all the people on the internet! Based on these data, you can do more interesting things. For example, social network analysis, relational network visualization, algorithm research, and other interesting things.
Switch branches/tags
Nothing to show
Clone or download
Latest commit 6bd11ea Mar 6, 2018
Permalink
Type Name Latest commit message Commit time
Failed to load latest commit information.
.settings v1 Feb 28, 2017
img v1 Feb 28, 2017
src/main v1 Feb 28, 2017
.classpath v1 Feb 28, 2017
.gitignore v1 Feb 28, 2017
.project v1 Feb 28, 2017
LICENSE Initial commit Feb 28, 2017
README.md Update README.md Mar 6, 2018
pom.xml v1 Feb 28, 2017

README.md

中国明星数据爬取

目标

代码没有技术含量,仅仅告诉大家一个好的数据源!

爬取网络上的数据,建立一个完整的人物关系网。这里是爬取数据的部分,使用了jsoup就可以了,主要还是网站比较好。

时效性

2017年还有效。由于互动百科网站的页面结构改变,可能会影响爬虫的正常工作,后续不在维护其可用性,想下载数据的直接在release中进行下载。

方法

深度优先爬取,直到队列没有种子。暂时没有使用多线程。

举例

http://www.baike.com/wiki/%E5%91%A8%E6%9D%B0%E4%BC%A6里有完整的关系网络信息,简单解析一下就好啦。

结果展示

爬取得过程(log4j的日志)

图片展示

结果(尚未爬取结束)