Skip to content

中国明星数据爬取。你甚至可以拿到互联网上所有的人之间的关系,接下来你可以自己发挥!基于这些数据,你可以完成更多有趣的事情。比如说社交网络分析,关系网络可视化,算法研究,和其他有意思的事情。Chinese star data crawling. You can even get all the people on the internet! Based on these data, you can do more interesting things. For example, social network analysis, relational network visualization, algorithm research, and other interesting things.

License

Notifications You must be signed in to change notification settings

xjtushilei/ChineseStarsRelationship

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

7 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

中国明星数据爬取

目标

代码没有技术含量,仅仅告诉大家一个好的数据源!

爬取网络上的数据,建立一个完整的人物关系网。这里是爬取数据的部分,使用了jsoup就可以了,主要还是网站比较好。

时效性

2017年还有效。由于互动百科网站的页面结构改变,可能会影响爬虫的正常工作,后续不在维护其可用性,想下载数据的直接在release中进行下载。

方法

深度优先爬取,直到队列没有种子。暂时没有使用多线程。

举例

http://www.baike.com/wiki/%E5%91%A8%E6%9D%B0%E4%BC%A6里有完整的关系网络信息,简单解析一下就好啦。

结果展示

爬取得过程(log4j的日志)

图片展示

结果(尚未爬取结束)

About

中国明星数据爬取。你甚至可以拿到互联网上所有的人之间的关系,接下来你可以自己发挥!基于这些数据,你可以完成更多有趣的事情。比如说社交网络分析,关系网络可视化,算法研究,和其他有意思的事情。Chinese star data crawling. You can even get all the people on the internet! Based on these data, you can do more interesting things. For example, social network analysis, relational network visualization, algorithm research, and other interesting things.

Topics

Resources

License

Stars

Watchers

Forks

Packages

No packages published

Languages