Skip to content

DianaCody/Spider_SinaTweetCrawler_java

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

9 Commits
 
 
 
 
 
 
 
 

Repository files navigation

新浪微博爬虫(java版)


Sina Tweet Crawler (java)

新浪微博爬虫

实现自定义输入关键词,指定要爬取的相关页面,根据关键词提取页面中的微博信息数据。
  • 自定义搜索关键字
  • 自动获取代理IP爬取
  • 非登录,爬取当天微博信息数据存储于本地html文件
  • 解析微博页面获取微博文本内容信息到txt和xml文件
  • 基于代理IP获取数据,可以长时间连续爬取数据,可以防止某些反爬虫机制

1.软件功能

实时爬取微博信息数据,数据源 http://s.weibo.com/wb/searchword


2.Learn more

Learn more...

About

Spider_SinaTweetCrawler, to crawl tweet content from sinaTweet. (java)

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages