crawlers based on webcollector
若干个自己基于webcollector实现的爬虫,包括百度新闻搜索、微博搜索(使用selenium 模拟登录微博)、京东商品基本信息采集等
- 编写一个爬虫
- 在data/定义数据结构
- 在DataPersistence实现数据数据持久化方法
- 编写crawler - 编写配置 - 实现visit()方法
详见main.java.crawler.smedia.EbSearchJd.java,一个爬取京东商品基本信息的简单爬虫,列表页+详情页模式采集
src/main/java/
|_data/ --定义数据类型
|_db/ --数据库操作
|_DataPersistence --数据库操作
|_ORM --对象关系映射
|_util/ --工具类
|_crawler/ --各种crawler
...