- 进行IP代理(未使用代理,http://www.xicidaili.com/ 找不到稳定可用的代理)
- 通过HttpClient获取到请求页面的String字符串
- 通过jsoup解析
- (解析需要自己在页面查看源代码,分析DOM结构)
- (通过使用jsoup的类似于css选择器的函数,获取元素,元素集,或者文本和属性值)
- 每一本书的值set进Book实体,并添加进List集合
- 获取页面底部的总页码数
- 循环创建线程(一个页面,一个线程)
- List集合通过构造方法共享
- 运行结束后,应该获取到的是一个拥有所有页面的书的集合
- 根据score属性及num属性,实现Comparator接口,完成排序
- 遍历当前这个List集合,顺序为每个元素设置id属性
- 调用poi,遍历List,将每个元素按行写入excel文件
-
Notifications
You must be signed in to change notification settings - Fork 0
pick data by multi-threading,and save to excel
pplmx/Spider
Folders and files
Name | Name | Last commit message | Last commit date | |
---|---|---|---|---|
Repository files navigation
About
pick data by multi-threading,and save to excel
Topics
Resources
Stars
Watchers
Forks
Releases
No releases published
Packages 0
No packages published