Skip to content

pplmx/Spider

Repository files navigation

  • 进行IP代理(未使用代理,http://www.xicidaili.com/ 找不到稳定可用的代理)
  • 通过HttpClient获取到请求页面的String字符串
  • 通过jsoup解析
  • (解析需要自己在页面查看源代码,分析DOM结构)
  • (通过使用jsoup的类似于css选择器的函数,获取元素,元素集,或者文本和属性值)
  • 每一本书的值set进Book实体,并添加进List集合
  • 获取页面底部的总页码数
  • 循环创建线程(一个页面,一个线程)
  • List集合通过构造方法共享
  • 运行结束后,应该获取到的是一个拥有所有页面的书的集合
  • 根据score属性及num属性,实现Comparator接口,完成排序
  • 遍历当前这个List集合,顺序为每个元素设置id属性
  • 调用poi,遍历List,将每个元素按行写入excel文件

About

pick data by multi-threading,and save to excel

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages