Skip to content

locxiang/waiwai-spider

Repository files navigation

歪歪漫画爬虫

爬取流程

  1. 获取所有要爬的漫画数据列表
  2. 获取漫画目录详情
  3. 获取漫画详情
  4. 下载整理详情的内容

注意事项

  1. ip不能过于频繁
  2. 没有登录无法获取漫画之后的详情

技术思路 (结构体)

Spider

创建一个spider 结构体 存放这个网站的相关采集结构

Tasker

创建一个task 的结构体用于存储每次http的相关数据,以便于控制并发和cookie管理 每个任务都是3个步骤

  1. 执行
  2. 记录/报告 情况
  3. 下一步

Queue

并发安全的内存队列,支持多消费

TODO

  • 采集书单
  • 采集章节
  • 采集文章内容
  • 存储书单
  • 存储章节
  • 存储文章内容

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages