Skip to content

Latest commit

 

History

History
40 lines (27 loc) · 1.86 KB

README.md

File metadata and controls

40 lines (27 loc) · 1.86 KB

I - 爬虫介绍

1. 思维脑图

2. 核心要点

This browser does not support SVG. Please download the SVG to view it: Download SVG.

3. 代码说明

  • 1. download.py
    • 包含下载网页以及解析robots.txt文件的函数
  • 2. throttle.py
    • 包含相同域名的网页下载延迟设置
  • 3. web_crawler.py
    • 包含网站地图爬虫、遍历ID爬虫、获取链接爬虫

4. 注意事项

  • 写爬虫的时候,首先需要根据自己的目的以及收集到的信息来决定使用的技术和框架,其次就是由简及深的开始上手写爬虫,经过多次重构基本可以比较方便且灵活的使用了,最后就是需要写文档以及代码注释,以备日后查阅和翻看。