Skip to content

thuzhangjw/scrapy-spider1

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

3 Commits
 
 
 
 
 
 
 
 

Repository files navigation

使用scrapy爬取需要登录的网站信息
steps:

  1. 无登录状态尽可能获取目标链接. 无登录状态下防止爬虫异常退出,设计一个类似队列的数据结构可以缓存爬取过的链接,这里缓存的意思是链接A下面有10个链接,该数据结构可以在访问问10个链接时,自动将A链接也保存为已经访问
  2. 登录状态获取信息,包括如何处理字符验证码,如何处理aspx.Net框架设置的页面隐藏字段

About

爬取一个需要登录的建筑网的信息

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages