Skip to content

dm-Andy/ip_proxy_tool

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

3 Commits
 
 
 
 

Repository files navigation

介绍

使用 scrapy 爬取代理网站,将获取到的大量代理ip保存到数据库。

环境

如果需要爬取国外网站,本地必须可以翻墙,安装ss

抓取代理网站

添加代理网站库,进行维护

  1. 有一个爬虫基类,导入配置的代理ip网址
  2. 在处理请求的函数中,遍历所有的代理ip网址
  3. 每一个网站的parse函数单独定义,统一在parse中处理,导入网址相对应的parse解析函数
  4. 保存到数据库
  5. 开启下载中间件,处理国外线路,走本地ss 1080端口代理

扩展

  1. 维护const.py里面的SOURCE_URL
  2. parse_methods.py里面添加对应网站的解析函数,必须继承自基类ParseMethodBase
  3. SOURCE_URL里面的name必须跟ParseMethodBase子类的类名一致
  4. 解析函数将会在base_spider.py中统一处理调用,只要写好对应的解析函数即可

About

使用 scrapy 爬取代理网站

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages