GitHub - dm-Andy/ip_proxy_tool: 使用 scrapy 爬取代理网站

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
ip_proxy_spider		ip_proxy_spider
README.md		README.md

Repository files navigation

介绍

使用 scrapy 爬取代理网站，将获取到的大量代理ip保存到数据库。

环境

如果需要爬取国外网站，本地必须可以翻墙，安装ss

抓取代理网站

添加代理网站库，进行维护

【国外】https://www.us-proxy.org/
【国内】https://www.kuaidaili.com/free/
【国内】http://www.xicidaili.com/
【国内】http://www.data5u.com/free/index.shtml
【国内】http://m.66ip.cn/
【国内】http://www.goubanjia.com/

有一个爬虫基类，导入配置的代理ip网址
在处理请求的函数中，遍历所有的代理ip网址
每一个网站的parse函数单独定义，统一在parse中处理，导入网址相对应的parse解析函数
保存到数据库
开启下载中间件，处理国外线路，走本地ss 1080端口代理

扩展

维护const.py里面的SOURCE_URL
在parse_methods.py里面添加对应网站的解析函数，必须继承自基类ParseMethodBase
SOURCE_URL里面的name必须跟ParseMethodBase子类的类名一致
解析函数将会在base_spider.py中统一处理调用，只要写好对应的解析函数即可

About

使用 scrapy 爬取代理网站

Report repository

Releases

No releases published

Packages

No packages published

Languages

Python 100.0%