这是一个在某神秘网站(笑)上爬取神秘链接的爬虫。此爬虫使用的是scrapy爬虫框架,代码虽然简单但是还是用起来还是很有趣。
本爬虫使用的是mysql进行数据保存,只需修改settings.py
中的数据库信息和items.py
中table
(数据库表)即可。
MYSQL_HOST = 'localhost'
MYSQL_DATABASE = 'nyaa'
MYSQL_PORT = 3306
MYSQL_USER = 'root'
MYSQL_PASSWORD = '123456'
使用此代理需先运行代理池,然后修改settings.py
中的代理池的接口地址。
PROXY_URL ='http://localhost:5555/random'
使用本地代理时,请确保本机已开启代理。并清楚使用的协议类型。
确认后修改ProxyMiddleware2
中的:
proxy = '127.0.0.1:1080'//本地代理的端口
uri = 'socks5://{proxy}'.format(proxy=proxy)//协议类型修改
完成以上步骤后请打开settings.py
中对应的函数。
DOWNLOADER_MIDDLEWARES = {
# 'nyaa.middlewares.ProxyMiddleware': 300,
'nyaa.middlewares.ProxyMiddleware2': 300,
}
scrapy crawl ny
即可启动