详细编写及演示过程见博客:饿了么爬虫
- 主目录下的脚本用于在已知商家数据api名称的情况下(如样例中为batch_shop),才能正常获取,如能找到其他类型商户的api,可以直接对url进行修改
- 或者考虑第二种通用解法,登录获取页面html后,直接对html进行数据解析(见/HtmlDataProcess)
- python环境:python3.9
- 运行环境:Linux(Debian)
- 所需软件:selenium,chrome
- 下载chromedriver:
wget https://chromedriver.storage.googleapis.com/2.38/chromedriver_linux64.zip
- 解压到/usr/bin
- 下载chrome:
wget https://dl.google.com/linux/direct/google-chrome-stable_current_amd64.deb
- 安装chrome:
dpkg -i google-chrome-stable_current_amd64.deb
python3 main_spider.py