Scrapy大众点评论坛爬虫
初学者,请多关照。
爬取成都地区的点评网站论坛信息。当然你也可以改成别的城市。 针对滑动翻页问题,(每一页的信息条数只有40条),从第二页开始采用调接口获取列表数据的方式,拼接出详情页的网址:)具体方式请在spider文件夹中dianping_new中查看。dianping.py可以不用管它,只是一个初期不太成功的尝试 因为直到现在还没有找到稳定的免费代理,也没学会设置,所以这个程序里只做了请求头浏览器的随机修改,反爬采用的是渣渣手动限速,详情在setting.py中。
存储就是简单的本地txt,没用存到数据库里,因为想接下来做一点NLP的学习。
如有问题请联系,希望与大家共同进步。