lilaroka

Scrapy大众点评论坛爬虫

初学者，请多关照。

爬取成都地区的点评网站论坛信息。当然你也可以改成别的城市。针对滑动翻页问题，（每一页的信息条数只有40条），从第二页开始采用调接口获取列表数据的方式，拼接出详情页的网址：）具体方式请在spider文件夹中dianping_new中查看。dianping.py可以不用管它，只是一个初期不太成功的尝试因为直到现在还没有找到稳定的免费代理，也没学会设置，所以这个程序里只做了请求头浏览器的随机修改，反爬采用的是渣渣手动限速，详情在setting.py中。

存储就是简单的本地txt，没用存到数据库里，因为想接下来做一点NLP的学习。

如有问题请联系，希望与大家共同进步。

Name		Name	Last commit message	Last commit date
Latest commit History 2 Commits
scrapyexe		scrapyexe
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

lilaroka

About

Releases

Packages

Languages

jiaweijin/lilaroka

Folders and files

Latest commit

History

Repository files navigation

lilaroka

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages