Skip to content

jiaweijin/lilaroka

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

2 Commits
 
 
 
 

Repository files navigation

lilaroka

Scrapy大众点评论坛爬虫

初学者,请多关照。

爬取成都地区的点评网站论坛信息。当然你也可以改成别的城市。 针对滑动翻页问题,(每一页的信息条数只有40条),从第二页开始采用调接口获取列表数据的方式,拼接出详情页的网址:)具体方式请在spider文件夹中dianping_new中查看。dianping.py可以不用管它,只是一个初期不太成功的尝试 因为直到现在还没有找到稳定的免费代理,也没学会设置,所以这个程序里只做了请求头浏览器的随机修改,反爬采用的是渣渣手动限速,详情在setting.py中。

存储就是简单的本地txt,没用存到数据库里,因为想接下来做一点NLP的学习。

如有问题请联系,希望与大家共同进步。

Releases

No releases published

Packages

No packages published

Languages