基于scrapy的爬虫
- 项目1:Amazon_Spider
- 项目2:Lianjia_Spider
- 项目3:Tripadvisor_Spider
- 项目4:36kr_Spider
项目1:Amazon_Spider
- 需求:爬取中国亚马逊的海外购所有类目热销排名的商品详情,用户评论,并对数据清洗后写入mongodb
- 用法:
scrapy crawl amazon
- 成果:
- 后续工作:可以对某一类特定的商品的评论进行数据分析、可视化
项目2:Lianjia_Spider
- 需求:爬取猫头鹰tripadvisor Top25热门景点的酒店详情,对应的用户地址,并对数据清洗后写入mongodb,进行数据分析、可视化
- 用法:
scrapy crawl tripadvisor
- 成果:
- 后续工作:可以抓取某一特定国家的用户,进行用户信息抓取和行为分析
- 不足:代码结构需要调整一下,还有就是用户的地址,举个例子:有些用户填写London、有些用户填写london、有些填写United Kingdom,很明显这种都属于英国,这样就会造成分析的障碍。