⭐Scrapy_Spider

基于scrapy的爬虫

项目列表

项目1：Amazon_Spider
项目2：Lianjia_Spider
项目3：Tripadvisor_Spider
项目4：36kr_Spider

项目描述：

项目1：Amazon_Spider

需求：爬取中国亚马逊的海外购所有类目热销排名的商品详情，用户评论，并对数据清洗后写入mongodb
用法：scrapy crawl amazon
成果：
后续工作：可以对某一类特定的商品的评论进行数据分析、可视化

项目2：Lianjia_Spider

需求：爬取广州链家二手房成功成交的订单数据
用法：scrapy crawl lianjia
成果：
后续工作：可以长期抓取数据，进行房价的数据分析

项目3：Tripadvisor_Spider

需求：爬取猫头鹰tripadvisor Top25热门景点的酒店详情，对应的用户地址，并对数据清洗后写入mongodb，进行数据分析、可视化
用法：scrapy crawl tripadvisor
成果：
后续工作：可以抓取某一特定国家的用户，进行用户信息抓取和行为分析
不足：代码结构需要调整一下，还有就是用户的地址，举个例子：有些用户填写London、有些用户填写london、有些填写United Kingdom，很明显这种都属于英国，这样就会造成分析的障碍。

项目4：36kr_Spider

需求：爬取36kr旗下的鲸准创投网站的创投企业详情，并对数据清洗后写入mongodb，进行数据分析、可视化
说明：由于网页版的爬虫需要身份认证后才能爬取到企业信息，所以把目标转向客户端，我这里用的时创投助手这个app，需要登陆后用抓包工具charles进行分析url，发现虽然需要登陆，但是返回数据的url不需要cookie就可以访问，所以直接访问抓取就好了。
用法：scrapy crawl Jingzhun_36kr
数据可视化：
后续工作：可以根据服务类型进一步细分

Name		Name	Last commit message	Last commit date
Latest commit History 8 Commits
Data_Analysis		Data_Analysis
Scrapy_Spider		Scrapy_Spider
README.md		README.md
scrapy.cfg		scrapy.cfg

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

⭐Scrapy_Spider

项目列表

项目描述：

项目1：Amazon_Spider

项目2：Lianjia_Spider

项目3：Tripadvisor_Spider

项目4：36kr_Spider

About

Releases

Packages

Languages

Mrrrrr10/Scrapy_Spider

Folders and files

Latest commit

History

Repository files navigation

⭐Scrapy_Spider

项目列表

项目描述：

项目1：Amazon_Spider

项目2：Lianjia_Spider

项目3：Tripadvisor_Spider

项目4：36kr_Spider

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages