Skip to content

Mrrrrr10/Scrapy_Spider

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

8 Commits
 
 
 
 
 
 
 
 

Repository files navigation

⭐Scrapy_Spider

基于scrapy的爬虫

项目列表

  1. 项目1:Amazon_Spider
  2. 项目2:Lianjia_Spider
  3. 项目3:Tripadvisor_Spider
  4. 项目4:36kr_Spider

项目描述:

项目1:Amazon_Spider

  • 需求:爬取中国亚马逊的海外购所有类目热销排名的商品详情,用户评论,并对数据清洗后写入mongodb
  • 用法scrapy crawl amazon
  • 成果Comment Product
  • 后续工作:可以对某一类特定的商品的评论进行数据分析、可视化

项目2:Lianjia_Spider

  • 需求:爬取广州链家二手房成功成交的订单数据
  • 用法scrapy crawl lianjia
  • 成果lianjia
  • 后续工作:可以长期抓取数据,进行房价的数据分析
  • 需求:爬取猫头鹰tripadvisor Top25热门景点的酒店详情,对应的用户地址,并对数据清洗后写入mongodb,进行数据分析、可视化
  • 用法scrapy crawl tripadvisor
  • 成果tripadvisor tripadvisor
  • 后续工作:可以抓取某一特定国家的用户,进行用户信息抓取和行为分析
  • 不足:代码结构需要调整一下,还有就是用户的地址,举个例子:有些用户填写London、有些用户填写london、有些填写United Kingdom,很明显这种都属于英国,这样就会造成分析的障碍。

项目4:36kr_Spider

  • 需求:爬取36kr旗下的鲸准创投网站的创投企业详情,并对数据清洗后写入mongodb,进行数据分析、可视化
  • 说明:由于网页版的爬虫需要身份认证后才能爬取到企业信息,所以把目标转向客户端,我这里用的时创投助手这个app,需要登陆后用抓包工具charles进行分析url,发现虽然需要登陆,但是返回数据的url不需要cookie就可以访问,所以直接访问抓取就好了。
  • 用法scrapy crawl Jingzhun_36kr
  • 数据可视化address 企业分布 投资轮数 类型1 类型2 类型3
  • 后续工作:可以根据服务类型进一步细分

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published