Skip to content

irimsky/Ctrip_Crawler

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

6 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Ctrip_Crawler 携程景点爬虫

image-20210313235926448

image-20210314000428177

  • 爬取的是 携程移动端 的数据(景点数据以及评论)

  • 修改config.ini中的配置可以改变目标城市(默认北京)以及爬取模式

  • 爬取结果有两部分:data/poi.csv景点数据data/comment/{id}.csv为对应ID的景点的评论数据

  • 评论内容的爬取有两种方法:

    • config.ini中的isCrawlComment置为1,运行poi_crawl.py文件,在爬取 景点数据 的过程中爬取 评论数据
    • config.ini中的isCrawlComment置为0,运行poi_crawl.py文件,在爬取 景点数据 结束后运行再运行comment_crawl.py文件,获取 景点数据 中的所有景点的评论
  • 每次运行前都会在同一文件夹下复制一份上一次爬取的景点结果的备份,名为back.csv

  • 数据中 价格最低价格为response中的数据,暂无参考价值

  • 后面四种人群门票价格为预估的销量加权平均价格,如果有不同需求可以修改 GetTicketPrice 函数。(返回的数据为所有的门票价格)

  • 景点数据中的开放时间优惠政策 数据的格式为json格式

  • 爬取的 评论数据 格式为:

    • 用户ID
    • 评论文本
    • 发送时间戳
    • 赞同数

TODO:

后续可能会支持:

输入城市名称自动获取城市编号 (√) 如果上次爬取过程中断可以从断点处开始爬取 (√)

About

爬取携程景点数据与评论

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages