Skip to content

wzqnls/zhihu_spider

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

27 Commits
 
 
 
 
 
 
 
 

Repository files navigation

zhihu_spider

此项目的主要目的是通过不同的spider爬取知乎的数据,目前的项目架构scrapy+django+mysql,将scrapy集成到django中,方面了model的编写以及复用。

此项目的基础模块已编写完成,其中包括知乎的登录,cookies的保存及自动获取等。目前只需要添加不同的spider即可完成不同维度爬虫的扩展。

后期会陆续引如其他组件,以提高整体爬虫的性能。

遗留问题

  • windows下一个莫名报错路径问题,ubuntu下无任何问题
  • 验证码的自动识别问题

目前项目简单架构图

test.jpg

接下来需要做的几件事:

  • 通过不同维度编写spider爬取知乎数据
  • 完善基础模块提升爬虫的稳定性及爬取性能
  • 通过django编写rest API或者view(这个脑洞就大了)

About

对知乎进行全站爬取

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages