Skip to content

chenatu/zhihu-spider

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

1 Commit
 
 
 
 

Repository files navigation

知乎爬虫

在python3上利用urllib与BeautifulSoup开发的最简单的知乎(www.zhihu.com)爬虫

getTopics()可以获得所有的以及topic信息

getSubTopicsgetSubTopic或者一级话题下面的所有子话题以及第一子话题。第一子话题是与该话题一致的大类话题

getTopicBestPeople()获得自话题下的最佳回答者

getPersonInfo()获取回答者基本信息

getAnswerByDefaultOrder()用来获取某人按照点赞数排序的某条答案

getAnswerContent()用来获取某条答案的详细内容

需要注意的是,知乎貌似会屏蔽连续对知乎的访问,所以需要请求之间有一个等待延时。

同时,知乎的某些网页以及网页的某些组件对未登录用户是不公开的,所以需要进行登陆,将cookies获取到之后放入程序的全局headers变量中

最后,urllib并不是一个很好的爬虫,再运行一段时间后有可能会出现程序假死,要么增加try catch进行重试,要么可以采用更高效的scrapy框架

About

利用urllib做的简单知乎爬虫

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages