- 在这里下载
webdriver
,并根据你的系统把所下载的东西放到./chromedriver_mac64
或者./chromedriver_win32
中。 - 进入欲爬取的用户主页,点击回答标签栏,如:https://www.zhihu.com/people/<欲爬取的知乎用户ID>/answers?page=<页数>
- 按
F12
,把body
标签的内容都复制到pageHtml.html中。 - 命令行运行
python main.py
,按提示输入内容后,即可开始爬取。 - 爬取到的回答内容将会整理成
.md
文件保存到./result
文件夹中。
- 使用太频繁有可能被知乎检测到。
./removeHyperlinks.py
是用于清除知乎内置超链接的小脚本,与爬虫无关。