该Python脚本仅用于爬取页面文本信息,作为语言训练的数据集所使用
本来是个人使用的,只用来爬贴吧,结果发现还能爬其他网页,于是干脆修改了一下。
基本上可以爬取大部分页面文本信息。
- 在爬取后可进行去重、删除带有关键字词的文本。
- 爬取配置操作简易。
- 可绕过(至少能绕过百度的)身份验证环节。
- 爬取的结果乱序。
- 部分页面爬取的内容无法换行。
- 一次仅能抓取一类标签的文本。
使用“选取页面中的元素”工具,查看你想爬取内容的一部分的源码。
找到类似 div id = "A" class="B" 的内容,其中id、class是标签,"A""B"是标签的具体名
Q: 爬取后的输出为空文本。
A: 可能被身份验证环节拦截了,可以在Chrome加载页面后的代码加入一个input()之类的,完成身份验证后重新运行。当然也有可能标签填写错误,导致找不到要爬取的内容。
Q: 有的标签具体名的结尾加了空格,我也需要加上么?
A: 我自己的试的时候是不用加的。