-
一、内容社区
-
二、购物网站
-
- 淘宝商品
-
- 京东商品
-
-
三、视频网站
-
- B站
-
- 抖音
-
-
四、新闻网站
- 头条
-
五、房源
-
- 安居客
-
- 自如
-
- 58同城
-
- 贝壳找房
-
-
六、招聘信息
-
- IT桔子
-
- Boss 直聘
-
- 前程无忧
-
-
七、企业服务
-
- IT桔子
-
- 天眼查
-
-
八、最爱
-
- 大众点评
-
- 12306
-
关于整理日常练习的一些爬虫小练习,可用作学习使用。
项目集对爬取和解析模块分类,简单分类主要以下几点:
简单 | 中等 | 进阶 | |
---|---|---|---|
爬取模块 | request | selenium | scrapy |
解析模块 | xpath、ajax的json 接口 | css 选择器(BeautifulSoup等等) | 正则表达式re |
存储模块 | 文件(txt、csv 等等) | 云存储 | SQL |
知乎上有很多钓鱼贴,也成功的钓上了很多鱼,你懂的~~~ 这里通过 python 爬了一些图片,总共大概有十几万张,仅供练习使用:
示例 | python 库 |
---|---|
爬取模块 | request |
解析模块 | re |
存储类型 | 存储图片到本地&七牛云存储 |
参考知乎文章(回答数平均3k以上):
接口返回的 json 数据 content 模块中,包含图片的有四个参数,被包含在
<figure>
<noscript>
<img src='用户ID水印图片' data-default-watermark-src='知乎 logo水印图片' data-original='用户ID水印图片'/>
</noscript>
<img src=继承 data-default-watermark-src='知乎 logo水印图片' data-original='用户ID水印图片'/>
</figure>
分别是「img src、data-default-watermark-src、data-original、data-actualsrc」。 其中noscript标签是某些浏览器把Javascript禁用了才生效的,默认不生效。
不足:
- 因为仅仅学习使用,所以只开单线程模式,未开启多线程加速
- 对于错误异常未能很好的处理,我运行时没遇到
示例 | python 库 |
---|---|
爬取模块 | request |
解析模块 | BeautifulSoup |
存储类型 | list(方便存入数据库) |
示例 | python 库 |
---|---|
爬取模块 | request |
解析模块 | xpath |
存储类型 | 文件(txt) |