Python3SpiderSet

本文目录

一、内容社区
- 1.知乎
  - 知乎图片
  - 知乎用户信息
- 2.豆瓣
  - 豆瓣电影排行榜
- 3.猫眼
  - 猫眼电影排行榜
二、购物网站
- 1. 淘宝商品
- 1. 京东商品
三、视频网站
- 1. B站
- 1. 抖音
四、新闻网站
- 头条
五、房源
- 1. 安居客
- 1. 自如
- 1. 58同城
- 1. 贝壳找房
六、招聘信息
- 1. IT桔子
- 1. Boss 直聘
- 1. 前程无忧
七、企业服务
- 1. IT桔子
- 1. 天眼查
八、最爱
- 1. 大众点评
- 1. 12306

前言

关于整理日常练习的一些爬虫小练习，可用作学习使用。

项目集对爬取和解析模块分类，简单分类主要以下几点：

	简单	中等	进阶
爬取模块	request	selenium	scrapy
解析模块	xpath、ajax的json 接口	css 选择器（BeautifulSoup等等）	正则表达式re
存储模块	文件（txt、csv 等等）	云存储	SQL

爬虫练手项目集

一、内容社区

1. 知乎

知乎图片

知乎上有很多钓鱼贴，也成功的钓上了很多鱼，你懂的~~~ 这里通过 python 爬了一些图片，总共大概有十几万张，仅供练习使用：

示例	python 库
爬取模块	request
解析模块	re
存储类型	存储图片到本地&七牛云存储

参考知乎文章（回答数平均3k以上）：

接口返回的 json 数据 content 模块中，包含图片的有四个参数，被包含在

<figure>
 <noscript>
 <img src='用户ID水印图片' data-default-watermark-src='知乎 logo水印图片' data-original='用户ID水印图片'/>
  </noscript>
<img src=继承  data-default-watermark-src='知乎 logo水印图片' data-original='用户ID水印图片'/>
</figure>

分别是「img src、data-default-watermark-src、data-original、data-actualsrc」。其中noscript标签是某些浏览器把Javascript禁用了才生效的，默认不生效。

不足：

因为仅仅学习使用，所以只开单线程模式，未开启多线程加速
对于错误异常未能很好的处理，我运行时没遇到

知乎用户信息

2. 豆瓣

豆瓣电影排行榜

示例	python 库
爬取模块	request
解析模块	BeautifulSoup
存储类型	list（方便存入数据库）

3. 猫眼

猫眼电影排行榜

示例	python 库
爬取模块	request
解析模块	xpath
存储类型	文件（txt）

Name		Name	Last commit message	Last commit date
Latest commit History 9 Commits
.idea		.idea
README.md		README.md
douban_spider.py		douban_spider.py
maoYan_rank_spider.py		maoYan_rank_spider.py
zhihu_img_spider.py		zhihu_img_spider.py

pasca520/Python3SpiderSet

Folders and files

Latest commit

History

Repository files navigation

Python3SpiderSet

本文目录

前言

爬虫练手项目集

一、内容社区

1. 知乎

知乎图片

知乎用户信息

2. 豆瓣

豆瓣电影排行榜

3. 猫眼

猫眼电影排行榜

二、购物网站

1. 淘宝商品

2. 京东商品

三、视频网站

1. B站

2. 抖音

四、新闻网站

头条

五、房源

1. 安居客

2. 自如

3. 58同城

4. 贝壳找房

六、招聘信息

1. IT桔子

2. Boss 直聘

3. 前程无忧

七、企业服务

1. IT桔子

2. 天眼查

八、最爱

1. 大众点评

2. 12306

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages