Skip to content

关于整理练习的一些爬虫小项目,从自己的理解去建模,同时对爬虫和解析模块分类

Notifications You must be signed in to change notification settings

pasca520/Python3SpiderSet

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

9 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Python3SpiderSet

本文目录

  • 一、内容社区

  • 二、购物网站

      1. 淘宝商品
      1. 京东商品
  • 三、视频网站

      1. B站
      1. 抖音
  • 四、新闻网站

    • 头条
  • 五、房源

      1. 安居客
      1. 自如
      1. 58同城
      1. 贝壳找房
  • 六、招聘信息

      1. IT桔子
      1. Boss 直聘
      1. 前程无忧
  • 七、企业服务

      1. IT桔子
      1. 天眼查
  • 八、最爱

      1. 大众点评
      1. 12306

前言

关于整理日常练习的一些爬虫小练习,可用作学习使用。

项目集对爬取和解析模块分类,简单分类主要以下几点:

简单 中等 进阶
爬取模块 request selenium scrapy
解析模块 xpath、ajax的json 接口 css 选择器(BeautifulSoup等等) 正则表达式re
存储模块 文件(txt、csv 等等) 云存储 SQL

爬虫练手项目集

一、内容社区

1. 知乎

知乎图片

知乎上有很多钓鱼贴,也成功的钓上了很多鱼,你懂的~~~ 这里通过 python 爬了一些图片,总共大概有十几万张,仅供练习使用:

示例 python 库
爬取模块 request
解析模块 re
存储类型 存储图片到本地&七牛云存储

参考知乎文章(回答数平均3k以上):

接口返回的 json 数据 content 模块中,包含图片的有四个参数,被包含在

<figure>
 <noscript>
 <img src='用户ID水印图片' data-default-watermark-src='知乎 logo水印图片' data-original='用户ID水印图片'/>
  </noscript>
<img src=继承  data-default-watermark-src='知乎 logo水印图片' data-original='用户ID水印图片'/>
</figure>

分别是「img src、data-default-watermark-src、data-original、data-actualsrc」。 其中noscript标签是某些浏览器把Javascript禁用了才生效的,默认不生效。

不足:

  • 因为仅仅学习使用,所以只开单线程模式,未开启多线程加速
  • 对于错误异常未能很好的处理,我运行时没遇到

知乎用户信息

2. 豆瓣

豆瓣电影排行榜

示例 python 库
爬取模块 request
解析模块 BeautifulSoup
存储类型 list(方便存入数据库)

3. 猫眼

猫眼电影排行榜

示例 python 库
爬取模块 request
解析模块 xpath
存储类型 文件(txt)

代码链接

二、购物网站

1. 淘宝商品

2. 京东商品

三、视频网站

1. B站

2. 抖音

四、新闻网站

头条

五、房源

1. 安居客

2. 自如

3. 58同城

4. 贝壳找房

六、招聘信息

1. IT桔子

2. Boss 直聘

3. 前程无忧

七、企业服务

1. IT桔子

2. 天眼查

八、最爱

1. 大众点评

2. 12306

About

关于整理练习的一些爬虫小项目,从自己的理解去建模,同时对爬虫和解析模块分类

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages