Skip to content

yitian-reevo/PythonCrawlers

Repository files navigation

Python爬虫汇总

这里我整理了一些我从学习写Python爬虫以来做的一些勉强拿的出手的项目,会伴随一些简单的介绍。我会从最新的开始整理,因此如果你发现代码的质量越来越差……相信我,学习是个衍变的过程。

每个项目我都同步写过文档,一并附上。

分布式全站爬取kuku漫画

博客文档: 使用scrapy_redis进行kuku漫画全站爬取

关键词:Python3.6, scrapy, scrapy_redis, redis

使用scrapy_redis对kuku漫画进行全站爬取,结果保存到redis中,起了9个实例,每个请求并发数为16,峰值大约为一个小时27万。

全站爬取kuku漫画

博客文档: 使用pyspider进行kuku漫画全站爬取

关键词:pyspider

使用pysider对kuku漫画进行全站爬取,为时2天不到,单实例,请求峰值大约为一小时7W。

爬取动漫屋

博客文档: 爬取动漫屋

关键词:Python 3.6, requests, re, BeautifulSoup, 用js混淆js

爬取搜索页面下所有的漫画,以图片形式保存到本地。(实现核心代码)

分布式爬虫抓取空气质量指数

博客文档: 使用celery构建分布式爬虫抓取空气质量指数

关键词:Python 3.6, celery, BeautifulSoup, re, requests

使用celery消息队列实现空气质量指数的分布式爬取。

抓取空气质量指数

博客文档: 使用协程抓取空气质量指数

关键词:Python 3.6, 协程, BeautifulSoup, re, aiohttp, asyncio

使用Python获取天气信息

博客文档: 使用Python获取天气信息

关键词:Python 3.6,requests, BeautifulSoup, re, sqlite3, ast

使用Python获取12306余票信息和票价

博客文档: 使用Python获取12306余票信息和票价

关键词:Python 3.6, requests, json, sqlite3, prettytalbe, colorama

爬虫之刺 - 验证码

博客文档:

关键词:tesserocr, numpy, PIL, matplotlib, claptcha, cv2

这是研究验证码时的所记录的笔记,算是一个系列的。大多数涉及到的代码我都自己写了,比如说:灰度二值化、连通图、字符分割、倾斜校正、样本训练等,没实现的有滴水算法,去除干扰线(确切地说是能成功去除干扰线的算法,我写了一个利用连通域去除干扰先的算法,但是用起来效果都不怎么样)。样本训练我也做了,但是个人觉得有点不属于爬虫的范畴了,比如识图验证码,更多的可能是利用学习算法构建训练样本,因此就没有继续深入下去。

滑动验证码会在下文淘宝项目里仔细解释。

微博

博客文档:

攻克微博(1) - 模拟微博登陆

攻克微博(2) - 抓取关注和个人信息

关键词:Python 3.6, requests, re, RSA, base64, URLencode, bloomfilter, sqlite3

分析微博的登陆方式,模拟计算登陆请求所需要的参数,登陆成功获取Cookie。使用Cookie抓取微博用户的关注组和个人信息。预留抓取其他页面的接口,当时因为各种页面的抓取代码类似,没有全部实现。

斗鱼视频

博客文档: 斗鱼视频下载

关键词:Python 3.6, requests, re, progressbar

模拟手机请求,获取斗鱼视频碎片,下载并合并成完整视频。

二维码

博客文档: 码中码之图片之二维码

关键词:Python 3.6, PIL, qrcode

实现了两个功能:

  1. 将一个图片分割成九等份,满足强迫症发布朋友圈。
  2. 将二维码图片打印在命令行

爬取搜狗微信文章和公众号文章

博客文档: 爬取搜狗微信文章和公众号文章

关键词:Python 3.6, requests, BeautifulSoup, tomd

模拟搜狗搜索的微信文章请求,抓取请求的页面并转化为md文件保存到本地。也是这个项目让我萌生了自己写一个HTML转MD的库。

淘宝

博客文档:

模拟淘宝登陆获取初始Cookie

淘宝抓取所有订单

关键词:Python 3.6, requests, re, json, BeautifulSoup, PrettyTable, selenium, PhantomJS

实现账号密码和扫码两种登陆方式。其中账号密码登陆需要一个更可靠的鼠标轨迹模拟算法来通过极验的滑动验证码(非代码逻辑问题)。

登陆成功后获取Cookie,抓取我的订单页面下的所有历史订单。

百度贴吧

博客文档: 爬取百度某贴吧的精品贴

关键词:Python 3.6, requests, re, json, BeautifulSoup

如题。代码中爬取的是复仇者联盟吧所有的精品贴,保存为本地txt文件。

虾米音乐

博客文档: 虾米音乐下载

关键词:Python 3.6, requests, re, json, execjs

通过模拟请求获取音乐的下载地址,通过execjs执行js文件获取音乐文件的真实地址,下载音乐到本地。

网易云音乐

博客文档: 爬取网易云音乐我喜欢的音乐和热评

关键词:Python 3.6, requests, re, json, PrettyTable, sqlite3

今日头条

博客文档: 分析Ajax请求并抓取今日头条数据

关键词:Python 3.6, requests, json, re

抓取今日头条的搜索页面,模拟XHR请求获取所有的搜索结果(两种,图库或文章)并将所有图片保存到本地。

猫眼电影TOP100

博客文档: 使用Requests+正则表达式爬取猫眼电影TOP100

关键词:Python 3.6, requests, re, json

如题。

糗事百科

博客文档: 爬取糗事百科的内容和图片并展示

关键词:Python 3.6, urllib, hashlib, BeautifulSoup, tkinter, PIL

相当于一个离线糗百阅读器,除了丑陋一点以外。

爬取豆瓣Top250电影和灌篮高手漫画全集

博客文档: Scrapy - 爬取豆瓣Top250电影和灌篮高手漫画全集

这个当时还是个菜鸡,是照着别人的项目做的,主要学习了爬虫的基本抓取过程和scrapy的原理及其使用。

第一个爬虫和我的博客

博客文档: 第一个爬虫和我的博客

第一个爬虫,纪念一下。

附赠 - 用Python向Kindle推送电子书

博客文档: 用Python向Kindle推送电子书

关键词:Python 3.6, tkinter, smtp, pinyin

一个图形程序,功能如题。

About

A set of Python Crawlers

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published