如果大家对 Python 爬虫有所了解的话，想必你应该听说过 Selenium 这个库，这实际上是一个自动化测试工具，现在已经被广泛用于网络爬虫中来应对 JavaScript 渲染的页面的抓取。 但 Selenium 用的时候有个麻烦事，就是环境的相关配置，得安装好相关浏览器，比如 Chrome、Firefox 等等，然后还要到官方网站去下载对应的驱动，最重要的还需要安装对应的 Python Selenium 库，确实是不是很方便，另外如果要做大规模部署的话，环境配置的一些问题也是个头疼的事情。 

那么本节就介绍另一个类似的替代品，叫做 Pyppeteer。注意，是叫做 Pyppeteer，不是 Puppeteer。

Puppeteer 是 Google 基于 Node.js 开发的一个工具，**有了它我们可以通过 JavaScript 来控制 Chrome 浏览器的一些操作，当然也可以用作网络爬虫上，其 API 极其完善**，功能非常强大。 

而 Pyppeteer 又是什么呢？它实际上是 Puppeteer 的 Python 版本的实现，但他不是 Google 开发的，是一位来自于日本的工程师依据 Puppeteer 的一些功能开发出来的非官方版本。 **在 Pyppetter 中，实际上它背后也是有一个类似 Chrome 浏览器的 Chromium 浏览器在执行一些动作进行网页渲染**。Pyppeteer 就是依赖于 Chromium 这个浏览器来运行的。

那么有了 Pyppeteer 之后，我们就可以免去那些繁琐的环境配置等问题。如果第一次运行的时候，Chromium 浏览器没有安全，那么程序会帮我们自动安装和配置，就免去了繁琐的环境配置等工作。另外 Pyppeteer 是基于 Python 的新特性 async 实现的，所以它的一些执行也**支持异步操作**，效率相对于 Selenium 来说也提高了。

In [6]:
import asyncio
from pyppeteer import launch
from pyquery import PyQuery as pq
import nest_asyncio
nest_asyncio.apply()

async def main():
    browser = await launch()
    page = await browser.newPage()
    await page.goto('http://quotes.toscrape.com/js/')
    doc = pq(await page.content())
    print(doc)
    print('Quotes:', doc('.quote').length)
    await browser.close()

asyncio.get_event_loop().run_until_complete(main())

<html lang="en"><head>
	<meta charset="UTF-8"/>
	<title>Quotes to Scrape</title>
    <link rel="stylesheet" href="/static/bootstrap.min.css"/>
    <link rel="stylesheet" href="/static/main.css"/>
</head>
<body>
    <div class="container">
        <div class="row header-box">
            <div class="col-md-8">
                <h1>
                    <a href="/" style="text-decoration: none">Quotes to Scrape</a>
                </h1>
            </div>
            <div class="col-md-4">
                <p>
                
                    <a href="/login">Login</a>
                
                </p>
            </div>
        </div>
    
<script src="/static/jquery.js"/>
<script>
    var data = [
    {
        "tags": [
            "change",
            "deep-thoughts",
            "thinking",
            "world"
        ],
        "author": {
            "name": "Albert Einstein",
            "goodreads_link": "/author/show/9810.Albert_Einstein",
            "slug": "Albert-Eins

在这个过程中，我们**没有配置 Chrome 浏览器**，**没有配置浏览器驱动**，免去了一些繁琐的步骤，同样达到了 Selenium 的效果，还实现了**异步抓取**

> 模拟网页截图，保存 PDF，另外还可以执行自定义的 JavaScript 获得特定的内容

In [7]:
import asyncio
from pyppeteer import launch

async def main():
    browser = await launch()
    page = await browser.newPage()
    await page.goto('http://quotes.toscrape.com/js/')
    await page.screenshot(path='example.png')
    await page.pdf(path='example.pdf')
    dimensions = await page.evaluate('''() => {
        return {
            width: document.documentElement.clientWidth,
            height: document.documentElement.clientHeight,
            deviceScaleFactor: window.devicePixelRatio,
        }
    }''')

    print(dimensions)
    await browser.close()

asyncio.get_event_loop().run_until_complete(main())

{'width': 800, 'height': 600, 'deviceScaleFactor': 1}


In [8]:
from pyppeteer import launch

def main():
    browser = launch()
    page = browser.newPage()
    page.goto('http://quotes.toscrape.com/js/')
    page.screenshot(path='example.png')
    page.pdf(path='example.pdf')
    dimensions = page.evaluate('''() => {
        return {
            width: document.documentElement.clientWidth,
            height: document.documentElement.clientHeight,
            deviceScaleFactor: window.devicePixelRatio,
        }
    }''')

    print(dimensions)
    browser.close()

main()

AttributeError: 'coroutine' object has no attribute 'newPage'

In [15]:
import asyncio
from pyppeteer import launch

async def main():
    browser = await launch(headless=False, devtools=True, args=['--disable-infobars'])
    page = await browser.newPage()
    await page.goto('https://www.baidu.com')
    await asyncio.sleep(5)

asyncio.get_event_loop().run_until_complete(main())

In [20]:
import asyncio
from pyppeteer import launch

async def main():
    browser = await launch(headless=False, userDataDir='./userdata', args=['--disable-infobars'])
    page = await browser.newPage()
    await page.goto('https://www.taobao.com')
    await asyncio.sleep(5)

asyncio.get_event_loop().run_until_complete(main())