以下几个模块能使得在 Python 中抓取网页变得容易：

* webbrowser：是 Python 自带的，打开浏览器获取指定页面。

* requests：从因特网上下载文件和网页。

* Beautiful Soup：解析 HTML，即网页编写的格式。

* selenium：启动并控制一个 Web 浏览器。selenium 能够填写表单，并模拟鼠标在这个浏览器中点击。

In [1]:
import webbrowser

In [2]:
webbrowser.open('http://www.google.com')

True

## 项目：利用webbrowser模块自动进行google搜索

In [4]:
import webbrowser, pyperclip

address = pyperclip.paste()

webbrowser.open('https://www.google.com/search?q=' + address)

True

## 用 requests 模块从 Web 下载文件

In [5]:
import requests

requests.get()函数接受一个要下载的 URL 字符串，返回一个 Response 对象，其中包含了 Web 服务器对你的请求做出的响应。

In [6]:
res = requests.get('https://www.gutenberg.org/cache/epub/1112/pg1112.txt')
type(res)

requests.models.Response

如果 Response 对象的 status_code 属性的值等于 requests.codes.ok，那么表示对这个网页的请求是成功的。

如果请求成功，下载的页面就作为一个字符串，保存在 Response 对象的 text 变量中。

In [7]:
res.status_code == requests.codes.ok

True

In [8]:
len(res.text)

179380

In [10]:
print(res.text[:350])

﻿The Project Gutenberg EBook of Romeo and Juliet, by William Shakespeare


*******************************************************************
THIS EBOOK WAS ONE OF PROJECT GUTENBERG'S EARLY FILES PRODUCED AT A
TIME WHEN PROOFING METHODS AND TOOLS WERE NOT WELL DEVELOPED. THERE
IS AN IMPROVED EDITION OF THIS TITLE WHICH MAY BE VIEWED AS EBOOK


检查文件是否下载成功，也可以使用 raise_for_status() 方法。这是是一种很好的方式，确保程序在下载失败时停止

In [11]:
res.raise_for_status()

用标准的 open()函数和 write()方法，将 Web 页面保存到硬盘中的一 个文件。但是，这里必须用“写二进制”模式打开该文件， 即向函数传入字符串'wb'，作为 open()的第二参数。即使该页面是纯文本的也需要写入二进制数据，而不是文本数据， 目的是为了保存该文本中的“Unicode 编码”。

In [12]:
playFile = open('RomeoAndJuliet.txt', 'wb')
for chunk in res.iter_content(1000000):
    playFile.write(chunk)

## 用 BeautifulSoup 模块解析 HTML

BeautifulSoup 模块的名称是 bs4（表示 Beautiful Soup， 第 4 版）。虽然安装时使用的名字是 beautifulsoup4，但要导入它，就使用 import bs4。

In [22]:
import requests, bs4
res = requests.get('https://nostarch.com/')
res.raise_for_status()

In [23]:
noStarchSoup = bs4.BeautifulSoup(res.text)

In [24]:
res.raise_for_status()

In [25]:
len(res.text)

62503

In [26]:
print(res.text[:500])

<!DOCTYPE html>
<html lang="en" dir="ltr" xmlns:og="http://ogp.me/ns#">
<head>
<script src="/cdn-cgi/apps/head/j5v88GAcO1Pymf91CQYvgLZqNao.js"></script><link rel="profile" href="https://www.w3.org/1999/xhtml/vocab" />
<meta name="viewport" content="width=device-width, initial-scale=1.0">
<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
<link rel="shortcut icon" href="https://nostarch.com/sites/default/files/favicon.ico" type="image/vnd.microsoft.icon" />
<meta name="generato


In [39]:
pElems = noStarchSoup.select('span')
len(pElems)

39

In [43]:
pElems[5]

<span class="btn-text">Topics</span>

In [45]:
pElems[5].get('class')

['btn-text']

In [46]:
pElems[5].attrs

{'class': ['btn-text']}