In [1]:
#创建一个网络爬虫来抓取 http://www.pythonscraping.com/pages/warandpeace.html 这个网页
#在这个页面里，小说人物的对话内容都是红色的，人物名称都是绿色的
#网页源代码里的 span 标签引用了对应的 CSS（层叠样式表cascading style sheet） 属性
#CSS 可以让 HTML 元素呈现出差异化，使那些具有完全相同修饰的元素呈现出不同的样式

In [1]:
from urllib.request import urlopen
from bs4 import BeautifulSoup

In [2]:
html = urlopen('http://www.pythonscraping.com/pages/warandpeace.html')
bs = BeautifulSoup(html.read(), 'html.parser')

In [7]:
nameList = bs.find_all('span', {'class':'green'}) #获取所有绿色的文字（绿色代表人名）
for name in nameList:
    print(name.get_text()) #.get_text() 会清除你正在处理的 HTML 文档中的所有标签，然后返回一个只包含文字的 Unicode 字符串
    #一般情况下，你应该尽可能地保留 HTML 文档的标签结构

Anna
Pavlovna Scherer
Empress Marya
Fedorovna
Prince Vasili Kuragin
Anna Pavlovna
St. Petersburg
the prince
Anna Pavlovna
Anna Pavlovna
the prince
the prince
the prince
Prince Vasili
Anna Pavlovna
Anna Pavlovna
the prince
Wintzingerode
King of Prussia
le Vicomte de Mortemart
Montmorencys
Rohans
Abbe Morio
the Emperor
the prince
Prince Vasili
Dowager Empress Marya Fedorovna
the baron
Anna Pavlovna
the Empress
the Empress
Anna Pavlovna's
Her Majesty
Baron
Funke
The prince
Anna
Pavlovna
the Empress
The prince
Anatole
the prince
The prince
Anna
Pavlovna
Anna Pavlovna


# BeautifulSoup的find()和find_all()

In [8]:
#find_all(tag, attributes, recursive, text, limit, keywords)
#标签参数 tag ：传递一个标签的名称或多个标签名称组成的 Python 列表做标签参数
#属性参数 attributes ：用一个 Python 字典封装一个标签的若干属性和对应的属性值
#递归参数 recursive ：是一个布尔变量。你想抓取 HTML 文档标签结构里多少层的信息？如果 recursive 设置为 True， find_all 就会根据你的要求去查找标签参数的所有子标签，以及子标签的子标签。如果 recursive 设置为 False， find_all 就只查找文档的一级标签
#文本参数 text ：有点不同，它是用标签的文本内容去匹配，而不是用标签的属性
#范围限制参数 limit ：显然只用于 find_all 方法。 find(tag, attributes, recursive, text, keywords) 其实等价于 limit 等于 1 时的 find_all 。如果你想获取网页中的前 x 项结果，就可以设置它
#关键词参数 keyword ：可以让你选择那些具有指定属性的标签

In [9]:
#虽然关键词参数 keyword 在一些场景中很有用，但是，它实际上是一个冗余的 BeautifulSoup 功能。任何用关键词参数能够完成的任务，同样可以用本章后面将介绍的技术解决
#例如，下面两行代码是完全一样的：
#bs.find_all(id='text')
#bs.find_all('', {'id':'text'})
#另外，用 keyword 偶尔会出现问题，尤其是在用 class 属性查找标签的时候，因为 class 是 Python 中受保护的关键字
#使用 class 时应该增加一个“_”，例如 bs.find_all(class_='green') 或者 bs.find_all('', {'class':'green'})

# BeautifulSoup对象

In [10]:
#BeautifulSoup对象：前面代码示例中的 bs
#标签Tag对象： BeautifulSoup 对象通过 find 和 find_all，或者直接调用子标签获取的一列对象或单个对象，就像： bs.div.h1
#NavigableString对象：用来表示标签里的文字，而不是标签本身（有些函数可以操作和生成 NavigableString对象，而不是标签对象）
#Comment对象：用来查找 HTML 文档的注释标签， <!-- 像这样 -->

# 导航树

In [11]:
#find_all 函数通过标签的名称和属性来查找标签
#如果需要通过标签在文档中的位置来查找标签，可以使用导航树（navigating trees）

In [17]:
#1、子标签和后代标签

In [12]:
#在 BeautifulSoup 库里， 孩子（child）和后代（descendant）有显著的不同：和人类的家谱一样，子标签就是父标签的下一级，而后代标签是指父标签下面所有级别的标签
#例如， tr 标签是 table 标签的子标签，而 tr、 th、 td、 img 和 span 标签都是table 标签的后代标签
#所有的子标签都是后代标签，但不是所有的后代标签都是子标签

In [13]:
#一般情况下， BeautifulSoup 函数总是处理当前标签的后代标签。例如， bs.body.h1 选择了 body 标签后代里的第一个 h1 标签，不会去找 body 外面的标签

In [14]:
html = urlopen('http://www.pythonscraping.com/pages/page3.html')
bs = BeautifulSoup(html, 'html.parser')

for child in bs.find('table',{'id':'giftList'}).children: #使用.children 标签保证只打印子标签而不是全部的后代标签
    print(child)
#如果你用 descendants() 函数而不是 children() 函数，那么就会打印出二十几个标签，包括 img 标签、 span 标签，以及每个 td 标签



<tr><th>
Item Title
</th><th>
Description
</th><th>
Cost
</th><th>
Image
</th></tr>


<tr class="gift" id="gift1"><td>
Vegetable Basket
</td><td>
This vegetable basket is the perfect gift for your health conscious (or overweight) friends!
<span class="excitingNote">Now with super-colorful bell peppers!</span>
</td><td>
$15.00
</td><td>
<img src="../img/gifts/img1.jpg"/>
</td></tr>


<tr class="gift" id="gift2"><td>
Russian Nesting Dolls
</td><td>
Hand-painted by trained monkeys, these exquisite dolls are priceless! And by "priceless," we mean "extremely expensive"! <span class="excitingNote">8 entire dolls per set! Octuple the presents!</span>
</td><td>
$10,000.52
</td><td>
<img src="../img/gifts/img2.jpg"/>
</td></tr>


<tr class="gift" id="gift3"><td>
Fish Painting
</td><td>
If something seems fishy about this painting, it's because it's a fish! <span class="excitingNote">Also hand-painted by trained monkeys!</span>
</td><td>
$10,005.00
</td><td>
<img src="../img/gifts/img3.jpg"/>


In [18]:
#2、兄弟标签

In [15]:
#BeautifulSoup 的 next_siblings() 函数使得从表格中收集数据非常简单，尤其是带标题行的表格
#打印产品表格里所有行的产品，第一行表格标题除外
#为什么标题行被跳过了呢？对象不能是自己的兄弟标签。任何时候你获取一个标签的兄弟标签，都不会包含这个标签本身。正如函数名本身揭示的，这个函数只调用后面的兄弟标签
for sibling in bs.find('table', {'id':'giftList'}).tr.next_siblings:
    print(sibling)



<tr class="gift" id="gift1"><td>
Vegetable Basket
</td><td>
This vegetable basket is the perfect gift for your health conscious (or overweight) friends!
<span class="excitingNote">Now with super-colorful bell peppers!</span>
</td><td>
$15.00
</td><td>
<img src="../img/gifts/img1.jpg"/>
</td></tr>


<tr class="gift" id="gift2"><td>
Russian Nesting Dolls
</td><td>
Hand-painted by trained monkeys, these exquisite dolls are priceless! And by "priceless," we mean "extremely expensive"! <span class="excitingNote">8 entire dolls per set! Octuple the presents!</span>
</td><td>
$10,000.52
</td><td>
<img src="../img/gifts/img2.jpg"/>
</td></tr>


<tr class="gift" id="gift3"><td>
Fish Painting
</td><td>
If something seems fishy about this painting, it's because it's a fish! <span class="excitingNote">Also hand-painted by trained monkeys!</span>
</td><td>
$10,005.00
</td><td>
<img src="../img/gifts/img3.jpg"/>
</td></tr>


<tr class="gift" id="gift4"><td>
Dead Parrot
</td><td>
This is an ex-parr

In [16]:
#如果想让你的爬虫更稳定，最好还是让标签的选择更加具体。如果有属性，就利用标签的属性

In [19]:
#3、父标签

In [21]:
#打印 ../img/gifts/img1.jpg 这个图片所对应商品的价格（这个示例中价格是 $15.00）
#首先选择图片标签 src="../img/gifts/img1.jpg"
#选择图片标签的父标签（在示例中是 td 标签）
#选择 td 标签的前一个兄弟标签 previous_sibling（在示例中是包含美元价格的 td 标签）
#选择标签中的文字，“$15.00”
print(bs.find('img',{'src':'../img/gifts/img1.jpg'}).parent.previous_sibling.get_text())


$15.00



# 正则表达式

In [22]:
#之所以叫正则表达式，是因为它们可以识别正则字符串（regular string）；也就是说，它们可以这么定义：“如果你给我的字符串符合规则，我就返回它”，或者是“如果字符串不符合规则，我就忽略它”
#正则字符串就是任意可以用一系列线性规则构成的字符串

In [23]:
#常用的正则表达式符号
#“*”：匹配前面的字符、子表达式或括号里的字符 0 次或多次，例如：a*b*
#“+”：匹配前面的字符、子表达式或括号里的字符至少 1 次。例如：a+b+
#“[]”：匹配中括号里的任意一个字符（相当于“任选一个”），例如：[A-Z]*
#“()”：表达式编组（在正则表达式的规则里编组会优先运行），例如：(a*b)*
#“{m,n}”：匹配前面的字符、子表达式或括号里的字符 m 到 n 次（包含 m 或 n），例如：a{2,3}b{2,3}
#“[^]”：匹配任意一个不在中括号里的字符，例如：[^A-Z]*
#“|”：匹配任意一个由竖线分割的字符、子表达式（注意是竖线，不是大字字母 I），例如：b(a|i|e)d
#“.”：匹配任意单个字符（包括符号、数字和空格等），例如：b.d
#“^”：指字符串开始位置的字符或子表达式，例如：^a
#“\”：转义字符（把有特殊含义的字符转换成字面形式），例如：\.\|\\
#“$”：经常用在正则表达式的末尾，表示“从字符串的末端匹配”。如果不用它，每个正则表达式实际都带着“.*”模式，只会从字符串开头进行匹配。这个符号可以看成是 ^ 符号的反义词，例如：[A-Z]*[a-z]*$
#“?!”：“不包含”。这个奇怪的组合通常放在字符或正则表达式前面，表示字符不能出现在目标字符串里。这个符号比较难用，毕竟字符通常会在字符串的不同部位出现。如果要在整个字符串中彻底排除某个字符，就加上 ^ 和 $ 符号，例如：^((?![A-Z]).)*$

In [24]:
#正则表达式的一个常用应用：识别邮箱地址
#邮箱地址的第一部分至少包括一种内容：大写字母、小写字母、数字 0-9、点号（.）、加号（+）或下划线（_）
#之后，邮箱地址会包含一个 @ 符号
#在符合 @ 之后，邮箱地址还必须至少包含一个大写或小写字母
#之后跟一个点号（.）
#最后邮箱地址用 com、 org、 edu、 net 结尾
#[A-Za-z0-9\._+]+@[A-Za-z]+\.(com|org|edu|net)

# 正则表达式和BeautifulSoup

In [26]:
#如果我们想抓取所有图片的 URL 链接，非常直接的做法就是用 find_all("img") 抓取所有图片
#但是有个问题。除了那些明显“多余的”图片（比如 LOGO）之外，现代网站里都有一些隐藏的图片、用于网页布局留白和元素对齐的空白图片
#网页的布局也可能会变化，或者，因为某些原因，我们不想通过图片在网页中的位置来查找标签

In [27]:
import re

In [28]:
#商品图片的源代码形式如下：<img src="../img/gifts/img3.jpg">

In [29]:
#直接通过商品图片的文件路径来查找信息
images = bs.find_all('img', {'src':re.compile('\.\.\/img\/gifts\/img.*\.jpg')})
for image in images:
    print(image['src'])

../img/gifts/img1.jpg
../img/gifts/img2.jpg
../img/gifts/img3.jpg
../img/gifts/img4.jpg
../img/gifts/img6.jpg


# 获取属性

In [30]:
#在抓取网页时你经常不需要查找标签的内容，而是需要查找标签属性
#对于一个标签对象，可以用下面的代码获取它的全部属性：myTag.attrs

# Lambda表达式

In [31]:
#Lambda 表达式本质上就是一个函数，可以作为变量传入另一个函数
#也就是说，一个函数不是定义成 f(x, y)，而是可以定义成 f(g(x), y) 或 f(g(x), h(y)) 的形式
#Lambda 函数可以是任意返回 True 或者 False 值的函数

In [32]:
#BeautifulSoup 允许我们把特定类型的函数作为参数传入 find_all 函数,唯一的限制条件是这些函数必须把一个标签对象作为参数并且返回布尔类型的结果

In [33]:
#作为参数传入的函数是 len(tag.attrs) == 2
#当该参数为真时， find_all 函数将返回 tag，即找出带有两个属性的所有标签
bs.find_all(lambda tag: len(tag.attrs) == 2)

[<img src="../img/gifts/logo.jpg" style="float:left;"/>,
 <tr class="gift" id="gift1"><td>
 Vegetable Basket
 </td><td>
 This vegetable basket is the perfect gift for your health conscious (or overweight) friends!
 <span class="excitingNote">Now with super-colorful bell peppers!</span>
 </td><td>
 $15.00
 </td><td>
 <img src="../img/gifts/img1.jpg"/>
 </td></tr>,
 <tr class="gift" id="gift2"><td>
 Russian Nesting Dolls
 </td><td>
 Hand-painted by trained monkeys, these exquisite dolls are priceless! And by "priceless," we mean "extremely expensive"! <span class="excitingNote">8 entire dolls per set! Octuple the presents!</span>
 </td><td>
 $10,000.52
 </td><td>
 <img src="../img/gifts/img2.jpg"/>
 </td></tr>,
 <tr class="gift" id="gift3"><td>
 Fish Painting
 </td><td>
 If something seems fishy about this painting, it's because it's a fish! <span class="excitingNote">Also hand-painted by trained monkeys!</span>
 </td><td>
 $10,005.00
 </td><td>
 <img src="../img/gifts/img3.jpg"/>
 </td>