In [1]:
from urllib.request import urlopen

html = urlopen('http://pythonscraping.com/pages/page1.html')
print(html.read())#调用html.read() 获取网页的HTML 内容

b'<html>\n<head>\n<title>A Useful Page</title>\n</head>\n<body>\n<h1>An Interesting Title</h1>\n<div>\nLorem ipsum dolor sit amet, consectetur adipisicing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat. Duis aute irure dolor in reprehenderit in voluptate velit esse cillum dolore eu fugiat nulla pariatur. Excepteur sint occaecat cupidatat non proident, sunt in culpa qui officia deserunt mollit anim id est laborum.\n</div>\n</body>\n</html>\n'


In [2]:
from urllib.request import urlopen
from bs4 import BeautifulSoup
html = urlopen("http://www.pythonscraping.com/pages/page1.html")
bsObj = BeautifulSoup(html.read())
print(bsObj.h1)
#从网页中提取的<h1> 标签被嵌在BeautifulSoup 对象bsObj 结构的第二层（html → body → h1）。但是，当我们从对象里提取h1 标签的时候，可以直接调用它：
bsObj.h1

<h1>An Interesting Title</h1>


<h1>An Interesting Title</h1>

In [3]:
#其实，下面的所有函数调用都可以产生同样的结果：
bsObj.html.body.h1
bsObj.body.h1
bsObj.html.h1

<h1>An Interesting Title</h1>

In [4]:
bsObj.body.h1

<h1>An Interesting Title</h1>

In [5]:
bsObj.html.h1

<h1>An Interesting Title</h1>

In [9]:
# 让我们看看爬虫import 语句后面的第一行代码，如何处理那里可能出现的异常：
# html = urlopen("http://www.pythonscraping.com/pages/page1.html")
# 这行代码主要可能会发生两种异常：
# • 网页在服务器上不存在（或者获取页面的时候出现错误）
# • 服务器不存在
# 第一种异常发生时，程序会返回HTTP 错误。HTTP 错误可能是“404 Page Not Found”“500Internal Server Error”等。
# 所有类似情形，urlopen 函数都会抛出“HTTPError”异常。我们可以用下面的方式处理这种异常：
try:
    html = urlopen("http://www.pythonscraping.com/pages/page1.html")
except HTTPError as e:
    print(e)
# 返回空值，中断程序，或者执行另一个方案
else:
    pass
# 程序继续。注意：如果你已经在上面异常捕捉那一段代码里返回或中断（break），
# 那么就不需要使用else语句了，这段代码也不会执行

In [12]:
# getTitle 函数，可以返回网页的标题，如果获取网页的时候遇到问题就返回一个None 对象。在getTitle 函数里面，检查HTTPError，
# 然后把两行BeautifulSoup 代码封装在一个try 语句里面。这两行中的任何一行有问题，AttributeError 都可能被抛出
# （如果服务器不存在，html 就是一个None 对象，html.read() 就会抛出AttributeError）。如果你还希望能够很大程度地重用代码，那么拥有像
# getSiteHTML 和getTitle 这样的通用函数（具有周密的异常处理功能）会让快速稳定地网络数据采集变得简单易行。
from urllib.request import urlopen
from urllib.error import HTTPError
from bs4 import BeautifulSoup
def getTitle(url):
    try:
        html = urlopen(url)
    except HTTPError as e:
        return None
    try:
        bsObj = BeautifulSoup(html.read())
        title = bsObj.body.h1
    except AttributeError as e:
        return None
        return title
title = getTitle("http://www.pythonscraping.com/pages/page1.html")
if title == None:
    print("Title could not be found")
else:
    print(title)

Title could not be found


In [14]:
from urllib.request import urlopen
from bs4 import BeautifulSoup
html = urlopen("http://www.pythonscraping.com/pages/warandpeace.html")
bsObj = BeautifulSoup(html)
#通过BeautifulSoup 对象，我们可以用findAll 函数抽取只包含在<span class="green"></span> 标签里的文字，这样就会得到一个人物名称的Python 列表
nameList = bsObj.findAll("span", {"class":"green"})#findAll(tagName, tagAttributes)
for name in nameList:
    print(name.get_text())
#.get_text() 会把你正在处理的HTML 文档中所有的标签都清除，然后返回一个只包含文字的字符串。假如你正在处理一个包含许多超链接、段落和标
#签的大段源代码，那么.get_text() 会把这些超链接、段落和标签都清除掉，只剩下一串不带标签的文字

Anna
Pavlovna Scherer
Empress Marya
Fedorovna
Prince Vasili Kuragin
Anna Pavlovna
St. Petersburg
the prince
Anna Pavlovna
Anna Pavlovna
the prince
the prince
the prince
Prince Vasili
Anna Pavlovna
Anna Pavlovna
the prince
Wintzingerode
King of Prussia
le Vicomte de Mortemart
Montmorencys
Rohans
Abbe Morio
the Emperor
the prince
Prince Vasili
Dowager Empress Marya Fedorovna
the baron
Anna Pavlovna
the Empress
the Empress
Anna Pavlovna's
Her Majesty
Baron
Funke
The prince
Anna
Pavlovna
the Empress
The prince
Anatole
the prince
The prince
Anna
Pavlovna
Anna Pavlovna


In [None]:
# BeautifulSoup的find()和findAll()
# BeautifulSoup 文档里两者的定义就是这样：
#    findAll(tag, attributes, recursive, text, limit, keywords)
#    find(tag, attributes, recursive, text, keywords)
# 下面的代码将返回一个包含HTML 文档中所有标题标签的列表：
# .findAll({"h1","h2","h3","h4","h5","h6"})

# 属性参数attributes 是用一个Python 字典封装一个标签的若干属性和对应的属性值。
# 例如，下面这个函数会返回HTML 文档里红色与绿色两种颜色的span 标签：
# .findAll("span", {"class":{"green", "red"}})

# 假如我们想查找前面网页中包含“the prince”内容的标签数量，我们可以把之前的findAll 方法换成下面的代码：
# nameList = bsObj.findAll(text="the prince")
# print(len(nameList))
# 输出结果为“7”

# 范围限制参数limit，显然只用于findAll 方法

# 关键词参数keyword，可以让你选择那些具有指定属性的标签。例如：
# allText = bsObj.findAll(id="text")
# print(allText[0].get_text())

# bsObj.findAll(id="text")
# bsObj.findAll("", {"id":"text"})


# 另外，用keyword 偶尔会出现问题，尤其是在用class 属性查找标签的时候，因为class 是Python 中受保护的关键字。也就是说，class 是Python 语言
# 的保留字，在Python 程序里是不能当作变量或参数名使用的。假如你运行下面的代码，Python 就会因为你误用class 保留字而产生一个语法错误：
# bsObj.findAll(class="green")

# 不过，你可以用BeautifulSoup 在class 后面增加一个下划线：
# bsObj.findAll(class_="green")

# 另外，你也可以用属性参数把class 用引号包起来：
# bsObj.findAll("", {"class":"green"})


In [15]:
# 导航树
# findAll 函数通过标签的名称和属性来查找标签 。但是如果你需要通过标签在文档中的位置来查找标签，该怎么办？这就是导航树（Navigating Trees）
# 的作用。
# bsObj.tag.subTag.anotherSubTag
# 现在我们用虚拟的在线购物网站http://www.pythonscraping.com/pages/page3.html 作为要抓取的示例网页
#想找出子标签，可以用.children 标签：
from urllib.request import urlopen
from bs4 import BeautifulSoup
html = urlopen("http://www.pythonscraping.com/pages/page3.html")
bsObj = BeautifulSoup(html)
for child in bsObj.find("table",{"id":"giftList"}).children:
    print(child)
# 这段代码会打印giftList 表格中所有产品的数据行。如果你用descendants() 函数而不是children() 函数，那么就会有二十几个标签打印出来，
# 包括img 标签、span 标签，以及每个td 标签。掌握子标签与后代标签的差别十分重要！



<tr><th>
Item Title
</th><th>
Description
</th><th>
Cost
</th><th>
Image
</th></tr>


<tr class="gift" id="gift1"><td>
Vegetable Basket
</td><td>
This vegetable basket is the perfect gift for your health conscious (or overweight) friends!
<span class="excitingNote">Now with super-colorful bell peppers!</span>
</td><td>
$15.00
</td><td>
<img src="../img/gifts/img1.jpg"/>
</td></tr>


<tr class="gift" id="gift2"><td>
Russian Nesting Dolls
</td><td>
Hand-painted by trained monkeys, these exquisite dolls are priceless! And by "priceless," we mean "extremely expensive"! <span class="excitingNote">8 entire dolls per set! Octuple the presents!</span>
</td><td>
$10,000.52
</td><td>
<img src="../img/gifts/img2.jpg"/>
</td></tr>


<tr class="gift" id="gift3"><td>
Fish Painting
</td><td>
If something seems fishy about this painting, it's because it's a fish! <span class="excitingNote">Also hand-painted by trained monkeys!</span>
</td><td>
$10,005.00
</td><td>
<img src="../img/gifts/img3.jpg"/>


In [16]:
# 2. 处理兄弟标签
# BeautifulSoup 的next_siblings() 函数可以让收集表格数据成为简单的事情，尤其是处理带标题行的表格：
# 这段代码会打印产品列表里的所有列的产品，第一列表格标题除外
from urllib.request import urlopen
from bs4 import BeautifulSoup
html = urlopen("http://www.pythonscraping.com/pages/page3.html")
bsObj = BeautifulSoup(html)
for sibling in bsObj.find("table",{"id":"giftList"}).tr.next_siblings:
    print(sibling)



<tr class="gift" id="gift1"><td>
Vegetable Basket
</td><td>
This vegetable basket is the perfect gift for your health conscious (or overweight) friends!
<span class="excitingNote">Now with super-colorful bell peppers!</span>
</td><td>
$15.00
</td><td>
<img src="../img/gifts/img1.jpg"/>
</td></tr>


<tr class="gift" id="gift2"><td>
Russian Nesting Dolls
</td><td>
Hand-painted by trained monkeys, these exquisite dolls are priceless! And by "priceless," we mean "extremely expensive"! <span class="excitingNote">8 entire dolls per set! Octuple the presents!</span>
</td><td>
$10,000.52
</td><td>
<img src="../img/gifts/img2.jpg"/>
</td></tr>


<tr class="gift" id="gift3"><td>
Fish Painting
</td><td>
If something seems fishy about this painting, it's because it's a fish! <span class="excitingNote">Also hand-painted by trained monkeys!</span>
</td><td>
$10,005.00
</td><td>
<img src="../img/gifts/img3.jpg"/>
</td></tr>


<tr class="gift" id="gift4"><td>
Dead Parrot
</td><td>
This is an ex-parr

In [17]:
# 正则表达式 regex
# (1) 字母“a”至少出现一次；
# (2) 后面跟着字母“b”重复5 次；
# (3) 后面再跟字母“c”重复任意偶数次；
# (4) 最后一位是字母“d”，也可以没有。
# 满足上面规则的字符串有：“aaaabbbbbccccd”“aabbbbbcc”等（有无穷多种变化）

# 这组规则的正则表达式如下所示：
# aa*bbbbb(cc)*(d | )
# 第一次看这个字符串会觉得有点儿奇葩，但是当我们把它分解之后就会很清楚了。
# • aa*
# a 后面跟着的a*（读作a 星）表示“重复任意次a，包括0 次”。这样就可以保证字母a
# 至少出现一次。
# • bbbbb
# 这没有什么特别的——就是5 次b。
# • (cc)*
# 任意偶数个字符都可以编组，这个规则是用括号两个c，然后后面跟一个星号，表示有
# 任意次两个c（也可以是0 次）
# • (d|)
# 增加一个竖线（|）在表达式里表示“这个或那个”。本例是表示“增加一个后面跟着空
# 格的d，或者只有一个空格”。这样我们可以保证字符串的结尾最多是一个后面跟着空
# 格的d

# 1. 邮箱地址的第一部分至少包括一种内容：大写字母、小写字母、数字0~9、点号（.）、加号（+）或下划线（_）
#    [A-Za-z0-9\._+]+：
#    把所有可能的序列和符号放在中括号（不是小括号）里表示“括号中的符号里任何一个”。要注意后面的加号，它表示“这些符号都可以出现多次，
#    且至少出现1 次”
# 2. 之后，邮箱地址会包含一个@ 符之后，邮箱地址会包含一个@ 符号@：这个符号很直接。@ 符号必须出现在中间位置，有且仅有1 次
# 3. 在符合@ 之后，邮箱地址还必须至少包含一个大写或小写字母[A-Za-z]+：
# 4. 之后跟一个点号（.） \.：在域名前必须有一个点号（.）
# 5. 最后邮箱地址用com、org、edu、net 结尾

# 把上面的规则连接起来，就获得了完整的正则表达式：
# [A-Za-z0-9\._+]+@[A-Za-z]+\.(com|org|edu|net)


#用正規表達式來匹配
# compile() 編譯 
# match() 匹配
# search() 會回傳第一個匹配項目
# findall() 會回傳所有不重疊的匹配
# split() 會用模式，在匹配處分割來源，並回傳一串字串片段
# sub() 會使用另一個取代引數，並將來源內，所有匹配模式的項目換成取代引數
#使用match()來取出匹配項目
import re 
source = 'Young Frankn'
m = re.match('You',source)
if m:#回傳一個物件，查看有哪些匹配？
    print(m.group())
    
    
n = re.match('.*Frank',source)#.代表任何單一字元  *代表在它前面的東西，任何數量
if n:#回傳一個物件，查看有哪些匹配？
    print(n.group())

You
Young Frank


In [18]:
#使用search()找出第一個匹配的項目，不需要.*萬用字元
n = re.search('Frank',source)#.代表任何單一字元  *代表在它前面的東西，任何數量
if n:#回傳一個物件，查看有哪些匹配？
    print(n.group())

Frank


In [19]:
#使用findall()找到某個單字出現的次數？
n = re.findall('n',source)
n

['n', 'n', 'n']

In [20]:
#n後面的字元呢？加上.
n = re.findall('n.',source)
n

['ng', 'nk']

In [21]:
#並未匹配到最後一個n，所以使用？
n = re.findall('n.?',source)
n

['ng', 'nk', 'n']

In [22]:
#使用split()來分割，碰到n就分割
n = re.split('n',source)
n

['You', 'g Fra', 'k', '']

In [23]:
#使用sub()來替換匹配，有點像replace
n = re.sub('n','?',source)
n

'You?g Fra?k?'

In [24]:
#特殊字元
# \d 一個數字
# \D 一個非數字
# \w 一個英數字元
# \W 一個非英數字元
# \s 一個空白字元
# \S 一個非空白字元
# \b 一個單字範圍(介於 \w和\W，無論順序為何)
# \B 一個非單字範圍
# python string 下的 printable 有100個 ASCII字元
import string 
printable = string.printable
len(printable)

100

In [25]:
printable[0 : 50]

'0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMN'

In [26]:
#有哪些是數字？
a = re.findall('\d',printable)
a

['0', '1', '2', '3', '4', '5', '6', '7', '8', '9']

In [27]:
#有哪些字元是數字？字母？或底線？
a = re.findall('\w',printable)
print(a)

['0', '1', '2', '3', '4', '5', '6', '7', '8', '9', 'a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm', 'n', 'o', 'p', 'q', 'r', 's', 't', 'u', 'v', 'w', 'x', 'y', 'z', 'A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J', 'K', 'L', 'M', 'N', 'O', 'P', 'Q', 'R', 'S', 'T', 'U', 'V', 'W', 'X', 'Y', 'Z', '_']


In [28]:
#哪些是空白？
a = re.findall('\s',printable)
print(a)

[' ', '\t', '\n', '\r', '\x0b', '\x0c']


In [29]:
#使用指定符
# a | b 或
# . 除了\n之外的任何字元
# ^來源字串的開頭
# $來源字串的結尾
# prev ?  零或一個prev
# prev *  零或多個prev 越多越好
# prev *? 零或一個prev 越少越好
# prev +  一個或多個prev 越多越好
# prev +?  一個或多個prev 越少越好
# prev {m} m個連續的prev
# prev {m , n} m到n個連續的prev 越多越好
# prev {m , n}? m到n個連續的prev 越少越好
# [ abc ] a或b或c
# [ ^abc ] not(a或b或c)
# prev (?= next) prev，如果它後面有next的話
# prev (?| next) prev，如果它後面沒有next的話
# (?<= prev) next 如果next之前是prev，匹配next
# (?<! prev) next 如果next之前不是prev，匹配next
source = 'I wish I may,I wish I might ...Have a dish of fish tonight...'
#找出任何地方的wish
re.findall('wish',source)

['wish', 'wish']

In [30]:
#找出任何地方的wish或fish
re.findall('wish | fish',source)

['wish ', 'wish ', ' fish']

In [31]:
#找到開頭的wish
re.findall('^wish',source)

[]

In [32]:
#找到開頭的I wish
re.findall('^I wish',source)#連同空格都會辨識

['I wish']

In [33]:
#找到結尾的fish
re.findall('fish$',source)

[]

In [34]:
#找到結尾的fish tonight...
re.findall('fish tonight...$',source)

['fish tonight...']

In [35]:
#用ish來尋找w or f
re.findall('[wf]ish',source)

['wish', 'wish', 'fish']

In [36]:
#尋找一個或多個w,s,h
re.findall('[wsh]+',source)

['w', 'sh', 'w', 'sh', 'h', 'sh', 'sh', 'h']

In [37]:
#尋找後面有非英數字元的ght
re.findall('ght\W',source)

['ght ', 'ght.']

In [38]:
#尋找wish之前的I
re.findall('I(?= wish)',source)

['I', 'I']

In [39]:
#尋找I之後的wish
re.findall('(?<=I) wish',source)#一定要空格

[' wish', ' wish']

In [42]:
#直接定位那些标签来查找信息。在本例中，我们直接通过商品图片的文件路径来查找：

from urllib.request import urlopen
from bs4 import BeautifulSoup
import re

html = urlopen('http://www.pythonscraping.com/pages/page3.html')
bs = BeautifulSoup(html, 'html.parser')
images = bs.find_all('img', {'src':re.compile('\.\.\/img\/gifts/img.*\.jpg')})#<img src="../img/gifts/img2.jpg">
for image in images: 
    print(image['src'])

../img/gifts/img1.jpg
../img/gifts/img2.jpg
../img/gifts/img3.jpg
../img/gifts/img4.jpg
../img/gifts/img6.jpg
