# 1 - 网络连接

理论上，网络数据采集是一种通过多种手段收集网络数据的方式，不光是通过与API交互（或者直接与浏览器交互）的方式。最常用的方法是写一个自动化程序向网络服务器请求数据（通常是用HTML表单或其他网页文件），然后对数据进行解析，提取需要的信息。

In [34]:
from urllib.request import urlopen
html = urlopen("http://pythonscraping.com/pages/page1.html")
print(html.read())

b'<html>\n<head>\n<title>A Useful Page</title>\n</head>\n<body>\n<h1>An Interesting Title</h1>\n<div>\nLorem ipsum dolor sit amet, consectetur adipisicing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat. Duis aute irure dolor in reprehenderit in voluptate velit esse cillum dolore eu fugiat nulla pariatur. Excepteur sint occaecat cupidatat non proident, sunt in culpa qui officia deserunt mollit anim id est laborum.\n</div>\n</body>\n</html>\n'


这将会输出http://pythonscraping.com/pages/page1.html 这个网页的全部HTML代码。更准确地说，这会输出在域名为http://pythonscraping.com 的服务器上<网络应用根地址>/pages文件夹里的HTML文件page1.html的源代码。

# 2 - BeautifulSoup

BeautifulSoup通过定位HTML标签来格式化和组织复杂的网络信息，用简单易用的Python对象为我们展现XML结构信息。

In [27]:
from urllib.request import urlopen
from bs4 import BeautifulSoup
html = urlopen("http://pythonscraping.com/pages/page1.html")
bs0bj = BeautifulSoup(html.read())
# 下面的函数调用都可以产生相同的效果
print(bs0bj)
print(bs0bj.h1)
print(bs0bj.html.h1)
print(bs0bj.body.h1)

<h1>An Interesting Title</h1>
<h1>An Interesting Title</h1>
<h1>An Interesting Title</h1>


In [16]:
print(bs0bj.html.h1)

<h1>An Interesting Title</h1>


# 3 - 可靠的网络连接

html = urlopen("http://www.pythonscraping.com/pages/page1.html")

这行代码主要可能会发生两种异常：
- 网页在服务器上不存在（或者获取页面的时候出现错误）
- 服务器不存在

第一种异常发生时，程序会返回HTTP错误。HTTP错误可能是“404 Page Not Found”“500Internal Server Error”等。所有类似情形，urlopen函数都会抛出“HTTPError”异常。我们可以用下面的方式处理这种异常：

In [23]:
try:
    html = urlopen("http://www.pythonscraping.com/pages/page1.html")
except HTTPError as e:
    # 返回空值，中断程序，或者执行另一个方案
    print(e)
else:
    # 程序继续，如果已经捕获了异常，则不执行这一段 
    ...

如果服务器不存在（就是说链接http://www.pythonscraping.com/ 打不开，或者是URL链接写错了），urlopen会返回一个None对象。这个对象与其他编程语言中的null类似。我们可以增加一个判断语句检测返回的html是不是None：

In [None]:
if html is None:
    print("URL is not Found")
else:
    # 程序继续

当然，即使网页已经从服务器成功获取，如果网页上的内容并非完全是我们期望的那样，仍然可能会出现异常。每当你调用BeautifulSoup对象里的一个标签时，增加一个检查条件保证标签确实存在是很聪明的做法。如果你想要调用的标签不存在，BeautifulSoup就会返回None对象。不过，如果再调用这个None对象下面的子标签，就会发生AttributeError错误。

In [32]:
print(bs0bj.nonExistsTag)
print(bs0bj.nonExistsTag.sometag)

None


那么我们怎么才能避免这两种情形的异常呢？最简单的方式就是对两种情形进行检查：

In [None]:
try:
    badcontent = bs0bj.nonExistsTag.anothertag
except AttributeError as e:
    print("Tag was not found")
else:
    if badcontent == None:
        print("Tag was not found")
    else:
        print(badcontent)

组织上面的检查异常的代码，下面是完整的写法：

In [31]:
from urllib.request import urlopen
from urllib.error import HTTPError
from bs4 import BeautifulSoup
def getTitle(url):
    try:
        html = urlopen(url)
    except HTTPError as e:
        return None
    try:
        bs0bj = BeautifulSoup(html.read())
        title = bs0bj.body.h1
    except AttributeError as e:
        return None
    return title
title = getTitle("http://www.pythonscraping.com/pages/page1.html")
if title == None:
    print("Title could not be Found")
else:
    print(title)

<h1>An Interesting Title</h1>
