### 原始爬蟲

In [17]:
import requests
from bs4 import BeautifulSoup

#函式（function）是重複使用的程式區塊，有輸入輸出。在 Python 中我們會使用 def 來自行定義函式
def main():  
    # 利用try,except處理例外情形
    try:
        resp = requests.get('http://blog.castman.net/web-crawler-tutorial/ch1/connect.html')  # 將請求而來的資料儲存在resp變數
    except:
        resp = None

    if resp and resp.status_code == 200:  # 檢查是否為有效網址
        print(resp.status_code)
        print(resp.text)
        soup = BeautifulSoup(resp.text, 'html.parser') 
        print(soup)
        
        # 透過.find()搜尋tag,同時以try,except避免搜尋不存在的tag而發生錯誤
        try:
            h1 = soup.find('h1')
        except:
            h1 = None
        if h1:
            print(soup.find('h1'))  #<h1>歡迎來到 Pycone 松果城市！</h1>
            print(soup.find('h1').text)  #歡迎來到 Pycone 松果城市！
        
        try:
            h2 = soup.find('h2')
        except:
            h2 = None
        if h2:
            print(soup.find('h2').text)
        else:
            print('h2 tag not found!')  #h2 tag not found

#爬蟲主程式
if __name__ == '__main__':  #當被匯入時不執行的段落
    main()

200
<!DOCTYPE html>
<html lang="en">
  <head>
    <meta charset="utf-8">
    <meta http-equiv="X-UA-Compatible" content="IE=edge">
    <meta name="viewport" content="width=device-width, initial-scale=1">
    <!-- The above 3 meta tags *must* come first in the head; any other head content must come *after* these tags -->
    <meta name="description" content="">
    <meta name="author" content="">
    
    <title>Pycone 松果城市</title>

    <!-- Bootstrap core CSS -->
    <link href="bootstrap.min.css" rel="stylesheet">

    <!-- IE10 viewport hack for Surface/desktop Windows 8 bug -->
    <link href="http://getbootstrap.com/assets/css/ie10-viewport-bug-workaround.css" rel="stylesheet">

    <!-- Custom styles for this template -->
    <link href="http://getbootstrap.com/examples/sticky-footer/sticky-footer.css" rel="stylesheet">

    <!-- Just for debugging purposes. Don't actually copy these 2 lines! -->

    <!-- HTML5 shim and Respond.js for IE8 support of HTML5 elements and media queri

In [None]:
try:
    # 你要執行的程式
except <錯誤類型>:
    # 發生錯誤時要執行的程式

In [None]:
if __name__ == '__main__': 意思

In [None]:
__name__ 是「當前模組名稱」，可以用來分辨程式是被直接"執行"還是被"匯入"的，當模組被直接執行時模組名為 __main__ 。

這句話的意思就是，當模組被直接"執行"時，之下的程式"將被執行"，
當模組是被"匯入"時，程式碼塊"不被執行"。
是因為程式在匯入時都會重覆執行匯入的程式，但加入這段就可以避免某些段落被重覆執行。

### 幫爬蟲裝煞車
爬蟲也是程式, 所以它是很笨的, 只會按照人寫的腳本去行動, 因此在寫爬蟲的時候要記得去處理可能發生的例外情形, 不然你的蟲爬沒幾下就可能會罷工或是做出預料之外的行為.

In [22]:
import requests
from bs4 import BeautifulSoup


def main():
    url = 'http://blog.castman.net/web-crawler-tutorial/ch1/connect.html'

    h1 = get_header_text(url, 'h1')
    if h1:
        print('h1: ' + h1)

    h2 = get_header_text(url, 'h2')
    if h2:
        print('h2: ' + h2)

    p = get_header_text(url, 'p')
    if p:
        print('p: ' + p)


def get_header_text(url, header_tag):  #前面用到
    try:
        resp = requests.get(url)
        if resp.status_code == 200:
            soup = BeautifulSoup(resp.text, 'html.parser')
            return soup.find(header_tag).text
    except Exception as exception:
        return None


if __name__ == '__main__':
    main()

h1: 歡迎來到 Pycone 松果城市！
p: Python是非常強的的程式語言, 簡潔友好的語法特別容易上手, 又有許多第三方函式庫的支援。Python是完全物件導向的語言, 有益於減少程式碼的重複性。Python的設計哲學是優雅, 明確, 簡單。 Python的設計風格, 使其成為易讀, 易維護且具有廣泛用途的程式語言。Python的應用範圍相當廣泛, 例如web後端開發, 機器學習, 資料分析, 自然語言處理, 網頁爬蟲與遊戲等等。如果自己常常翻閱書籍卻無法掌握重點, 上網收集資料卻覺得太過片段, 想要自己動手寫寫看卻不知道如何開始。 這們課會從最基本的環境架設開始教起, 讓所有同學都可以深入淺出一窺Python的奧妙,更透過實務專題練習的方式,使學生可以應用課堂所學來完成一個Python軟體。


在get_header_text中, 會把取得response的過程放在try...except區塊之中, 所以爬蟲如果無法正常取得response的時候, 就會回傳None, 而後續處理的程式也會知道這時候沒東西, 就不進行任何處理了.