# Wikipedia爬蟲練習
## 範例：練習是從Wikipedia中爬取文章。先定義一個搜尋的關鍵字，擷取該關鍵字詞的文章。

In [2]:
import requests
import re
from bs4 import BeautifulSoup

### 先定義一個我們想搜尋的字詞，並將它轉換成UTF-8編碼後的URL

In [14]:
input_keyword = "武漢肺炎"  # 這裡可以自己定義有興趣的關鍵字

utf8_url = repr(input_keyword.encode('UTF-8')).upper()  # 編碼成UTF-8並轉成大寫字元
utf8_url = utf8_url.replace("\\X", "%")                 # 用 '%' 取代 '\X' 
print("%s: %s" % (input_keyword, utf8_url[2:-1:1]))     # 擷取中間的編碼結果

# 組成Wiki關鍵字搜尋的網址格式
root_keyword_link = '/wiki/' + utf8_url[2:-1:1]
print(root_keyword_link)

武漢肺炎: %E6%AD%A6%E6%BC%A2%E8%82%BA%E7%82%8E
/wiki/%E6%AD%A6%E6%BC%A2%E8%82%BA%E7%82%8E


### 範例1：送出關鍵字請求後，爬取該關鍵字的文章內容

In [15]:
# 模擬封包的標頭
headers = {
    'authority': 'zh.wikipedia.org',
    'method': 'GET',
    'path': '/wiki/' + root_keyword_link,
    'scheme': 'https',
    'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3',
    'accept-encoding': 'gzip, deflate, br',
    'accept-language': 'zh-TW,zh;q=0.9,en-US;q=0.8,en;q=0.7,zh-CN;q=0.6',
    'cookie': 'GeoIP=TW:TPE:Taipei:25.05:121.53:v4; TBLkisOn=0; mwPhp7Seed=8b8; WMF-Last-Access-Global=04-Jun-2019; WMF-Last-Access=04-Jun-2019',
    'dnt': '1',
    #'if-modified-since': 'Tue, 04 Jun 2019 12:03:22 GMT',
    'referer': 'https://zh.wikipedia.org/wiki/Wikipedia:%E9%A6%96%E9%A1%B5',
    'upgrade-insecure-requests': '1',
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36'
}    

url = 'https://zh.wikipedia.org' + root_keyword_link  # 組合關鍵字查詢URL
resp = requests.get(url, headers=headers)
resp.encoding = 'utf-8'

html = BeautifulSoup(resp.text, "lxml")
content = html.find(name='div', attrs={'id':'mw-content-text'}).find_all(name='p')

#
# 解析回傳資料，並萃取文章內容
#
for paragraph in content:
    print(paragraph.get_text())


嚴重特殊傳染性肺炎[8][9]（英語：Coronavirus disease 2019，縮寫：COVID-19[10][11][12]），是由嚴重急性呼吸道症候群冠狀病毒2型（縮寫：SARS-CoV-2）引發的傳染病。2019年末，該病在中國湖北省武漢市首先爆發[註 1]，其後向全球擴散，目前已經波及超過150個國家。

本病傳染源主要為新型冠狀病毒感染的患者，無症狀感染者也可以成為感染源。病毒主要經呼吸道飛沫傳播、接觸傳播，消化道傳播、氣膠傳播、母嬰傳播等傳播途徑有待進一步明確。[16][17][18]

2020年1月14日，據路透社報導，世界衛生組織確認新型冠狀病毒「已經」有限度人傳人，之後修改報道為「可能」有限度人傳人，世衛隨後對發電郵查詢的傳媒澄清並無證據顯示病毒人傳人，並在社交網站上表示中國政府初步調查找不到清晰人傳人的證據[19][20]。

1月19日，世界衛生組織發言人亞沙雷維奇（英語：Tarik Jasarevic）回覆台灣中央通訊社的電郵查詢，指根據最新資訊及分析，已有證據表明新型冠狀病毒存在有限度人傳人，同時補充指尚無明確證據顯示人際間有持續傳播，暫無法評估整體的人傳人範圍[21]。英國廣播公司（BBC）亦於1月20日獲世衛回覆密切接觸者間發生了有限的人傳人，同時指多個消息源透露武漢同濟醫院有醫護人員懷疑感染[22]。武漢官方的說法則是不能排除人傳人可能，但持續人傳人風險較低，認為疫情是可防可控[23]；中國國家衛健委同時指病毒源頭及傳播途徑尚未查明，仍需嚴密監控可能的病毒變異[22]。

1月20日晚間，中國國家衛健委高級別專家組組長、中國工程院院士、國家呼吸系統疾病臨床研究專家鍾南山在接受央視新聞直播採訪時表示，根據目前的資料，新型冠狀病毒肺炎是肯定的人傳人：「在廣東有2個個案，沒去過武漢，但家人去了武漢後染上了新型冠狀病毒肺炎，現在可以說，肯定的，有人傳人現象」[24]。他又透露圍繞一名病人，已有14名醫護人員出現醫療照顧相關感染（隨後證實是進行神經手術時感染），指是非常重要標誌，又表示95%個案與武漢有關，呼籲民眾可戴口罩預防及如非必要勿前往武漢[25][26]。

1月21日，早前只說存在有限度人傳人的世界衛生組織在Twitter上表示新型冠狀病毒肺炎可能存在持續人傳人情形[27]。同日，曾到訪武漢實地考察的中國國家衛健委武漢肺炎專

### 範例2：從爬取的文章內容中，擷取出有外部連結的關鍵字。這些關鍵字在文章中是以藍色字體顯示，會連到外部的網頁，並解釋其內容。

In [16]:
for ext_link in content:
    a_tag = ext_link.find_all('a', href=re.compile("^(/wiki/)((?!;)\S)*$"))
    if len(a_tag) > 0:
        for link_string in a_tag:
            a_link = link_string["href"]       # 外部連結的網址
            a_keyword = link_string.get_text()  # 外部連結的中文名稱
            print("外部連結: [%s] %s" % (a_keyword, a_link))

外部連結: [嚴重急性呼吸道症候群冠狀病毒2型] /wiki/%E5%9A%B4%E9%87%8D%E6%80%A5%E6%80%A7%E5%91%BC%E5%90%B8%E7%B3%BB%E7%B5%B1%E7%B6%9C%E5%90%88%E7%97%87%E5%86%A0%E7%8B%80%E7%97%85%E6%AF%922%E5%9E%8B
外部連結: [傳染病] /wiki/%E4%BC%A0%E6%9F%93%E7%97%85
外部連結: [中國] /wiki/%E4%B8%AD%E5%9B%BD
外部連結: [湖北省] /wiki/%E6%B9%96%E5%8C%97%E7%9C%81
外部連結: [武漢市] /wiki/%E6%AD%A6%E6%B1%89%E5%B8%82
外部連結: [向全球擴散] /wiki/2019%E5%86%A0%E7%8A%B6%E7%97%85%E6%AF%92%E7%97%85%E7%96%AB%E6%83%85
外部連結: [氣膠] /wiki/%E6%B0%94%E6%BA%B6%E8%83%B6
外部連結: [路透社] /wiki/%E8%B7%AF%E9%80%8F%E7%A4%BE
外部連結: [世界衛生組織] /wiki/%E4%B8%96%E7%95%8C%E8%A1%9B%E7%94%9F%E7%B5%84%E7%B9%94
外部連結: [中央通訊社] /wiki/%E4%B8%AD%E5%A4%AE%E9%80%9A%E8%A8%8A%E7%A4%BE
外部連結: [英國廣播公司] /wiki/%E8%8B%B1%E5%9C%8B%E5%BB%A3%E6%92%AD%E5%85%AC%E5%8F%B8
外部連結: [武漢同濟醫院] /wiki/%E6%AD%A6%E6%BC%A2%E5%90%8C%E6%BF%9F%E9%86%AB%E9%99%A2
外部連結: [中國國家衛健委] /wiki/%E4%B8%AD%E5%8D%8E%E4%BA%BA%E6%B0%91%E5%85%B1%E5%92%8C%E5%9B%BD%E5%9B%BD%E5%AE%B6%E5%8D%AB%E7%94%9F%E5%81%A5%E5%BA%B7%E5%A7%94%E5%91%98%E4%BC%9A
外部連結: [中國

## 作業：接下來定義一個爬蟲函數，這個函數的主要工作為：
### (1) 爬取當前關鍵字的解釋，並存入檔案(因為文章內容太多會佔滿整個頁面，所以存程檔案，方便後續檢視)
### (2) 萃取出當前關鍵字所引用的外部連結，當作新的查詢關鍵字
### (3) 把第(2)擷取到的關鍵字當作新的關鍵字，回到第(1)步，爬取新的關鍵字解釋。

In [17]:
import os
try:
    os.makedirs( './WikiArticle', exist_ok=True )
except:
    print('發生錯誤！')


In [18]:
def WikiArticle(key_word_link, key_word, recursive):
    
    if (recursive <= max_recursive_depth):
        print("遞迴層[%d] - %s (%s)" % (recursive, key_word_link, key_word))
        
        # 模擬封包的標頭
        headers = {
            'authority': 'zh.wikipedia.org',
            'method': 'GET',
            'path': '/wiki/' + key_word_link,
            'scheme': 'https',
            'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3',
            'accept-encoding': 'gzip, deflate, br',
            'accept-language': 'zh-TW,zh;q=0.9,en-US;q=0.8,en;q=0.7,zh-CN;q=0.6',
            'cookie': 'GeoIP=TW:TPE:Taipei:25.05:121.53:v4; TBLkisOn=0; mwPhp7Seed=8b8; WMF-Last-Access-Global=04-Jun-2019; WMF-Last-Access=04-Jun-2019',
            'dnt': '1',
            #'if-modified-since': 'Tue, 04 Jun 2019 12:03:22 GMT',
            'referer': 'https://zh.wikipedia.org/wiki/Wikipedia:%E9%A6%96%E9%A1%B5',
            'upgrade-insecure-requests': '1',
            'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36'
        }    

        url = 'https://zh.wikipedia.org' + key_word_link  # 組合關鍵字查詢URL
        resp = requests.get(url, headers=headers)
        resp.encoding = 'utf-8'

        html = BeautifulSoup(resp.text, "lxml")
        content = html.find(name='div', attrs={'id':'mw-content-text'}).find_all(name='p')
        
        #
        # Part 1: 請參考範例1，爬取當前關鍵字的文章內容。
        #         因為內容太多，我們把它寫入檔案，並以關鍵字作為檔案名稱，以便稍後查閱內容。
        #         請先建立一個名為"WikiArticle"的資料夾，爬取到的文章內容會放在這個資料夾底下。
        #
        with open('./WikiArticle/'+key_word, "w", encoding="utf-8") as fh:
            fh.write(str(content))

        #
        # Part 2: 請參考範例2，萃取出本篇文章中所延伸引用的外部連結，並儲存在external_link_dict
        #
        external_link_dict = dict({})
#         with open('./WikiArticle/'+key_word, "r", encoding="utf-8") as fr:
#             resp = fr.read()
#             print(resp)
#             html = BeautifulSoup(resp, "lxml")
#             content = html.find(name='div', attrs={'id':'mw-content-text'}).find_all(name='p')
#             print(content)
        for ext_link in content:
            a_tag = ext_link.find_all('a', href=re.compile("^(/wiki/)((?!;)\S)*$"))
            if len(a_tag) > 0:
                for link_string in a_tag:
                    a_link = link_string["href"]       # 外部連結的網址
                    a_keyword = link_string.get_text()  # 外部連結的中文名稱
                    external_link_dict[a_link]=a_keyword

                  
        #
        # Part 3: 將Part 2所收集的外部連結，當作新的關鍵字，繼續迭代深入爬蟲
        #
        if (len(external_link_dict) > 0):
            
            recursive = recursive + 1  # 遞迴深度加1
            
            for k, v in external_link_dict.items():
                WikiArticle(k, v, recursive)  # 再次呼叫同樣的函數，執行同樣的流程
                

### 執行前個步驟定義好的爬蟲主程式

In [19]:
# 定義爬取的遞迴深度。深度不要訂太深，否則會爬很久。
max_recursive_depth = 2

WikiArticle(root_keyword_link, input_keyword, 0)

遞迴層[0] - /wiki/%E6%AD%A6%E6%BC%A2%E8%82%BA%E7%82%8E (武漢肺炎)
遞迴層[1] - /wiki/%E5%9A%B4%E9%87%8D%E6%80%A5%E6%80%A7%E5%91%BC%E5%90%B8%E7%B3%BB%E7%B5%B1%E7%B6%9C%E5%90%88%E7%97%87%E5%86%A0%E7%8B%80%E7%97%85%E6%AF%922%E5%9E%8B (嚴重急性呼吸道症候群冠狀病毒2型)
遞迴層[2] - /wiki/%E5%86%A0%E7%8A%B6%E7%97%85%E6%AF%92%E7%A7%91 (冠狀病毒科)
遞迴層[2] - /wiki/%E4%B9%99%E5%9E%8B%E5%86%A0%E7%8B%80%E7%97%85%E6%AF%92%E5%B1%AC (乙型冠狀病毒)
遞迴層[2] - /wiki/%E4%B8%A5%E9%87%8D%E6%80%A5%E6%80%A7%E5%91%BC%E5%90%B8%E9%81%93%E7%BB%BC%E5%90%88%E5%BE%81%E7%9B%B8%E5%85%B3%E5%86%A0%E7%8A%B6%E7%97%85%E6%AF%92 (嚴重急性呼吸道症候群相關冠狀病毒)
遞迴層[2] - /wiki/%E5%88%86%E5%9E%8B (分型)
遞迴層[2] - /wiki/%E6%AD%A3%E4%B9%89%E5%8D%95%E9%93%BERNA%E7%97%85%E6%AF%92 (正鏈單股RNA病毒)
遞迴層[2] - /wiki/2019%E5%86%A0%E7%8B%80%E7%97%85%E6%AF%92%E7%97%85 (2019冠狀病毒病)
遞迴層[2] - /wiki/%E5%9A%B4%E9%87%8D%E6%80%A5%E6%80%A7%E5%91%BC%E5%90%B8%E7%B3%BB%E7%B5%B1%E7%B6%9C%E5%90%88%E7%97%87%E5%86%A0%E7%8B%80%E7%97%85%E6%AF%92 (SARS-CoV)
遞迴層[2] - /wiki/%E4%B8%AD%E6%9D%B1%E5%91%BC%E5%90%B8%E7%B6%9C%E

KeyboardInterrupt: 