# Wikipedia爬蟲練習
## 範例：練習是從Wikipedia中爬取文章。先定義一個搜尋的關鍵字，擷取該關鍵字詞的文章。

In [34]:
import requests
import re
from bs4 import BeautifulSoup
import os

### 先定義一個我們想搜尋的字詞，並將它轉換成UTF-8編碼後的URL

In [35]:
input_keyword = "魔術"  # 這裡可以自己定義有興趣的關鍵字

utf8_url = repr(input_keyword.encode('UTF-8')).upper()  # 編碼成UTF-8並轉成大寫字元
utf8_url = utf8_url.replace("\\X", "%")                 # 用 '%' 取代 '\X' 
print("%s: %s" % (input_keyword, utf8_url[2:-1:1]))     # 擷取中間的編碼結果

# 組成Wiki關鍵字搜尋的網址格式
root_keyword_link = '/wiki/' + utf8_url[2:-1:1]
print(root_keyword_link)

魔術: %E9%AD%94%E8%A1%93
/wiki/%E9%AD%94%E8%A1%93


### 範例1：送出關鍵字請求後，爬取該關鍵字的文章內容

In [36]:
# 模擬封包的標頭
headers = {
    'authority': 'zh.wikipedia.org',
    'method': 'GET',
    'path': '/wiki/' + root_keyword_link,
    'scheme': 'https',
    'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3',
    'accept-encoding': 'gzip, deflate, br',
    'accept-language': 'zh-TW,zh;q=0.9,en-US;q=0.8,en;q=0.7,zh-CN;q=0.6',
    'cookie': 'GeoIP=TW:TPE:Taipei:25.05:121.53:v4; TBLkisOn=0; mwPhp7Seed=8b8; WMF-Last-Access-Global=04-Jun-2019; WMF-Last-Access=04-Jun-2019',
    'dnt': '1',
    #'if-modified-since': 'Tue, 04 Jun 2019 12:03:22 GMT',
    'referer': 'https://zh.wikipedia.org/wiki/Wikipedia:%E9%A6%96%E9%A1%B5',
    'upgrade-insecure-requests': '1',
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36'
}    

url = 'https://zh.wikipedia.org' + root_keyword_link  # 組合關鍵字查詢URL
resp = requests.get(url, headers=headers)
resp.encoding = 'utf-8'

html = BeautifulSoup(resp.text, "lxml")
content = html.find(name='div', attrs={'id':'mw-content-text'}).find_all(name='p')

os.makedirs( './wikiArticle', exist_ok=True )
#
# 解析回傳資料，並萃取文章內容
#
for paragraph in content:
    print(paragraph.get_text())

魔術（英語：Magic Trick），是一門獨特的藝術表演形式，通過特殊的手法及道具等，使觀眾覺得不可思議[1]。廣義的定義為泛指各種以專業技巧或知識展示出讓人覺得歡笑、不可思議的藝術的活動。魔術的技巧並不包含特異功能的成份。魔術亦可定義為「在滿足物質不滅定律及能量守恆定律的條件之下，呈現出違反經驗法則的表演」。

魔術師則是指從事魔術活動，並且不將魔術濫用者。魔術師古代又稱為「眩者」、「幻人」等。

魔術不是只有障眼法，而是一項務求違反客觀現象的表演藝術，必須有純熟的手法和精製的道具，瞭解觀眾的心理還有良好的表演心態。一個成功的魔術能令觀眾看得如癡如醉，要靠很好的表演和新的創意。魔術並非一定需要特殊道具，助手，台前幕後的協助，有時候只有手邊的小東西也可以變出一個好魔術。

正確的魔術起源時間無從考據，推測從有人類活動開始就有了魔術。魔術的起源是宗教和信仰，所謂「魔術」一詞源來自拉丁語magi，常被拜火教使用。在古代（特別是印度），人們相信自然界中所有的事情，都是因為有精靈或神靈操縱，因此巫師或祭師利用人類迷信的心理，利用人們所不知道的原理製造神跡，讓人們相信這些是由精靈或神靈所行出來的，藉由魔術強化宗教的儀式，信眾們更加確認他們的信仰。

歷史上最早的魔術紀錄是在埃及，大約是在西元前2600年，也就是距今四千多年前。1823年發現的《威斯卡手稿》，文獻上記載了一位名叫德狄（Dedi of Dedsnefu）的魔術師，受召為法老王進行表演。他能將鵝的頭砍下，而斷了頭的鵝依然能走動，最後再把頭接回去恢復為原本的鵝。該紀錄描述了這名魔術師對鵜鶘和公牛也進行了相同的戲法。古希臘的神殿也利用了魔術的原理。例如祭師打開神殿大門時，風箱會吹向地面，祭臺上便出現了火焰。還有應用風管製造的會說話的神像。

而最早的戲法紀錄則是「杯與球戲法」（Cups And Balls），這是目前人們所知最古老的戲法。在埃及的壁畫中（Tomb of Baqt III at Beni Hassan B.C 2500）也有紀錄。而真正其歷史表演的紀錄則可追溯到1世紀時。此戲法在中世紀時大受歡迎，被魔術師們廣泛表演於市集中。當時的魔術師被稱為雜耍者（Juggers）。這些四處旅行的表演者與樂師、詩人、特技表演者到村莊的空地上以簡單的戲法娛樂村民。

到了中世紀末期，歐洲魔術師開始面臨來自教堂的強烈反對。

### 範例2：從爬取的文章內容中，擷取出有外部連結的關鍵字。這些關鍵字在文章中是以藍色字體顯示，會連到外部的網頁，並解釋其內容。

In [37]:
for ext_link in content:
    a_tag = ext_link.find_all('a', href=re.compile("^(/wiki/)((?!;)\S)*$"))
    if len(a_tag) > 0:
        for link_string in a_tag:
            a_link = link_string["href"]       # 外部連結的網址
            a_keyword = link_string.get_text()  # 外部連結的中文名稱
            print("外部連結: [%s] %s" % (a_keyword, a_link))
            

外部連結: [特異功能] /wiki/%E7%89%B9%E7%95%B0%E5%8A%9F%E8%83%BD
外部連結: [物質不滅定律] /wiki/%E7%89%A9%E8%B3%AA%E4%B8%8D%E6%BB%85%E5%AE%9A%E5%BE%8B
外部連結: [能量守恆定律] /wiki/%E8%83%BD%E9%87%8F%E5%AE%88%E6%81%86%E5%AE%9A%E5%BE%8B
外部連結: [宗教] /wiki/%E5%AE%97%E6%95%99
外部連結: [信仰] /wiki/%E4%BF%A1%E4%BB%B0
外部連結: [拜火教] /wiki/%E6%8B%9C%E7%81%AB%E6%95%99
外部連結: [印度] /wiki/%E5%8D%B0%E5%BA%A6
外部連結: [埃及] /wiki/%E5%9F%83%E5%8F%8A
外部連結: [法老王] /wiki/%E6%B3%95%E8%80%81%E7%8E%8B
外部連結: [鵝] /wiki/%E9%B5%9D
外部連結: [鵜鶘] /wiki/%E9%B5%9C%E9%B6%98
外部連結: [公牛] /wiki/%E5%85%AC%E7%89%9B
外部連結: [古希臘] /wiki/%E5%8F%A4%E5%B8%8C%E8%87%98
外部連結: [祭師] /wiki/%E7%A5%AD%E5%8F%B8
外部連結: [風箱] /wiki/%E9%A3%8E%E7%AE%B1
外部連結: [火焰] /wiki/%E7%81%AB%E7%84%B0
外部連結: [壁畫] /wiki/%E5%A3%81%E7%95%AB
外部連結: [中世紀] /wiki/%E4%B8%AD%E4%B8%96%E7%B4%80
外部連結: [黑魔法] /wiki/%E9%BB%91%E9%AD%94%E6%B3%95
外部連結: [貴族] /wiki/%E8%B2%B4%E6%97%8F
外部連結: [亨利八世] /wiki/%E4%BA%A8%E5%88%A9%E5%85%AB%E4%B8%96
外部連結: [蘇格蘭] /wiki/%E8%98%87%E6%A0%BC%E8%98%AD
外部連結: [燕尾服] /wiki/%E7%87%95%E5%B0%BE%E

## 作業：接下來定義一個爬蟲函數，這個函數的主要工作為：
### (1) 爬取當前關鍵字的解釋，並存入檔案(因為文章內容太多會佔滿整個頁面，所以存程檔案，方便後續檢視)
### (2) 萃取出當前關鍵字所引用的外部連結，當作新的查詢關鍵字
### (3) 把第(2)擷取到的關鍵字當作新的關鍵字，回到第(1)步，爬取新的關鍵字解釋。

In [48]:
def WikiArticle(key_word_link, key_word, recursive):
    
    if (recursive <= max_recursive_depth):
        print("遞迴層[%d] - %s (%s)" % (recursive, key_word_link, key_word))
        
        # 模擬封包的標頭
        headers = {
            'authority': 'zh.wikipedia.org',
            'method': 'GET',
            'path': '/wiki/' + key_word_link,
            'scheme': 'https',
            'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3',
            'accept-encoding': 'gzip, deflate, br',
            'accept-language': 'zh-TW,zh;q=0.9,en-US;q=0.8,en;q=0.7,zh-CN;q=0.6',
            'cookie': 'GeoIP=TW:TPE:Taipei:25.05:121.53:v4; TBLkisOn=0; mwPhp7Seed=8b8; WMF-Last-Access-Global=04-Jun-2019; WMF-Last-Access=04-Jun-2019',
            'dnt': '1',
            #'if-modified-since': 'Tue, 04 Jun 2019 12:03:22 GMT',
            'referer': 'https://zh.wikipedia.org/wiki/Wikipedia:%E9%A6%96%E9%A1%B5',
            'upgrade-insecure-requests': '1',
            'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36'
        }    

        url = 'https://zh.wikipedia.org' + key_word_link  # 組合關鍵字查詢URL
        resp = requests.get(url, headers=headers)
        resp.encoding = 'utf-8'

        html = BeautifulSoup(resp.text, "lxml")
        content = html.find(name='div', attrs={'id':'mw-content-text'}).find_all(name='p')
        
        #
        # Part 1: 請參考範例1，爬取當前關鍵字的文章內容。
        #         因為內容太多，我們把它寫入檔案，並以關鍵字作為檔案名稱，以便稍後查閱內容。
        #         請先建立一個名為"WikiArticle"的資料夾，爬取到的文章內容會放在這個資料夾底下。
        #
        os.makedirs( './wikiArticle', exist_ok=True )
        for paragraph in content:
            file_name = key_word+".txt"
            text_file = open('./wikiArticle/'+file_name, "a")
            n = text_file.write(paragraph.get_text())
            text_file.close()
            
        
        #
        # Part 2: 請參考範例2，萃取出本篇文章中所延伸引用的外部連結，並儲存在external_link_dict
        #
        external_link_dict = dict({})
        
        for ext_link in content:
            a_tag = ext_link.find_all('a', href=re.compile("^(/wiki/)((?!;)\S)*$"))
            if len(a_tag) > 0:
                for link_string in a_tag:
                    a_link = link_string["href"]       # 外部連結的網址
                    a_keyword = link_string.get_text()  # 外部連結的中文名稱
                    external_link_dict.update([ (a_keyword, a_link) ] )

                    
        #
        # Part 3: 將Part 2所收集的外部連結，當作新的關鍵字，繼續迭代深入爬蟲
        #
        if (len(external_link_dict) > 0):
            
            recursive = recursive + 1  # 遞迴深度加1
            
            for k, v in external_link_dict.items():
                WikiArticle(v, k, recursive)  # 再次呼叫同樣的函數，執行同樣的流程

### 執行前個步驟定義好的爬蟲主程式

In [49]:
# 定義爬取的遞迴深度。深度不要訂太深，否則會爬很久。
max_recursive_depth = 1

WikiArticle(root_keyword_link, input_keyword, 0)

遞迴層[0] - /wiki/%E9%AD%94%E8%A1%93 (魔術)
遞迴層[1] - /wiki/%E7%89%B9%E7%95%B0%E5%8A%9F%E8%83%BD (特異功能)
遞迴層[1] - /wiki/%E7%89%A9%E8%B3%AA%E4%B8%8D%E6%BB%85%E5%AE%9A%E5%BE%8B (物質不滅定律)
遞迴層[1] - /wiki/%E8%83%BD%E9%87%8F%E5%AE%88%E6%81%86%E5%AE%9A%E5%BE%8B (能量守恆定律)
遞迴層[1] - /wiki/%E5%AE%97%E6%95%99 (宗教)
遞迴層[1] - /wiki/%E4%BF%A1%E4%BB%B0 (信仰)
遞迴層[1] - /wiki/%E6%8B%9C%E7%81%AB%E6%95%99 (拜火教)
遞迴層[1] - /wiki/%E5%8D%B0%E5%BA%A6 (印度)
遞迴層[1] - /wiki/%E5%9F%83%E5%8F%8A (埃及)
遞迴層[1] - /wiki/%E6%B3%95%E8%80%81%E7%8E%8B (法老王)
遞迴層[1] - /wiki/%E9%B5%9D (鵝)
遞迴層[1] - /wiki/%E9%B5%9C%E9%B6%98 (鵜鶘)
遞迴層[1] - /wiki/%E5%85%AC%E7%89%9B (公牛)
遞迴層[1] - /wiki/%E5%8F%A4%E5%B8%8C%E8%87%98 (古希臘)
遞迴層[1] - /wiki/%E7%A5%AD%E5%8F%B8 (祭師)
遞迴層[1] - /wiki/%E9%A3%8E%E7%AE%B1 (風箱)
遞迴層[1] - /wiki/%E7%81%AB%E7%84%B0 (火焰)
遞迴層[1] - /wiki/%E5%A3%81%E7%95%AB (壁畫)
遞迴層[1] - /wiki/%E4%B8%AD%E4%B8%96%E7%B4%80 (中世紀)
遞迴層[1] - /wiki/%E9%BB%91%E9%AD%94%E6%B3%95 (黑魔法)
遞迴層[1] - /wiki/%E8%B2%B4%E6%97%8F (貴族)
遞迴層[1] - /wiki/%E4%BA%A8%E5%88%A9%E5%85%A