# Wikipedia爬蟲練習
## 範例：練習是從Wikipedia中爬取文章。先定義一個搜尋的關鍵字，擷取該關鍵字詞的文章。

In [52]:
import requests
import re
from bs4 import BeautifulSoup

### 先定義一個我們想搜尋的字詞，並將它轉換成UTF-8編碼後的URL

In [53]:
input_keyword = "反切"  # 這裡可以自己定義有興趣的關鍵字

utf8_url = repr(input_keyword.encode('UTF-8')).upper()  # 編碼成UTF-8並轉成大寫字元
utf8_url = utf8_url.replace("\\X", "%")                 # 用 '%' 取代 '\X' 
print("%s: %s" % (input_keyword, utf8_url[2:-1:1]))     # 擷取中間的編碼結果

# 組成Wiki關鍵字搜尋的網址格式
root_keyword_link = '/wiki/' + utf8_url[2:-1:1]
print(root_keyword_link)

反切: %E5%8F%8D%E5%88%87
/wiki/%E5%8F%8D%E5%88%87


### 範例1：送出關鍵字請求後，爬取該關鍵字的文章內容

In [54]:
# 模擬封包的標頭
headers = {
    'authority': 'zh.wikipedia.org',
    'method': 'GET',
    'path': '/wiki/' + root_keyword_link,
    'scheme': 'https',
    'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3',
    'accept-encoding': 'gzip, deflate, br',
    'accept-language': 'zh-TW,zh;q=0.9,en-US;q=0.8,en;q=0.7,zh-CN;q=0.6',
    'cookie': 'GeoIP=TW:TPE:Taipei:25.05:121.53:v4; TBLkisOn=0; mwPhp7Seed=8b8; WMF-Last-Access-Global=04-Jun-2019; WMF-Last-Access=04-Jun-2019',
    'dnt': '1',
    #'if-modified-since': 'Tue, 04 Jun 2019 12:03:22 GMT',
    'referer': 'https://zh.wikipedia.org/wiki/Wikipedia:%E9%A6%96%E9%A1%B5',
    'upgrade-insecure-requests': '1',
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36'
}    

url = 'https://zh.wikipedia.org' + root_keyword_link  # 組合關鍵字查詢URL
resp = requests.get(url, headers=headers)
resp.encoding = 'utf-8'

html = BeautifulSoup(resp.text, "lxml")
content = html.find(name='div', attrs={'id':'mw-content-text'}).find_all(name='p')

#
# 解析回傳資料，並萃取文章內容
#
for paragraph in content:
    print(paragraph.get_text())


反切（又稱反語、音反）是中國自古以來漢字（廣義的）注音方法，一般取兩個常用字：前者稱反切上字，取其雙聲之聲母；後者稱反切下字，取其疊韻之韻母和聲調[註 1][1]。反切是中國古代最主要和使用時間最長的注音方法之一。

至於反切法之發明有說啟發自西域梵文字[2]，因此狹義上講，規律整齊的反切注音系統是拼音字母系統[3]。

在反切法誕生之前，直音法（即是「讀若某」、「如某」等）是常用的字書注音方法。這種方法在東漢之前佔據字書之主流，例如《說文・玉部》：「珣，讀若宣」；《說文・宀部》：「宋，居也，從宀木，讀若送。」等。一般是用一個字注另一個同音字。

也因此，直音法的侷限十分明顯：依時空之不同，每個字的發音都存在差異，且一些情況下，使用某字的假借字（如廣韻裡「行」字和「絎」、「胻」字等）或生僻字來注音，有時反而會造成不解[3]。這種情況在其他注音方法出現之後得到了改善，而韻書也常常把多種方法一起使用以追求準確。

關於反切法之源起，學界說法不一，但可以確定的是，它出現於佛教傳入中原後的東漢，魏晉開始盛行[註 2][4]。至於誰是第一個使用反切的人，自古以來便無定論，但總結起來不外乎三類：

此三類說法在年代上並無太大出入，然而第三種「反切西域說」卻收到了很大的反對。例如以胡以魯為首的人指出，漢代以前所見的「合音」現象，如「不可」為「叵」，「何不」為「盍」，「如是」為「爾」，「而已」為「耳」，「之乎」為「諸」，「者焉」為「旃」等，就可以做為反對的證據。

錢大昕說《詩經》已有反切，並且駁斥反切受佛經的影響，「豈古聖賢之智乃出梵僧下耶」，「吾於是知六經之道，大小悉備，後人詹詹之智，早不出聖賢範圍之外也」，但不能因此就否定反切普遍使用與佛教傳入有關[5]。

但是雖然合音和反切都是二字得出一音，但是卻有本質的不同。合音完全出於自然，例如是先有「不可」，快讀時自然合音為「叵」，當中並無對字音作出有意識的分析，「不可」也不是為標注「叵」的讀音而出現。而反切則是自覺地分析漢字讀音的結果。

反切乃中國第一個有系統、科學化的拼音方法，是古典聲韻學的一大里程碑。它對後世的影響是巨大的且不可否認的。

例如《切韻考》云：「蓋有反語，則類聚之即成韻書，此自然之勢也」，言反切是韻書之基礎也。自漢代出現反切以來，大大便利了文人對古籍的學習和在創作，由於當時學術派別與師承之傳統，後來所編排的韻書

In [55]:
print(content)
print(len(content))

[<p><b>反切</b>（又稱<b>反語</b>、<b>音反</b>）是中國自古以來<a class="mw-redirect" href="/wiki/%E6%BC%A2%E5%AD%97" title="漢字">漢字</a>（廣義的）<a class="mw-redirect" href="/wiki/%E6%A8%99%E9%9F%B3" title="標音">注音</a>方法，一般取兩個常用字：前者稱<b>反切上字</b>，取其雙聲之<a class="mw-redirect" href="/wiki/%E8%81%B2%E6%AF%8D" title="聲母">聲母</a>；後者稱<b>反切下字</b>，取其疊韻之<a class="mw-redirect" href="/wiki/%E9%9F%BB%E6%AF%8D" title="韻母">韻母</a>和<a href="/wiki/%E8%81%B2%E8%AA%BF" title="聲調">聲調</a><span id="noteTag-cite_ref-sup"><sup class="reference" id="cite_ref-1"><a href="#cite_note-1">[註 1]</a></sup></span><sup class="reference" id="cite_ref-2"><a href="#cite_note-2">[1]</a></sup>。反切是中國古代最主要和使用時間最長的注音方法之一。
</p>, <p>至於反切法之發明有說啟發自西域<a class="mw-redirect" href="/wiki/%E6%A2%B5%E6%96%87" title="梵文">梵文</a>字<sup class="reference" id="cite_ref-3"><a href="#cite_note-3">[2]</a></sup>，因此狹義上講，規律整齊的反切注音系統是<a class="mw-redirect" href="/wiki/%E6%8B%BC%E5%AF%AB%E5%AD%97%E6%AF%8D" title="拼寫字母">拼音字母</a>系統<sup class="reference" id="cite_ref-:0_4-0"><a href=

In [56]:
print(content[0])
print(type(content[0]))

<p><b>反切</b>（又稱<b>反語</b>、<b>音反</b>）是中國自古以來<a class="mw-redirect" href="/wiki/%E6%BC%A2%E5%AD%97" title="漢字">漢字</a>（廣義的）<a class="mw-redirect" href="/wiki/%E6%A8%99%E9%9F%B3" title="標音">注音</a>方法，一般取兩個常用字：前者稱<b>反切上字</b>，取其雙聲之<a class="mw-redirect" href="/wiki/%E8%81%B2%E6%AF%8D" title="聲母">聲母</a>；後者稱<b>反切下字</b>，取其疊韻之<a class="mw-redirect" href="/wiki/%E9%9F%BB%E6%AF%8D" title="韻母">韻母</a>和<a href="/wiki/%E8%81%B2%E8%AA%BF" title="聲調">聲調</a><span id="noteTag-cite_ref-sup"><sup class="reference" id="cite_ref-1"><a href="#cite_note-1">[註 1]</a></sup></span><sup class="reference" id="cite_ref-2"><a href="#cite_note-2">[1]</a></sup>。反切是中國古代最主要和使用時間最長的注音方法之一。
</p>
<class 'bs4.element.Tag'>


### 範例2：從爬取的文章內容中，擷取出有外部連結的關鍵字。這些關鍵字在文章中是以藍色字體顯示，會連到外部的網頁，並解釋其內容。

In [57]:
for ext_link in content:
    a_tag = ext_link.find_all('a', href=re.compile("^(/wiki/)((?!;)\S)*$"))
    if len(a_tag) > 0:
        for link_string in a_tag:
            a_link = link_string["href"]       # 外部連結的網址
            a_keyword = link_string.get_text()  # 外部連結的中文名稱
            print("外部連結: [%s] %s" % (a_keyword, a_link))

外部連結: [漢字] /wiki/%E6%BC%A2%E5%AD%97
外部連結: [注音] /wiki/%E6%A8%99%E9%9F%B3
外部連結: [聲母] /wiki/%E8%81%B2%E6%AF%8D
外部連結: [韻母] /wiki/%E9%9F%BB%E6%AF%8D
外部連結: [聲調] /wiki/%E8%81%B2%E8%AA%BF
外部連結: [梵文] /wiki/%E6%A2%B5%E6%96%87
外部連結: [拼音字母] /wiki/%E6%8B%BC%E5%AF%AB%E5%AD%97%E6%AF%8D
外部連結: [直音法] /wiki/%E7%9B%B4%E9%9F%B3%E6%B3%95
外部連結: [說文] /wiki/%E8%AA%AA%E6%96%87%E8%A7%A3%E5%AD%97
外部連結: [說文] /wiki/%E8%AA%AA%E6%96%87%E8%A7%A3%E5%AD%97
外部連結: [生僻字] /wiki/%E7%94%9F%E5%83%BB%E5%AD%97
外部連結: [錢大昕] /wiki/%E9%92%B1%E5%A4%A7%E6%98%95
外部連結: [詩經] /wiki/%E8%AF%97%E7%BB%8F
外部連結: [佛經] /wiki/%E4%BD%9B%E7%BB%8F
外部連結: [聲韻學] /wiki/%E8%81%B2%E9%9F%BB%E5%AD%B8
外部連結: [切韻考] /wiki/%E5%88%87%E9%9F%B5%E8%80%83
外部連結: [切韻] /wiki/%E5%88%87%E9%9F%BB
外部連結: [中古漢語] /wiki/%E4%B8%AD%E5%8F%A4%E6%BC%A2%E8%AA%9E
外部連結: [漢語音韻學] /wiki/%E6%BC%A2%E8%AA%9E%E9%9F%B3%E9%9F%BB%E5%AD%B8
外部連結: [聲母] /wiki/%E8%81%B2%E6%AF%8D
外部連結: [韻母] /wiki/%E9%9F%BB%E6%AF%8D
外部連結: [聲調] /wiki/%E8%81%B2%E8%AA%BF
外部連結: [普通話] /wiki/%E6%99%AE%E9%80%9A%E8%A9%B1
外部連結: 

In [58]:
for ext_link in content:
    print(ext_link.find_all('a', href=re.compile("^(/wiki/)((?!;)\S)*$")))

[<a class="mw-redirect" href="/wiki/%E6%BC%A2%E5%AD%97" title="漢字">漢字</a>, <a class="mw-redirect" href="/wiki/%E6%A8%99%E9%9F%B3" title="標音">注音</a>, <a class="mw-redirect" href="/wiki/%E8%81%B2%E6%AF%8D" title="聲母">聲母</a>, <a class="mw-redirect" href="/wiki/%E9%9F%BB%E6%AF%8D" title="韻母">韻母</a>, <a href="/wiki/%E8%81%B2%E8%AA%BF" title="聲調">聲調</a>]
[<a class="mw-redirect" href="/wiki/%E6%A2%B5%E6%96%87" title="梵文">梵文</a>, <a class="mw-redirect" href="/wiki/%E6%8B%BC%E5%AF%AB%E5%AD%97%E6%AF%8D" title="拼寫字母">拼音字母</a>]
[<a href="/wiki/%E7%9B%B4%E9%9F%B3%E6%B3%95" title="直音法">直音法</a>, <a class="mw-redirect" href="/wiki/%E8%AA%AA%E6%96%87%E8%A7%A3%E5%AD%97" title="說文解字">說文</a>, <a class="mw-redirect" href="/wiki/%E8%AA%AA%E6%96%87%E8%A7%A3%E5%AD%97" title="說文解字">說文</a>]
[<a href="/wiki/%E7%94%9F%E5%83%BB%E5%AD%97" title="生僻字">生僻字</a>]
[]
[]
[<a href="/wiki/%E9%92%B1%E5%A4%A7%E6%98%95" title="錢大昕">錢大昕</a>, <a href="/wiki/%E8%AF%97%E7%BB%8F" title="詩經">詩經</a>, <a href="/wiki/%E4%BD%9B%E7%BB%8

## 作業：接下來定義一個爬蟲函數，這個函數的主要工作為：
### (1) 爬取當前關鍵字的解釋，並存入檔案(因為文章內容太多會佔滿整個頁面，所以存程檔案，方便後續檢視)
### (2) 萃取出當前關鍵字所引用的外部連結，當作新的查詢關鍵字
### (3) 把第(2)擷取到的關鍵字當作新的關鍵字，回到第(1)步，爬取新的關鍵字解釋。

In [59]:
import os
os.makedirs('./WikiArticle', exist_ok=True )
os.chdir('./WikiArticle')

In [60]:
def WikiArticle(key_word_link, key_word, recursive):
    
    if (recursive <= max_recursive_depth):
        print("遞迴層[%d] - %s (%s)" % (recursive, key_word_link, key_word))
        
        # 模擬封包的標頭
        headers = {
            'authority': 'zh.wikipedia.org',
            'method': 'GET',
            'path': '/wiki/' + key_word_link,
            'scheme': 'https',
            'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3',
            'accept-encoding': 'gzip, deflate, br',
            'accept-language': 'zh-TW,zh;q=0.9,en-US;q=0.8,en;q=0.7,zh-CN;q=0.6',
            'cookie': 'GeoIP=TW:TPE:Taipei:25.05:121.53:v4; TBLkisOn=0; mwPhp7Seed=8b8; WMF-Last-Access-Global=04-Jun-2019; WMF-Last-Access=04-Jun-2019',
            'dnt': '1',
            #'if-modified-since': 'Tue, 04 Jun 2019 12:03:22 GMT',
            'referer': 'https://zh.wikipedia.org/wiki/Wikipedia:%E9%A6%96%E9%A1%B5',
            'upgrade-insecure-requests': '1',
            'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36'
        }    

        url = 'https://zh.wikipedia.org' + key_word_link  # 組合關鍵字查詢URL
        resp = requests.get(url, headers=headers)
        resp.encoding = 'utf-8'

        html = BeautifulSoup(resp.text, "lxml")
        content = html.find(name='div', attrs={'id':'mw-content-text'}).find_all(name='p')
        
        #
        # Part 1: 請參考範例1，爬取當前關鍵字的文章內容。
        #         因為內容太多，我們把它寫入檔案，並以關鍵字作為檔案名稱，以便稍後查閱內容。
        #         請先建立一個名為"WikiArticle"的資料夾，爬取到的文章內容會放在這個資料夾底下。
        #
#         os.makedirs('./WikiArticle', exist_ok=True )
#         os.chdir('./WikiArticle')
        with open(key_word+".txt","w",encoding="utf-8") as fh:
            for paragraph in content:
                f=fh.write(paragraph.get_text())
        
        #
        # Part 2: 請參考範例2，萃取出本篇文章中所延伸引用的外部連結，並儲存在external_link_dict
        #
        external_link_dict = dict({})    
        for ext_link in content:
            a_tag = ext_link.find_all('a', href=re.compile("^(/wiki/)((?!;)\S)*$"))
            if len(a_tag) > 0:
                for link_string in a_tag:
                    a_link = link_string["href"]       # 外部連結的網址
                    a_keyword = link_string.get_text()  # 外部連結的中文名稱
                    external_link_dict[a_link]=a_keyword
                    #print("外部連結: [%s] %s" % (a_keyword, a_link))
        #print(external_link_dict)

        #
        # Part 3: 將Part 2所收集的外部連結，當作新的關鍵字，繼續迭代深入爬蟲
        #
        if (len(external_link_dict) > 0):
            
            recursive = recursive + 1  # 遞迴深度加1
            
            for k,v in external_link_dict.items():
                WikiArticle(k, v, recursive)  # 再次呼叫同樣的函數，執行同樣的流程
                

### 執行前個步驟定義好的爬蟲主程式

In [61]:
# 定義爬取的遞迴深度。深度不要訂太深，否則會爬很久。
max_recursive_depth = 2

WikiArticle(root_keyword_link, input_keyword, 0)

遞迴層[0] - /wiki/%E5%8F%8D%E5%88%87 (反切)
遞迴層[1] - /wiki/%E6%BC%A2%E5%AD%97 (漢字)
遞迴層[2] - /wiki/%E5%BA%B7%E7%86%99%E9%83%A8%E9%A6%96 (康熙部首)
遞迴層[2] - /wiki/%E9%83%A8%E9%A6%96 (部首)
遞迴層[2] - /wiki/%E9%99%B6%E6%96%87 (陶文)
遞迴層[2] - /wiki/%E7%94%B2%E9%AA%A8%E6%96%87 (甲骨文)
遞迴層[2] - /wiki/%E9%87%91%E6%96%87 (金文)
遞迴層[2] - /wiki/%E5%8F%A4%E6%96%87_(%E6%96%87%E5%AD%97) (古文)
遞迴層[2] - /wiki/%E7%9F%B3%E9%BC%93%E6%96%87 (石鼓文)
遞迴層[2] - /wiki/%E7%B1%80%E6%96%87 (籀文)
遞迴層[2] - /wiki/%E9%B3%A5%E8%9F%B2%E6%9B%B8 (鳥蟲書)
遞迴層[2] - /wiki/%E7%AF%86%E4%B9%A6 (篆書)
遞迴層[2] - /wiki/%E5%A4%A7%E7%AF%86 (大篆)
遞迴層[2] - /wiki/%E5%B0%8F%E7%AF%86 (小篆)
遞迴層[2] - /wiki/%E9%9A%B6%E4%B9%A6 (隷書)
遞迴層[2] - /wiki/%E6%A5%B7%E4%B9%A6 (楷書)
遞迴層[2] - /wiki/%E8%A1%8C%E4%B9%A6 (行書)
遞迴層[2] - /wiki/%E8%8D%89%E4%B9%A6 (草書)
遞迴層[2] - /wiki/%E6%BC%86%E4%B9%A6 (漆書)
遞迴層[2] - /wiki/%E4%B8%AD%E5%9B%BD%E4%B9%A6%E6%B3%95 (書法)
遞迴層[2] - /wiki/%E9%A3%9B%E7%99%BD%E6%9B%B8 (飛白書)
遞迴層[2] - /wiki/%E7%AC%94%E7%94%BB (筆畫)
遞迴層[2] - /wiki/%E7%AC%94%E9%A1%BA (筆順)
遞迴層[

OSError: [Errno 22] Invalid argument: '?.txt'