# Wikipedia爬蟲練習
## 範例：練習是從Wikipedia中爬取文章。先定義一個搜尋的關鍵字，擷取該關鍵字詞的文章。

In [1]:
import requests
import re
from bs4 import BeautifulSoup

### 先定義一個我們想搜尋的字詞，並將它轉換成UTF-8編碼後的URL

In [2]:
input_keyword = "加密貨幣"  # 這裡可以自己定義有興趣的關鍵字

utf8_url = repr(input_keyword.encode('UTF-8')).upper()  # 編碼成UTF-8並轉成大寫字元
utf8_url = utf8_url.replace("\\X", "%")                 # 用 '%' 取代 '\X' 
print("%s: %s" % (input_keyword, utf8_url[2:-1:1]))     # 擷取中間的編碼結果

# 組成Wiki關鍵字搜尋的網址格式
root_keyword_link = '/wiki/' + utf8_url[2:-1:1]
print(root_keyword_link)

加密貨幣: %E5%8A%A0%E5%AF%86%E8%B2%A8%E5%B9%A3
/wiki/%E5%8A%A0%E5%AF%86%E8%B2%A8%E5%B9%A3


### 範例1：送出關鍵字請求後，爬取該關鍵字的文章內容

In [3]:
# 模擬封包的標頭
headers = {
    'authority': 'zh.wikipedia.org',
    'method': 'GET',
    'path': '/wiki/' + root_keyword_link,
    'scheme': 'https',
    'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3',
    'accept-encoding': 'gzip, deflate, br',
    'accept-language': 'zh-TW,zh;q=0.9,en-US;q=0.8,en;q=0.7,zh-CN;q=0.6',
    'cookie': 'GeoIP=TW:TPE:Taipei:25.05:121.53:v4; TBLkisOn=0; mwPhp7Seed=8b8; WMF-Last-Access-Global=04-Jun-2019; WMF-Last-Access=04-Jun-2019',
    'dnt': '1',
    #'if-modified-since': 'Tue, 04 Jun 2019 12:03:22 GMT',
    'referer': 'https://zh.wikipedia.org/wiki/Wikipedia:%E9%A6%96%E9%A1%B5',
    'upgrade-insecure-requests': '1',
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36'
}    

url = 'https://zh.wikipedia.org' + root_keyword_link  # 組合關鍵字查詢URL
resp = requests.get(url, headers=headers)
resp.encoding = 'utf-8'

html = BeautifulSoup(resp.text, "lxml")
content = html.find(name='div', attrs={'id':'mw-content-text'}).find_all(name='p')

#
# 解析回傳資料，並萃取文章內容
#
for paragraph in content:
    print(paragraph.get_text())


加密貨幣[1]（英文：Cryptocurrency，又譯密碼學貨幣、密碼貨幣）是一種使用密碼學原理來確保交易安全及控制交易單位創造的交易媒介。[2]

跟平常使用的紙幣需要防偽設計一樣，加密貨幣的防偽是利用數字貨幣和虛擬貨幣使用密碼學及數字雜湊而成並與智慧型合約的綁定之下的新型通證。比特幣在2009年成為第一個去中心化的加密貨幣，這之後加密貨幣一詞多指此類設計。[3] 自此之後數種類似的加密貨幣被創造，它們通常被稱作altcoins。[4][5][6]加密貨幣基於去中心化的共識機制[7]，與依賴中心化監管體系的銀行金融系統相對。[8]

去中心化的性質源自於使用分散式賬本的區塊鏈（Blockchain）技術。[9]

根據 Jan Lansky 所述，加密貨幣是滿足六個條件的系統： [10]

2018年3月，加密貨幣（英語：cryptocurrency）一詞被加入韋氏詞典中。 [11]

去中心化的加密貨幣是由整個加密貨幣系統共同生成的，加密貨幣的生成速率在系統建立時就已定義並公開。在中心化的銀行和經濟體系中（例如聯邦儲備系統），企業董事會或政府通過印刷法定貨幣或要求增加數字銀行分類帳的方式來控制貨幣的供應。而對於去中心化的加密貨幣，公司或政府無法製造新的加密貨幣，且迄今為止還沒有為持有資產價值的其他公司、銀行或企業實體提供背書。分散式加密貨幣所依託的技術體系由名為中本聰的團體或個人所構建。[12]

截至2018年5月 (2018-05)[update]，已有超過1,800種加密貨幣標準。[13]在加密貨幣系統中，分類帳的安全性、完整性和分類帳的餘額由許多被稱作礦工的互不信任的實體所維護：他們使用電腦幫助驗證交易、為交易添加時間戳，並根據特定的時間戳機制將交易添加至分類帳中。[14]

在大多數加密貨幣的設計中，加密貨幣的貨幣產量將會逐漸減少，使得最終能夠流通的貨幣的總額不超過設定的上限。[15]相比金融機構所持有的傳統貨幣或是手持的現金，加密貨幣更難以被執法機構搜查或扣押。[2]這種困難源自加密貨幣所使用的密碼學技術。 

比特幣是第一種以加密貨幣型態存在的數位貨幣，而比特幣以外的同型態貨幣，又稱為山寨幣、競爭幣（英語：altcoin），可經由獨立建立、硬分叉、透過ICO發行的代幣等方式建立，一部分參考比特幣、以太幣等思想、原理、原始碼產生的，與比特幣相似的虛

### 範例2：從爬取的文章內容中，擷取出有外部連結的關鍵字。這些關鍵字在文章中是以藍色字體顯示，會連到外部的網頁，並解釋其內容。

In [4]:
for ext_link in content:
    a_tag = ext_link.find_all('a', href=re.compile("^(/wiki/)((?!;)\S)*$"))
    if len(a_tag) > 0:
        for link_string in a_tag:
            a_link = link_string["href"]       # 外部連結的網址
            a_keyword = link_string.get_text()  # 外部連結的中文名稱
            print("外部連結: [%s] %s" % (a_keyword, a_link))

外部連結: [密碼學] /wiki/%E5%AF%86%E7%A2%BC%E5%AD%B8
外部連結: [交易媒介] /wiki/%E4%BA%A4%E6%98%93%E5%AA%92%E4%BB%8B
外部連結: [數字貨幣] /wiki/%E6%95%B8%E4%BD%8D%E8%B2%A8%E5%B9%A3
外部連結: [虛擬貨幣] /wiki/%E8%99%9A%E6%8B%9F%E8%B4%A7%E5%B8%81
外部連結: [比特幣] /wiki/%E6%AF%94%E7%89%B9%E5%B8%81
外部連結: [去中心化] /wiki/%E5%8E%BB%E4%B8%AD%E5%BF%83%E5%8C%96
外部連結: [分散式賬本] /wiki/%E5%88%86%E6%95%A3%E5%BC%8F%E8%B3%AC%E6%9C%AC
外部連結: [區塊鏈] /wiki/%E5%8C%BA%E5%9D%97%E9%93%BE
外部連結: [韋氏詞典] /wiki/%E9%9F%A6%E6%B0%8F%E8%AF%8D%E5%85%B8
外部連結: [聯邦儲備系統] /wiki/%E8%81%94%E9%82%A6%E5%82%A8%E5%A4%87%E7%B3%BB%E7%BB%9F
外部連結: [法定貨幣] /wiki/%E6%B3%95%E5%AE%9A%E8%B2%A8%E5%B9%A3
外部連結: [中本聰] /wiki/%E4%B8%AD%E6%9C%AC%E8%81%AA
外部連結: [時間戳] /wiki/%E6%99%82%E9%96%93%E6%88%B3
外部連結: [現金] /wiki/%E7%8F%BE%E9%87%91
外部連結: [比特幣] /wiki/%E6%AF%94%E7%89%B9%E5%B8%81
外部連結: [智慧型合約] /wiki/%E6%99%BA%E8%83%BD%E5%90%88%E7%BA%A6
外部連結: [比特幣] /wiki/%E6%AF%94%E7%89%B9%E5%B8%81
外部連結: [以太坊] /wiki/%E4%BB%A5%E5%A4%AA%E5%9D%8A
外部連結: [貴金屬] /wiki/%E8%B4%B5%E9%87%91%E5%B1%9E
外部連結: [法定貨幣] /w

## 作業：接下來定義一個爬蟲函數，這個函數的主要工作為：
### (1) 爬取當前關鍵字的解釋，並存入檔案(因為文章內容太多會佔滿整個頁面，所以存程檔案，方便後續檢視)
### (2) 萃取出當前關鍵字所引用的外部連結，當作新的查詢關鍵字
### (3) 把第(2)擷取到的關鍵字當作新的關鍵字，回到第(1)步，爬取新的關鍵字解釋。

In [9]:
def WikiArticle(key_word_link, key_word, recursive):
    
    if (recursive <= max_recursive_depth):
        print("遞迴層[%d] - %s (%s)" % (recursive, key_word_link, key_word))
        
        # 模擬封包的標頭
        headers = {
            'authority': 'zh.wikipedia.org',
            'method': 'GET',
            'path': '/wiki/' + key_word_link,
            'scheme': 'https',
            'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3',
            'accept-encoding': 'gzip, deflate, br',
            'accept-language': 'zh-TW,zh;q=0.9,en-US;q=0.8,en;q=0.7,zh-CN;q=0.6',
            'cookie': 'GeoIP=TW:TPE:Taipei:25.05:121.53:v4; TBLkisOn=0; mwPhp7Seed=8b8; WMF-Last-Access-Global=04-Jun-2019; WMF-Last-Access=04-Jun-2019',
            'dnt': '1',
            #'if-modified-since': 'Tue, 04 Jun 2019 12:03:22 GMT',
            'referer': 'https://zh.wikipedia.org/wiki/Wikipedia:%E9%A6%96%E9%A1%B5',
            'upgrade-insecure-requests': '1',
            'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36'
        }    

        url = 'https://zh.wikipedia.org' + key_word_link  # 組合關鍵字查詢URL
        resp = requests.get(url, headers=headers)
        resp.encoding = 'utf-8'

        html = BeautifulSoup(resp.text, "lxml")
        content = html.find(name='div', attrs={'id':'mw-content-text'}).find_all(name='p')
        
        #
        # Part 1: 請參考範例1，爬取當前關鍵字的文章內容。
        #         因為內容太多，我們把它寫入檔案，並以關鍵字作為檔案名稱，以便稍後查閱內容。
        #         請先建立一個名為"WikiArticle"的資料夾，爬取到的文章內容會放在這個資料夾底下。
        #
        '''
        
        Your code here
        
        '''

        import os 
        if not os.path.exists('.\WikiArticle'):
            os.makedirs('.\WikiArticle')
        path=os.path.join('.\WiKiArticle',key_word+'.txt')
        with open(path,'w',encoding='utf-8') as f:
            for paragraph in content:
                f.write(paragraph.get_text())
        
        f.close()
        
        #
        # Part 2: 請參考範例2，萃取出本篇文章中所延伸引用的外部連結，並儲存在external_link_dict
        #
        external_link_dict = dict({})
        '''
        
        Your code here
        
        '''
        for ext_link in content:
            a_tag = ext_link.find_all('a', href=re.compile("^(/wiki/)((?!;)\S)*$"))
            if len(a_tag) > 0:
                for link_string in a_tag:
                    a_link = link_string["href"]       # 外部連結的網址
                    a_keyword = link_string.get_text()  # 外部連結的中文名稱
                    print("外部連結: [%s] %s" % (a_keyword, a_link))
                    external_link_dict[a_link] = a_keyword
        #
        # Part 3: 將Part 2所收集的外部連結，當作新的關鍵字，繼續迭代深入爬蟲
        #
        if (len(external_link_dict) > 0):
            
            recursive = recursive + 1  # 遞迴深度加1
            
            for k, v in external_link_dict.items():
                WikiArticle(k, v, recursive)  # 再次呼叫同樣的函數，執行同樣的流程
                

### 執行前個步驟定義好的爬蟲主程式

In [None]:
# 定義爬取的遞迴深度。深度不要訂太深，否則會爬很久。
max_recursive_depth = 1

WikiArticle(root_keyword_link, input_keyword, 0)

遞迴層[0] - /wiki/%E5%8A%A0%E5%AF%86%E8%B2%A8%E5%B9%A3 (加密貨幣)
外部連結: [密碼學] /wiki/%E5%AF%86%E7%A2%BC%E5%AD%B8
外部連結: [交易媒介] /wiki/%E4%BA%A4%E6%98%93%E5%AA%92%E4%BB%8B
外部連結: [數字貨幣] /wiki/%E6%95%B8%E4%BD%8D%E8%B2%A8%E5%B9%A3
外部連結: [虛擬貨幣] /wiki/%E8%99%9A%E6%8B%9F%E8%B4%A7%E5%B8%81
外部連結: [比特幣] /wiki/%E6%AF%94%E7%89%B9%E5%B8%81
外部連結: [去中心化] /wiki/%E5%8E%BB%E4%B8%AD%E5%BF%83%E5%8C%96
外部連結: [分散式賬本] /wiki/%E5%88%86%E6%95%A3%E5%BC%8F%E8%B3%AC%E6%9C%AC
外部連結: [區塊鏈] /wiki/%E5%8C%BA%E5%9D%97%E9%93%BE
外部連結: [韋氏詞典] /wiki/%E9%9F%A6%E6%B0%8F%E8%AF%8D%E5%85%B8
外部連結: [聯邦儲備系統] /wiki/%E8%81%94%E9%82%A6%E5%82%A8%E5%A4%87%E7%B3%BB%E7%BB%9F
外部連結: [法定貨幣] /wiki/%E6%B3%95%E5%AE%9A%E8%B2%A8%E5%B9%A3
外部連結: [中本聰] /wiki/%E4%B8%AD%E6%9C%AC%E8%81%AA
外部連結: [時間戳] /wiki/%E6%99%82%E9%96%93%E6%88%B3
外部連結: [現金] /wiki/%E7%8F%BE%E9%87%91
外部連結: [比特幣] /wiki/%E6%AF%94%E7%89%B9%E5%B8%81
外部連結: [智慧型合約] /wiki/%E6%99%BA%E8%83%BD%E5%90%88%E7%BA%A6
外部連結: [比特幣] /wiki/%E6%AF%94%E7%89%B9%E5%B8%81
外部連結: [以太坊] /wiki/%E4%BB%A5%E5%A4%AA%E5%9D%8A
外部