# Wikipedia爬蟲練習
## 範例：練習是從Wikipedia中爬取文章。先定義一個搜尋的關鍵字，擷取該關鍵字詞的文章。

In [1]:
import requests
import re
from bs4 import BeautifulSoup
import os

### 先定義一個我們想搜尋的字詞，並將它轉換成UTF-8編碼後的URL

In [2]:
input_keyword = "量子計算"  # 這裡可以自己定義有興趣的關鍵字

utf8_url = repr(input_keyword.encode('UTF-8')).upper()  # 編碼成UTF-8並轉成大寫字元
utf8_url = utf8_url.replace("\\X", "%")                 # 用 '%' 取代 '\X' 
print("%s: %s" % (input_keyword, utf8_url[2:-1:1]))     # 擷取中間的編碼結果

# 組成Wiki關鍵字搜尋的網址格式
root_keyword_link = '/wiki/' + utf8_url[2:-1:1]
print(root_keyword_link)

量子計算: %E9%87%8F%E5%AD%90%E8%A8%88%E7%AE%97
/wiki/%E9%87%8F%E5%AD%90%E8%A8%88%E7%AE%97


### 範例1：送出關鍵字請求後，爬取該關鍵字的文章內容

In [3]:
# 模擬封包的標頭
headers = {
    'authority': 'zh.wikipedia.org',
    'method': 'GET',
    'path': '/wiki/' + root_keyword_link,
    'scheme': 'https',
    'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3',
    'accept-encoding': 'gzip, deflate, br',
    'accept-language': 'zh-TW,zh;q=0.9,en-US;q=0.8,en;q=0.7,zh-CN;q=0.6',
    'cookie': 'GeoIP=TW:TPE:Taipei:25.05:121.53:v4; TBLkisOn=0; mwPhp7Seed=8b8; WMF-Last-Access-Global=04-Jun-2019; WMF-Last-Access=04-Jun-2019',
    'dnt': '1',
    #'if-modified-since': 'Tue, 04 Jun 2019 12:03:22 GMT',
    'referer': 'https://zh.wikipedia.org/wiki/Wikipedia:%E9%A6%96%E9%A1%B5',
    'upgrade-insecure-requests': '1',
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36'
}    

url = 'https://zh.wikipedia.org' + root_keyword_link  # 組合關鍵字查詢URL
resp = requests.get(url, headers=headers)
resp.encoding = 'utf-8'

html = BeautifulSoup(resp.text, "lxml")
content = html.find(name='div', attrs={'id':'mw-content-text'}).find_all(name='p')

#
# 解析回傳資料，並萃取文章內容
#
for paragraph in content:
    print(paragraph.get_text())


量子電腦（英語：Quantum computer）是一種使用量子邏輯進行通用計算的設備。不同於電子電腦（或稱傳統電腦），量子計算用來存儲數據的對象是量子位元，它使用量子演算法來進行數據操作。馬約拉納費米子反粒子就是自己本身的屬性，或許是令量子電腦的製造變成現實的一個關鍵。[1]量子電腦在輿論中有時被過度渲染成無所不能或速度快數億倍等，其實這種電腦是否強大極度看問題而定，若該問題已經有提出速算的量子演算法只是困於傳統電腦無法執行，那量子電腦確實能達到未有的高速，若是沒有發明演算法的問題則量子電腦表現與傳統無異甚至更差。[2]

隨著電腦科學的發展，史蒂芬·威斯納（英語：Stephen Wiesner）在1969年最早提出「基於量子力學的計算設備」。而關於「基於量子力學的資訊處理」的最早文章則是由亞歷山大·豪勒夫（1973）、帕帕拉維斯基（1975）、羅馬·印戈登（1976）和尤里·馬尼（1980）年發表[3][4][5][6]。史蒂芬·威斯納的文章發表於1983年[7]。1980年代一系列的研究使得量子電腦的理論變得豐富起來。1982年，理察·費曼在一個著名的演講中提出利用量子體系實現通用計算的想法。緊接著1985年大衛·杜斯提出了量子圖靈機模型[8]。人們研究量子電腦最初很重要的一個出發點是探索通用計算機的計算極限。當使用計算機模擬量子現象時，因為龐大的希爾伯特空間而資料量也變得龐大。一個完好的模擬所需的運算時間則變得相當長，甚至是不切實際的天文數字。理察·費曼當時就想到如果用量子系統所構成的計算機來模擬量子現象則運算時間可大幅度減少，從而量子電腦的概念誕生。半導體靠控制積體電路來記錄及運算資訊，量子電腦則希望控制原子或小分子的狀態，記錄和運算資訊。

量子電腦在1980年代多處於理論推導狀態。1994年彼德·秀爾提出量子質因數分解演算法後[9]，證明量子電腦能做出離散對數運算[10]，而且速度遠勝傳統電腦。因為量子不像半導體只能記錄0與1，可以同時表示多種狀態。如果把半導體比喻成單一樂器，量子電腦就像交響樂團，一次運算可以處理多種不同狀況，因此，一個40位元的量子電腦，就能在很短時間內解開1024位元電腦花上數十年解決的問題。因其對於現在通行於銀行及網路等處的RSA加密演算法可以破解而構成威脅之後，量子電腦變成了熱門的話題，除了理論之外，也有不少學者著力於利用各種

### 範例2：從爬取的文章內容中，擷取出有外部連結的關鍵字。這些關鍵字在文章中是以藍色字體顯示，會連到外部的網頁，並解釋其內容。

In [4]:
for ext_link in content:
    a_tag = ext_link.find_all('a', href=re.compile("^(/wiki/)((?!;)\S)*$"))
    if len(a_tag) > 0:
        for link_string in a_tag:
            a_link = link_string["href"]       # 外部連結的網址
            a_keyword = link_string.get_text()  # 外部連結的中文名稱
            print("外部連結: [%s] %s" % (a_keyword, a_link))

外部連結: [通用計算] /wiki/%E9%80%9A%E7%94%A8%E8%AE%A1%E7%AE%97
外部連結: [電子電腦] /wiki/%E7%94%B5%E5%AD%90%E8%AE%A1%E7%AE%97%E6%9C%BA
外部連結: [量子位元] /wiki/%E9%87%8F%E5%AD%90%E4%BD%8D%E5%85%83
外部連結: [馬約拉納費米子] /wiki/%E9%A9%AC%E7%BA%A6%E6%8B%89%E7%BA%B3%E8%B4%B9%E7%B1%B3%E5%AD%90
外部連結: [反粒子] /wiki/%E5%8F%8D%E7%B2%92%E5%AD%90
外部連結: [演算法] /wiki/%E6%BC%94%E7%AE%97%E6%B3%95
外部連結: [電腦科學] /wiki/%E8%AE%A1%E7%AE%97%E6%9C%BA%E7%A7%91%E5%AD%A6
外部連結: [電腦] /wiki/%E8%AE%A1%E7%AE%97%E6%9C%BA
外部連結: [理察·費曼] /wiki/%E7%90%86%E6%9F%A5%E5%BE%B7%C2%B7%E8%B2%BB%E6%9B%BC
外部連結: [量子圖靈機] /wiki/%E9%87%8F%E5%AD%90%E5%9C%96%E9%9D%88%E6%A9%9F
外部連結: [量子] /wiki/%E9%87%8F%E5%AD%90
外部連結: [希爾伯特空間] /wiki/%E5%B8%8C%E7%88%BE%E4%BC%AF%E7%89%B9%E7%A9%BA%E9%96%93
外部連結: [計算機] /wiki/%E8%A8%88%E7%AE%97%E6%A9%9F
外部連結: [積體電路] /wiki/%E7%A9%8D%E9%AB%94%E9%9B%BB%E8%B7%AF
外部連結: [彼德·秀爾] /wiki/%E5%BD%BC%E5%BE%97%C2%B7%E7%A7%80%E7%88%BE
外部連結: [量子質因數分解演算法] /wiki/%E7%A7%80%E7%88%BE%E6%BC%94%E7%AE%97%E6%B3%95
外部連結: [離散對數] /wiki/%E7%A6%BB%E6%95%A3%E5%AF%B9%E6

## 作業：接下來定義一個爬蟲函數，這個函數的主要工作為：
### (1) 爬取當前關鍵字的解釋，並存入檔案(因為文章內容太多會佔滿整個頁面，所以存程檔案，方便後續檢視)
### (2) 萃取出當前關鍵字所引用的外部連結，當作新的查詢關鍵字
### (3) 把第(2)擷取到的關鍵字當作新的關鍵字，回到第(1)步，爬取新的關鍵字解釋。

In [5]:
def WikiArticle(key_word_link, key_word, recursive):
    
    if (recursive <= max_recursive_depth):
        print("遞迴層[%d] - %s (%s)" % (recursive, key_word_link, key_word))
        
        # 模擬封包的標頭
        headers = {
            'authority': 'zh.wikipedia.org',
            'method': 'GET',
            'path': '/wiki/' + key_word_link,
            'scheme': 'https',
            'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3',
            'accept-encoding': 'gzip, deflate, br',
            'accept-language': 'zh-TW,zh;q=0.9,en-US;q=0.8,en;q=0.7,zh-CN;q=0.6',
            'cookie': 'GeoIP=TW:TPE:Taipei:25.05:121.53:v4; TBLkisOn=0; mwPhp7Seed=8b8; WMF-Last-Access-Global=04-Jun-2019; WMF-Last-Access=04-Jun-2019',
            'dnt': '1',
            #'if-modified-since': 'Tue, 04 Jun 2019 12:03:22 GMT',
            'referer': 'https://zh.wikipedia.org/wiki/Wikipedia:%E9%A6%96%E9%A1%B5',
            'upgrade-insecure-requests': '1',
            'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36'
        }    

        url = 'https://zh.wikipedia.org' + key_word_link  # 組合關鍵字查詢URL
        resp = requests.get(url, headers=headers)
        resp.encoding = 'utf-8'

        html = BeautifulSoup(resp.text, "lxml")
        content = html.find(name='div', attrs={'id':'mw-content-text'}).find_all(name='p')
        
        #
        # Part 1: 請參考範例1，爬取當前關鍵字的文章內容。
        #         因為內容太多，我們把它寫入檔案，並以關鍵字作為檔案名稱，以便稍後查閱內容。
        #         請先建立一個名為"WikiArticle"的資料夾，爬取到的文章內容會放在這個資料夾底下。
        #
        #
        
        # 解析回傳資料，並萃取文章內容
        #
        path = "./wikiArticle"
        if not os.path.isdir(path):
            os.mkdir(path)
        files = path+'/'+key_word+'.txt'
        
        with open(files, "w", encoding="UTF-8") as fileobject:
            for paragraph in content:
                f = fileobject.write(paragraph.get_text())

        #
        # Part 2: 請參考範例2，萃取出本篇文章中所延伸引用的外部連結，並儲存在external_link_dict
        #
        external_link_dict = dict({})
        
        for ext_link in content:
            a_tag = ext_link.find_all('a', href=re.compile("^(/wiki/)((?!;)\S)*$"))
            if len(a_tag) > 0:
                for link_string in a_tag:
                    a_link = link_string["href"]       # 外部連結的網址
                    a_keyword = link_string.get_text()  # 外部連結的中文名稱
#                     print("外部連結: [%s] %s" % (a_keyword, a_link))
                    external_link_dict[a_link] = a_keyword
        
        #
        # Part 3: 將Part 2所收集的外部連結，當作新的關鍵字，繼續迭代深入爬蟲
        #
        if (len(external_link_dict) > 0):
            
            recursive = recursive + 1  # 遞迴深度加1
            
            for k, v in external_link_dict.items():
                WikiArticle(k, v, recursive)  # 再次呼叫同樣的函數，執行同樣的流程
                

### 執行前個步驟定義好的爬蟲主程式

In [6]:
# 定義爬取的遞迴深度。深度不要訂太深，否則會爬很久。
max_recursive_depth = 2

WikiArticle(root_keyword_link, input_keyword, 0)

遞迴層[0] - /wiki/%E9%87%8F%E5%AD%90%E8%A8%88%E7%AE%97 (量子計算)
遞迴層[1] - /wiki/%E9%80%9A%E7%94%A8%E8%AE%A1%E7%AE%97 (通用計算)
遞迴層[2] - /wiki/%E5%9C%96%E5%BD%A2%E8%99%95%E7%90%86%E5%99%A8 (圖形處理器)
遞迴層[2] - /wiki/%E4%B8%AD%E5%A4%AE%E5%A4%84%E7%90%86%E5%99%A8 (中央處理器)
遞迴層[2] - /wiki/%E5%8D%95%E6%8C%87%E4%BB%A4%E6%B5%81%E5%A4%9A%E6%95%B0%E6%8D%AE%E6%B5%81 (單指令流多資料流)
遞迴層[2] - /wiki/%E5%8C%97%E4%BA%AC (北京)
遞迴層[2] - /wiki/%E4%BA%92%E8%81%94%E7%BD%91%E6%A1%A3%E6%A1%88%E9%A6%86 (網際網路檔案館)
遞迴層[2] - /wiki/NVIDIA (NVIDIA)
遞迴層[1] - /wiki/%E7%94%B5%E5%AD%90%E8%AE%A1%E7%AE%97%E6%9C%BA (電子電腦)
遞迴層[2] - /wiki/%E6%95%B0%E5%AD%97%E7%94%B5%E5%AD%90%E6%8A%80%E6%9C%AF (數位電子技術)
遞迴層[2] - /wiki/%E8%AE%A1%E7%AE%97%E6%9C%BA%E7%A8%8B%E5%BA%8F (程式)
遞迴層[2] - /wiki/%E5%BE%AE%E6%B3%A2%E7%82%89 (微波爐)
遞迴層[2] - /wiki/%E9%81%A5%E6%8E%A7%E5%99%A8 (遙控器)
遞迴層[2] - /wiki/%E5%B7%A5%E4%B8%9A%E6%9C%BA%E5%99%A8%E4%BA%BA (工業機器人)
遞迴層[2] - /wiki/%E8%AE%A1%E7%AE%97%E6%9C%BA%E8%BE%85%E5%8A%A9%E8%AE%BE%E8%AE%A1 (電腦輔助設計)
遞迴層[2] - /wiki/%E4%B8%AA%E4

FileNotFoundError: [Errno 2] No such file or directory: './wikiArticle/自旋1/2.txt'