# Wikipedia爬蟲練習
## 範例：練習是從Wikipedia中爬取文章。先定義一個搜尋的關鍵字，擷取該關鍵字詞的文章。

In [15]:
import requests
import os
import re

from bs4 import BeautifulSoup

### 先定義一個我們想搜尋的字詞，並將它轉換成UTF-8編碼後的URL

In [12]:
input_keyword = "1917_(電影)"  # 這裡可以自己定義有興趣的關鍵字

utf8_url = repr(input_keyword.encode('UTF-8')).upper()  # 編碼成UTF-8並轉成大寫字元
utf8_url = utf8_url.replace("\\X", "%")                 # 用 '%' 取代 '\X' 
print("%s: %s" % (input_keyword, utf8_url[2:-1:1]))     # 擷取中間的編碼結果
# 組成Wiki關鍵字搜尋的網址格式
root_keyword_link = '/wiki/' + utf8_url[2:-1:1]
print(root_keyword_link)

1917_(電影): 1917_(%E9%9B%BB%E5%BD%B1)
/wiki/1917_(%E9%9B%BB%E5%BD%B1)


### 範例1：送出關鍵字請求後，爬取該關鍵字的文章內容

In [13]:
# 模擬封包的標頭
headers = {
    'authority': 'zh.wikipedia.org',
    'method': 'GET',
    'path': '/wiki/' + root_keyword_link,
    'scheme': 'https',
    'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3',
    'accept-encoding': 'gzip, deflate, br',
    'accept-language': 'zh-TW,zh;q=0.9,en-US;q=0.8,en;q=0.7,zh-CN;q=0.6',
    'cookie': 'GeoIP=TW:TPE:Taipei:25.05:121.53:v4; TBLkisOn=0; mwPhp7Seed=8b8; WMF-Last-Access-Global=04-Jun-2019; WMF-Last-Access=04-Jun-2019',
    'dnt': '1',
    #'if-modified-since': 'Tue, 04 Jun 2019 12:03:22 GMT',
    'referer': 'https://zh.wikipedia.org/wiki/Wikipedia:%E9%A6%96%E9%A1%B5',
    'upgrade-insecure-requests': '1',
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36'
}    

url = 'https://zh.wikipedia.org' + root_keyword_link  # 組合關鍵字查詢URL
resp = requests.get(url, headers=headers)
resp.encoding = 'utf-8'

html = BeautifulSoup(resp.text, "lxml")
content = html.find(name='div', attrs={'id':'mw-content-text'}).find_all(name='p')

#
# 解析回傳資料，並萃取文章內容
#
for paragraph in content:
    print(paragraph.get_text())


《1917》（英語：1917，香港譯《1917：逆戰救兵》，中國大陸譯《1917》）是一部2019年英國和美國合拍的戰爭片，由山姆·曼德斯執導並與克莉絲蒂·威爾森-克倫斯（英語：Krysty Wilson-Cairns）共同撰寫劇本，故事主要描述兩名年輕的英國士兵在第一次世界大戰期間穿越槍林彈雨，傳達重要情報從而阻止友軍落入德軍圈套。其主演包括喬治·麥凱、迪恩-查爾斯·查普曼、馬克·史壯、安德魯·史考特、理察·麥登、克萊兒·杜伯克（Claire Duburcq）、柯林·佛斯及班奈狄克·康柏拜區。

本片的部份內容是根據曼德斯的祖父阿爾佛雷德·曼德斯（英語：Alfred Mendes）所向他透露[7]。《1917》由環球影業定於2019年12月25日在美國上映，而英國則於2020年1月10日上映。

《1917》在第77屆金球獎上獲得多項提名，並最終斬獲最佳戲劇類影片和最佳導演。在第73屆英國電影學院獎上提名了9個獎項。成功奪下7個獎項包括最佳電影，最佳英國電影和最佳導演。在第92屆奧斯卡金像獎獲得10項提名。

1917年4月，第一次世界大戰激戰正酣。在西方戰線，德軍撤出法國北部的一個戰略據點。英軍士兵史科菲爾德和布萊克到艾林摩爾將軍處聽取任務簡報：據空中偵察部門（英語：Aerial reconnaissance in World War I）情報，德軍並未撤離，而是戰略性地後撤到新修建的興登堡防線，準備利用大砲對英軍展開壓倒性襲擊。由於戰地電話（英語：Field telephone）被切斷，史科菲爾德和布萊克需要人手將要求中斷進攻計劃的信件轉交給德文郡軍團（英語：Devonshire Regiment）第2營，否則展開貿然進攻會造成1600人喪生，布萊克的哥哥約瑟夫就在他們當中。

史科菲爾德和布萊克穿越無人區，進入到已經荒廢的德軍的戰壕。在戰壕的地道中，一隻老鼠碰到了絆線，造成埋藏好的炸藥爆炸。爆炸造成洞穴塌方，土方石掩埋了史科菲爾德。幸虧布萊克徒手將他挖出來，把他拉出地窖，他才逃過一劫。之後，他們來到一處廢棄的農舍，目擊到兩架英軍與一架德軍飛機在纏鬥，德軍飛機被擊落後，正好砸中了農舍。兩人一起將飛行員從著火的駕駛艙中拉起出來後，史科菲爾德說應該一槍打死他（英語：Coup de grâce），但布萊克要他去給飛行員打水喝。史科菲爾德拿著鋼盔去附近的水井打水，轉身

### 範例2：從爬取的文章內容中，擷取出有外部連結的關鍵字。這些關鍵字在文章中是以藍色字體顯示，會連到外部的網頁，並解釋其內容。

In [14]:
for ext_link in content:
    a_tag = ext_link.find_all('a', href=re.compile("^(/wiki/)((?!;)\S)*$"))
    if len(a_tag) > 0:
        for link_string in a_tag:
            a_link = link_string["href"]       # 外部連結的網址
            a_keyword = link_string.get_text()  # 外部連結的中文名稱
            print("外部連結: [%s] %s" % (a_keyword, a_link))

外部連結: [2019年] /wiki/2019%E5%B9%B4%E9%9B%BB%E5%BD%B1
外部連結: [英國] /wiki/%E8%8B%B1%E5%9C%8B
外部連結: [美國] /wiki/%E7%BE%8E%E5%9C%8B
外部連結: [戰爭片] /wiki/%E6%88%B0%E7%88%AD%E7%89%87
外部連結: [山姆·曼德斯] /wiki/%E5%B1%B1%E5%A7%86%C2%B7%E6%9B%BC%E5%BE%B7%E6%96%AF
外部連結: [第一次世界大戰] /wiki/%E7%AC%AC%E4%B8%80%E6%AC%A1%E4%B8%96%E7%95%8C%E5%A4%A7%E6%88%B0
外部連結: [喬治·麥凱] /wiki/%E5%96%AC%E6%B2%BB%C2%B7%E9%BA%A5%E5%87%B1
外部連結: [迪恩-查爾斯·查普曼] /wiki/%E8%BF%AA%E6%81%A9-%E6%9F%A5%E7%88%BE%E6%96%AF%C2%B7%E6%9F%A5%E6%99%AE%E6%9B%BC
外部連結: [馬克·史壯] /wiki/%E9%A6%AC%E5%85%8B%C2%B7%E5%8F%B2%E5%A3%AF
外部連結: [安德魯·史考特] /wiki/%E5%AE%89%E5%BE%B7%E9%AD%AF%C2%B7%E5%8F%B2%E8%80%83%E7%89%B9
外部連結: [理察·麥登] /wiki/%E7%90%86%E5%AF%9F%C2%B7%E9%BA%A5%E7%99%BB
外部連結: [柯林·佛斯] /wiki/%E6%9F%AF%E6%9E%97%C2%B7%E4%BD%9B%E6%96%AF
外部連結: [班奈狄克·康柏拜區] /wiki/%E7%8F%AD%E5%A5%88%E7%8B%84%E5%85%8B%C2%B7%E5%BA%B7%E6%9F%8F%E6%8B%9C%E5%8D%80
外部連結: [環球影業] /wiki/%E7%92%B0%E7%90%83%E5%BD%B1%E6%A5%AD
外部連結: [第77屆金球獎] /wiki/%E7%AC%AC77%E5%B1%86%E9%87%91%E7%90%83%E7%8D%8E
外部

## 作業：接下來定義一個爬蟲函數，這個函數的主要工作為：
### (1) 爬取當前關鍵字的解釋，並存入檔案(因為文章內容太多會佔滿整個頁面，所以存程檔案，方便後續檢視)
### (2) 萃取出當前關鍵字所引用的外部連結，當作新的查詢關鍵字
### (3) 把第(2)擷取到的關鍵字當作新的關鍵字，回到第(1)步，爬取新的關鍵字解釋。

In [34]:
def WikiArticle(key_word_link, key_word, recursive):
    
    if (recursive <= max_recursive_depth):
        print("遞迴層[%d] - %s (%s)" % (recursive, key_word_link, key_word))
        
        # 模擬封包的標頭
        headers = {
            'authority': 'zh.wikipedia.org',
            'method': 'GET',
            'path': '/wiki/' + key_word_link,
            'scheme': 'https',
            'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3',
            'accept-encoding': 'gzip, deflate, br',
            'accept-language': 'zh-TW,zh;q=0.9,en-US;q=0.8,en;q=0.7,zh-CN;q=0.6',
            'cookie': 'GeoIP=TW:TPE:Taipei:25.05:121.53:v4; TBLkisOn=0; mwPhp7Seed=8b8; WMF-Last-Access-Global=04-Jun-2019; WMF-Last-Access=04-Jun-2019',
            'dnt': '1',
            #'if-modified-since': 'Tue, 04 Jun 2019 12:03:22 GMT',
            'referer': 'https://zh.wikipedia.org/wiki/Wikipedia:%E9%A6%96%E9%A1%B5',
            'upgrade-insecure-requests': '1',
            'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36'
        }    

        url = 'https://zh.wikipedia.org' + key_word_link  # 組合關鍵字查詢URL
        resp = requests.get(url, headers=headers)
        resp.encoding = 'utf-8'

        html = BeautifulSoup(resp.text, "lxml")
        content = html.find(name='div', attrs={'id':'mw-content-text'}).find_all(name='p')
        
        #
        # Part 1: 請參考範例1，爬取當前關鍵字的文章內容。
        #         因為內容太多，我們把它寫入檔案，並以關鍵字作為檔案名稱，以便稍後查閱內容。
        #         請先建立一個名為"WikiArticle"的資料夾，爬取到的文章內容會放在這個資料夾底下。
        #
        output_dir='D:\\爬蟲\\D16\\WikiArticle'
        if not os.path.exists(output_dir):
            os.makedirs(output_dir)
        file_path =output_dir+'\\'+key_word+'.txt'
        with open( file_path,'a',encoding = 'utf8') as file:
            for paragraph in content:
                #print(paragraph.get_text())
                file.write(str(paragraph.get_text())+'\n')        
        
        #
        # Part 2: 請參考範例2，萃取出本篇文章中所延伸引用的外部連結，並儲存在external_link_dict
        #
        external_link_dict = dict({})
        for ext_link in content:
            a_tag = ext_link.find_all('a', href=re.compile("^(/wiki/)((?!;)\S)*$"))
            if len(a_tag) > 0:
                for link_string in a_tag:
                    a_link = link_string["href"]       # 外部連結的網址
                    a_keyword = link_string.get_text()  # 外部連結的中文名稱
                    external_link_dict[a_keyword]= a_link
                    
        #
        # Part 3: 將Part 2所收集的外部連結，當作新的關鍵字，繼續迭代深入爬蟲
        #
        if (len(external_link_dict) > 0):
            
            recursive = recursive + 1  # 遞迴深度加1
            
            for k, v in external_link_dict.items():
                WikiArticle(v, k, recursive)  # 再次呼叫同樣的函數，執行同樣的流程
                

### 執行前個步驟定義好的爬蟲主程式

In [36]:
# 定義爬取的遞迴深度。深度不要訂太深，否則會爬很久。
max_recursive_depth = 1

WikiArticle(root_keyword_link, input_keyword, 0)

遞迴層[0] - /wiki/1917_(%E9%9B%BB%E5%BD%B1) (1917_(電影))
遞迴層[1] - /wiki/2019%E5%B9%B4%E9%9B%BB%E5%BD%B1 (2019年)
遞迴層[1] - /wiki/%E8%8B%B1%E5%9C%8B (英國)
遞迴層[1] - /wiki/%E7%BE%8E%E5%9C%8B (美國)
遞迴層[1] - /wiki/%E6%88%B0%E7%88%AD%E7%89%87 (戰爭片)
遞迴層[1] - /wiki/%E5%B1%B1%E5%A7%86%C2%B7%E6%9B%BC%E5%BE%B7%E6%96%AF (山姆·曼德斯)
遞迴層[1] - /wiki/%E7%AC%AC%E4%B8%80%E6%AC%A1%E4%B8%96%E7%95%8C%E5%A4%A7%E6%88%B0 (第一次世界大戰)
遞迴層[1] - /wiki/%E5%96%AC%E6%B2%BB%C2%B7%E9%BA%A5%E5%87%B1 (喬治·麥凱)
遞迴層[1] - /wiki/%E8%BF%AA%E6%81%A9-%E6%9F%A5%E7%88%BE%E6%96%AF%C2%B7%E6%9F%A5%E6%99%AE%E6%9B%BC (迪恩-查爾斯·查普曼)
遞迴層[1] - /wiki/%E9%A6%AC%E5%85%8B%C2%B7%E5%8F%B2%E5%A3%AF (馬克·史壯)
遞迴層[1] - /wiki/%E5%AE%89%E5%BE%B7%E9%AD%AF%C2%B7%E5%8F%B2%E8%80%83%E7%89%B9 (安德魯·史考特)
遞迴層[1] - /wiki/%E7%90%86%E5%AF%9F%C2%B7%E9%BA%A5%E7%99%BB (理察·麥登)
遞迴層[1] - /wiki/%E6%9F%AF%E6%9E%97%C2%B7%E4%BD%9B%E6%96%AF (柯林·佛斯)
遞迴層[1] - /wiki/%E7%8F%AD%E5%A5%88%E7%8B%84%E5%85%8B%C2%B7%E5%BA%B7%E6%9F%8F%E6%8B%9C%E5%8D%80 (班奈狄克·康柏拜區)
遞迴層[1] - /wiki/%E7%92%B0%E7%90%83%E5