# Wikipedia爬蟲練習
## 範例：練習是從Wikipedia中爬取文章。先定義一個搜尋的關鍵字，擷取該關鍵字詞的文章。

In [13]:
import requests
import re
from bs4 import BeautifulSoup
import os

### 先定義一個我們想搜尋的字詞，並將它轉換成UTF-8編碼後的URL

In [8]:
input_keyword = "來自深淵 (漫畫)"  # 這裡可以自己定義有興趣的關鍵字

utf8_url = repr(input_keyword.encode('UTF-8')).upper()  # 編碼成UTF-8並轉成大寫字元
utf8_url = utf8_url.replace("\\X", "%")                 # 用 '%' 取代 '\X' 
print("%s: %s" % (input_keyword, utf8_url[2:-1:1]))     # 擷取中間的編碼結果

# 組成Wiki關鍵字搜尋的網址格式
root_keyword_link = '/wiki/' + utf8_url[2:-1:1]
print(root_keyword_link)

來自深淵 (漫畫): %E4%BE%86%E8%87%AA%E6%B7%B1%E6%B7%B5 (%E6%BC%AB%E7%95%AB)
/wiki/%E4%BE%86%E8%87%AA%E6%B7%B1%E6%B7%B5 (%E6%BC%AB%E7%95%AB)


### 範例1：送出關鍵字請求後，爬取該關鍵字的文章內容

In [9]:
# 模擬封包的標頭
headers = {
    'authority': 'zh.wikipedia.org',
    'method': 'GET',
    'path': '/wiki/' + root_keyword_link,
    'scheme': 'https',
    'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3',
    'accept-encoding': 'gzip, deflate, br',
    'accept-language': 'zh-TW,zh;q=0.9,en-US;q=0.8,en;q=0.7,zh-CN;q=0.6',
    'cookie': 'GeoIP=TW:TPE:Taipei:25.05:121.53:v4; TBLkisOn=0; mwPhp7Seed=8b8; WMF-Last-Access-Global=04-Jun-2019; WMF-Last-Access=04-Jun-2019',
    'dnt': '1',
    #'if-modified-since': 'Tue, 04 Jun 2019 12:03:22 GMT',
    'referer': 'https://zh.wikipedia.org/wiki/Wikipedia:%E9%A6%96%E9%A1%B5',
    'upgrade-insecure-requests': '1',
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36'
}    

url = 'https://zh.wikipedia.org' + root_keyword_link  # 組合關鍵字查詢URL
resp = requests.get(url, headers=headers)
resp.encoding = 'utf-8'

html = BeautifulSoup(resp.text, "lxml")
content = html.find(name='div', attrs={'id':'mw-content-text'}).find_all(name='p') #使用兩層find, find_all

#
# 解析回傳資料，並萃取文章內容
#
for paragraph in content:
    print(paragraph.get_text())


《來自深淵》（日語：メイドインアビス，英語：MADE IN ABYSS）是奇幻題材的日本漫畫作品，由つくしあきひと創作，並於竹書房旗下漫畫網站《WEBコミックガンマ》上刊載。

2016年12月21日，開設了動畫的官方網站與推特帳號，並宣布將會動畫化[3][4]。2017年3月20日，於「AnimeJapan 2017」的KADOKAWA攤位公布將於2017年7月於電視上播放[5][6]。2017年11月26日官方在推特上宣布續篇製作確定[7]。2018年3月19日官方宣布將製作劇場版總集篇前篇「メイドインアビス 旅立ちの夜明け」、後篇「メイドインアビス 放浪する黃昏」，預計於2019年1月上映[8]。

於孤兒院生活的莉可，其願望是成為白笛，前往母親十年前前往的的深淵底層。某天莉可發現一個疑似來自深淵深處的機器人，將他取名為雷古，並發現不知因何原因而沒有記憶。為了收留雷古，莉可與好友替雷古編造孤兒身世，使他加入孤兒院。

不久後，之前下潛的黑笛探窟家哈勃返回，並帶回殲滅卿萊莎的白笛與書信。在書信中莉可看到疑似關於雷古的介紹與一句留言「在奈落之底等待」，同時由於雷古想了解自己的來歷，雷古和莉可在西奇等朋友的協助下潛入了深淵。

於深界二層莉可遭遇泣屍鳥襲擊，所幸雷古覺醒火葬砲後救回，之後抵達監視基地。莉可見到駐守於監視基地的白笛「不動卿奧森」後得知身世，兩人被奧森測試後認為太過弱小而給與了讓他們培養默契的「生存訓練」。訓練完成後奧森將遺物"無盡鎚"贈與莉可，最後繼續下潛。

到了深界四層之時，莉可受到穿彈獸攻擊而中毒，為了逃離雷古將莉可垂直往上帶，造成莉可又受詛咒陷入昏迷。此時娜娜奇現身協助治療莉可並將其帶回娜娜奇的基地。在基地遇到了娜娜奇的生骸朋友米蒂。治療莉可後娜娜奇告知深淵詛咒的運作狀況，並引導雷古達成對穿彈獸的復仇戰。在復仇戰中娜娜奇得知雷古的武器「火葬砲」，並請求雷古殺死米蒂。娜娜奇告知雷古自身與米蒂過往，敘述米蒂因上升負荷實驗而成為沒有意識卻死不了的怪物一事，唯有以高功率的武器一次性燒毀才不會復原。雷古殺死米蒂後莉可清醒，邀請娜娜奇加入隊伍後繼續往下探險[9]。

之後來到了深界五層的前線基地，但其旅程因為缺乏啟動下潛用遺物的「生命迴響之石」（即白笛）而中斷，一行人於是決定在前線基地中留宿。半夜莉可醒來，發現娜娜奇與雷古均離開。因此與黎明卿的「女兒」普魯

### 範例2：從爬取的文章內容中，擷取出有外部連結的關鍵字。這些關鍵字在文章中是以藍色字體顯示，會連到外部的網頁，並解釋其內容。

In [10]:
for ext_link in content:
    a_tag = ext_link.find_all('a', href=re.compile("^(/wiki/)((?!;)\S)*$"))
    if len(a_tag) > 0:
        for link_string in a_tag:
            a_link = link_string["href"]       # 外部連結的網址
            a_keyword = link_string.get_text()  # 外部連結的中文名稱
            print("外部連結: [%s] %s" % (a_keyword, a_link))

外部連結: [奇幻題材] /wiki/%E5%A5%87%E5%B9%BB%E4%BD%9C%E5%93%81
外部連結: [日本漫畫] /wiki/%E6%97%A5%E6%9C%AC%E6%BC%AB%E7%95%AB
外部連結: [つくしあきひと] /wiki/%E5%9C%9F%E7%AD%86%E7%AB%A0%E4%BA%BA
外部連結: [竹書房] /wiki/%E7%AB%B9%E6%9B%B8%E6%88%BF
外部連結: [推特] /wiki/Twitter
外部連結: [AnimeJapan 2017] /wiki/AnimeJapan
外部連結: [KADOKAWA] /wiki/KADOKAWA
外部連結: [雷古] /wiki/%E4%BE%86%E8%87%AA%E6%B7%B1%E6%B7%B5%E8%A7%92%E8%89%B2%E5%88%97%E8%A1%A8#雷古
外部連結: [哈勃] /wiki/%E4%BE%86%E8%87%AA%E6%B7%B1%E6%B7%B5%E8%A7%92%E8%89%B2%E5%88%97%E8%A1%A8#哈伯
外部連結: [殲滅卿萊莎] /wiki/%E4%BE%86%E8%87%AA%E6%B7%B1%E6%B7%B5%E8%A7%92%E8%89%B2%E5%88%97%E8%A1%A8#萊莎
外部連結: [西奇] /wiki/%E4%BE%86%E8%87%AA%E6%B7%B1%E6%B7%B5%E8%A7%92%E8%89%B2%E5%88%97%E8%A1%A8#西奇
外部連結: [不動卿奧森] /wiki/%E4%BE%86%E8%87%AA%E6%B7%B1%E6%B7%B5%E8%A7%92%E8%89%B2%E5%88%97%E8%A1%A8#奧森
外部連結: [穿彈獸] /wiki/%E4%BE%86%E8%87%AA%E6%B7%B1%E6%B7%B5%E8%A7%92%E8%89%B2%E5%88%97%E8%A1%A8#穿彈獸
外部連結: [娜娜奇] /wiki/%E5%A8%9C%E5%A8%9C%E5%A5%87
外部連結: [米蒂] /wiki/%E7%B1%B3%E8%92%82
外部連結: [普魯修卡] /wiki/%E4%BE%86%E8%87%AA

## 作業：接下來定義一個爬蟲函數，這個函數的主要工作為：
### (1) 爬取當前關鍵字的解釋，並存入檔案(因為文章內容太多會佔滿整個頁面，所以存程檔案，方便後續檢視)
### (2) 萃取出當前關鍵字所引用的外部連結，當作新的查詢關鍵字
### (3) 把第(2)擷取到的關鍵字當作新的關鍵字，回到第(1)步，爬取新的關鍵字解釋。

In [77]:
def WikiArticle(key_word_link, key_word, recursive):
    
    if (recursive <= max_recursive_depth):
        print("遞迴層[%d] - %s (%s)" % (recursive, key_word_link, key_word))
        
        # 模擬封包的標頭
        headers = {
            'authority': 'zh.wikipedia.org',
            'method': 'GET',
            'path': '/wiki/' + key_word_link,
            #有些連結是連到某個頁面的項目，若直接將整個link(包含#)帶入path, headers會出錯
            'scheme': 'https',
            'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3',
            'accept-encoding': 'gzip, deflate, br',
            'accept-language': 'zh-TW,zh;q=0.9,en-US;q=0.8,en;q=0.7,zh-CN;q=0.6',
            'cookie': 'GeoIP=TW:TPE:Taipei:25.05:121.53:v4; TBLkisOn=0; mwPhp7Seed=8b8; WMF-Last-Access-Global=04-Jun-2019; WMF-Last-Access=04-Jun-2019',
            'dnt': '1',
            #'if-modified-since': 'Tue, 04 Jun 2019 12:03:22 GMT',
            'referer': 'https://zh.wikipedia.org/wiki/Wikipedia:%E9%A6%96%E9%A1%B5',
            'upgrade-insecure-requests': '1',
            'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36'
        }    

        url = 'https://zh.wikipedia.org' + key_word_link  # 組合關鍵字查詢URL
        resp = requests.get(url)


        resp.encoding = 'utf-8'

        html = BeautifulSoup(resp.text, "lxml")
        content = html.find(name='div', attrs={'id':'mw-content-text'}).find_all(name='p')
        #
        # Part 1: 請參考範例1，爬取當前關鍵字的文章內容。
        #         因為內容太多，我們把它寫入檔案，並以關鍵字作為檔案名稱，以便稍後查閱內容。
        #         請先建立一個名為"WikiArticle"的資料夾，爬取到的文章內容會放在這個資料夾底下。
        #
        #step 1. 資料夾名稱
        output_dir = 'WikiArticle'
        #step 2. 確認資料夾是否存在
        if not os.path.exists(output_dir):
            os.makedirs(output_dir)
        para_lst =[]
        for paragraph in content:
            keyword_savename = '{outdir}/{file_name}.txt'.format(
                outdir=output_dir, file_name=key_word)
            para_lst.append(paragraph.get_text())
        with open(keyword_savename, "w") as f:
            f.writelines(para_lst)
        print('Save keyword {}'.format(keyword_savename))
        #
        # Part 2: 請參考範例2，萃取出本篇文章中所延伸引用的外部連結，並儲存在external_link_dict
        #空的dictionary
        external_link_dict = dict({})
        for ext_link in content:
            a_tag = ext_link.find_all('a', href=re.compile("^(/wiki/)((?!;)\S)*$"))
            if len(a_tag) > 0:
                for link_string in a_tag:
                    a_link = link_string["href"]       # 外部連結的網址
                    a_keyword = link_string.get_text()  # 外部連結的中文名稱
                    #將不同的variable存到key and values
                    external_link_dict[a_keyword]=a_link
                    
        #
        # Part 3: 將Part 2所收集的外部連結，當作新的關鍵字，繼續迭代深入爬蟲
        #
        if (len(external_link_dict) > 0):
            
            recursive = recursive + 1  # 遞迴深度加1
            
            for k, v in external_link_dict.items():
                WikiArticle(v, k, recursive)  # 再次呼叫同樣的函數，執行同樣的流程
                

### 執行前個步驟定義好的爬蟲主程式

In [78]:
# 定義爬取的遞迴深度。深度不要訂太深，否則會爬很久。
#只爬當個頁面的keyword, 而沒有爬再下一層
max_recursive_depth = 1

WikiArticle(root_keyword_link, input_keyword, 0)

遞迴層[0] - /wiki/%E4%BE%86%E8%87%AA%E6%B7%B1%E6%B7%B5 (%E6%BC%AB%E7%95%AB) (來自深淵 (漫畫))
Save keyword WikiArticle/來自深淵 (漫畫).txt
遞迴層[1] - /wiki/%E5%A5%87%E5%B9%BB%E4%BD%9C%E5%93%81 (奇幻題材)
Save keyword WikiArticle/奇幻題材.txt
遞迴層[1] - /wiki/%E6%97%A5%E6%9C%AC%E6%BC%AB%E7%95%AB (日本漫畫)
Save keyword WikiArticle/日本漫畫.txt
遞迴層[1] - /wiki/%E5%9C%9F%E7%AD%86%E7%AB%A0%E4%BA%BA (つくしあきひと)
Save keyword WikiArticle/つくしあきひと.txt
遞迴層[1] - /wiki/%E7%AB%B9%E6%9B%B8%E6%88%BF (竹書房)
Save keyword WikiArticle/竹書房.txt
遞迴層[1] - /wiki/Twitter (推特)
Save keyword WikiArticle/推特.txt
遞迴層[1] - /wiki/AnimeJapan (AnimeJapan 2017)
Save keyword WikiArticle/AnimeJapan 2017.txt
遞迴層[1] - /wiki/KADOKAWA (KADOKAWA)
Save keyword WikiArticle/KADOKAWA.txt
遞迴層[1] - /wiki/%E4%BE%86%E8%87%AA%E6%B7%B1%E6%B7%B5%E8%A7%92%E8%89%B2%E5%88%97%E8%A1%A8#雷古 (雷古)
Save keyword WikiArticle/雷古.txt
遞迴層[1] - /wiki/%E4%BE%86%E8%87%AA%E6%B7%B1%E6%B7%B5%E8%A7%92%E8%89%B2%E5%88%97%E8%A1%A8#哈伯 (哈勃)
Save keyword WikiArticle/哈勃.txt
遞迴層[1] - /wiki/%E4%BE%86%E8%87%