# Wikipedia爬蟲練習
## 範例：練習是從Wikipedia中爬取文章。先定義一個搜尋的關鍵字，擷取該關鍵字詞的文章。

In [1]:
import requests
import re
from bs4 import BeautifulSoup

### 先定義一個我們想搜尋的字詞，並將它轉換成UTF-8編碼後的URL

In [9]:
input_keyword = "咒術迴戰"  # 這裡可以自己定義有興趣的關鍵字

utf8_url = repr(input_keyword.encode('UTF-8')).upper()  # 編碼成UTF-8並轉成大寫字元
utf8_url = utf8_url.replace("\\X", "%")                 # 用 '%' 取代 '\X' 
print("%s: %s" % (input_keyword, utf8_url[2:-1:1]))     # 擷取中間的編碼結果

# 組成Wiki關鍵字搜尋的網址格式
root_keyword_link = '/wiki/' + utf8_url[2:-1:1]
print(root_keyword_link)

咒術迴戰: %E5%92%92%E8%A1%93%E8%BF%B4%E6%88%B0
/wiki/%E5%92%92%E8%A1%93%E8%BF%B4%E6%88%B0


### 範例1：送出關鍵字請求後，爬取該關鍵字的文章內容

In [11]:
# 模擬封包的標頭
headers = {
    'authority': 'zh.wikipedia.org',
    'method': 'GET',
    'path': '/wiki/' + root_keyword_link,
    'scheme': 'https',
    'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3',
    'accept-encoding': 'gzip, deflate, br',
    'accept-language': 'zh-TW,zh;q=0.9,en-US;q=0.8,en;q=0.7,zh-CN;q=0.6',
    'cookie': 'GeoIP=TW:TPE:Taipei:25.05:121.53:v4; TBLkisOn=0; mwPhp7Seed=8b8; WMF-Last-Access-Global=04-Jun-2019; WMF-Last-Access=04-Jun-2019',
    'dnt': '1',
    #'if-modified-since': 'Tue, 04 Jun 2019 12:03:22 GMT',
    'referer': 'https://zh.wikipedia.org/wiki/Wikipedia:%E9%A6%96%E9%A1%B5',
    'upgrade-insecure-requests': '1',
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36'
}    

url = 'https://zh.wikipedia.org' + root_keyword_link  # 組合關鍵字查詢URL
resp = requests.get(url, headers=headers)
resp.encoding = 'utf-8'

html = BeautifulSoup(resp.text, "lxml")
content = html.find(name='div', attrs={'id':'mw-content-text'}).find_all(name='p')

#
# 解析回傳資料，並萃取文章內容
#
for paragraph in content:
    print(paragraph.get_text())


台灣中文版漫畫單行本第1卷封面

《咒術迴戰》（日語：呪術廻戦）是日本漫畫家芥見下下的漫畫作品，集英社出版，於漫畫雜誌《週刊少年Jump》2018年第14號開始連載。作者2017年的漫畫作品《東京都立咒術高等專門學校》是本作的前身也是前傳。截至2021年6月，單行本銷量超過5,000萬本（含電子版）。改編電視動畫於2020年10月至2021年3月期間播映，共24集。改編自前傳的動畫電影《劇場版 咒術迴戰 0》將於2021年12月24日上映。

人類的負面情緒累積混雜後會形成咒靈並對人類造成危害，日本每年不明死亡或失蹤年均超過1萬人大部分因此造成，只有使用被稱為咒力的能量才得以祓除，而負責祓除的人被稱為「咒術師」。由於咒術師是利用負面能量（具體分為咒力和術式）與咒靈戰鬥的人，常常得目睹非術師或同行遇害的悲慘死狀，所以必須要有一定程度的瘋狂以及足夠的動機才能擔任此職。平常生活訓練中咒術師也必須自主學會控制汲取負面情緒如殺意作為咒力，而且要在激烈波動時也要想辦法不要浪費咒力。咒術（術式）跟咒力不同，是與生俱來刻在身體上的能力，因此咒術師的實力大概有八成都是依據此天賦，並不能靠後天學習。一般而言，付出的代價越高，咒力或咒術強度就會越高。因此有部分術師會付出利用束縛令自己能在特定時間或條件下增強自身實力。

日本有兩間咒術教育機構，分別位於東京和京都的咒術高等專門學校。咒物是帶有強大咒力的物品，通常因難以破壞而被咒術高專保管，若經過妥善封印，可以當作地方設施辟邪。一旦出現事故，就會派遣咒術高專相關人員到現場進行處理。

2016年11月，16歲的乙骨憂太因被特級咒靈祈本里香附身，在被同學欺凌時導致對方受重傷，被咒術界判了死刑。祈本里香生前是乙骨憂太的戀人，在6年前去世，並自此成為咒靈並附身在乙骨身上。在咒術師五條悟的幫助下，死刑暫緩，乙骨亦在2017年轉學到東京咒術高等專門學校就讀一年級，以找出解除里香詛咒的方法。他雖未學會控制咒力，但因身懷特級咒靈而被評為特級咒術師。他在那裏認識了同級同學禪院真希、狗卷棘、貓熊，並跟他們多次在校外合作祓除咒靈。過了一年，乙骨學會了控制咒力的方法，也跟同學們成為了朋友。

夏油傑是四名特級咒術師之一，也是五條在學生時期的摯友。他的目標為創造只有咒術師的世界，因大量虐殺一般人而被逐出咒術界。2017年12月24日，他發起「百鬼夜行」攻勢，在東京

### 範例2：從爬取的文章內容中，擷取出有外部連結的關鍵字。這些關鍵字在文章中是以藍色字體顯示，會連到外部的網頁，並解釋其內容。

In [12]:
for ext_link in content:
    a_tag = ext_link.find_all('a', href=re.compile("^(/wiki/)((?!;)\S)*$"))
    if len(a_tag) > 0:
        for link_string in a_tag:
            a_link = link_string["href"]       # 外部連結的網址
            a_keyword = link_string.get_text()  # 外部連結的中文名稱
            print("外部連結: [%s] %s" % (a_keyword, a_link))

外部連結: [日本漫畫家] /wiki/%E6%97%A5%E6%9C%AC%E6%BC%AB%E7%95%AB%E5%AE%B6
外部連結: [芥見下下] /wiki/%E8%8A%A5%E8%A7%81%E4%B8%8B%E4%B8%8B
外部連結: [漫畫] /wiki/%E6%97%A5%E6%9C%AC%E6%BC%AB%E7%95%AB
外部連結: [集英社] /wiki/%E9%9B%86%E8%8B%B1%E7%A4%BE
外部連結: [週刊少年Jump] /wiki/%E9%80%B1%E5%88%8A%E5%B0%91%E5%B9%B4Jump
外部連結: [電視動畫] /wiki/%E6%97%A5%E6%9C%AC%E9%9B%BB%E8%A6%96%E5%8B%95%E7%95%AB
外部連結: [2020年] /wiki/%E6%97%A5%E6%9C%AC%E5%8B%95%E7%95%AB%E5%88%97%E8%A1%A8_(2020%E5%B9%B4)
外部連結: [2021年] /wiki/%E6%97%A5%E6%9C%AC%E5%8B%95%E7%95%AB%E5%88%97%E8%A1%A8_(2021%E5%B9%B4)
外部連結: [劇場版 咒術迴戰 0] /wiki/%E5%8A%87%E5%A0%B4%E7%89%88_%E5%92%92%E8%A1%93%E8%BF%B4%E6%88%B0_0
外部連結: [東京] /wiki/%E6%9D%B1%E4%BA%AC%E9%83%BD
外部連結: [京都] /wiki/%E4%BA%AC%E9%83%BD
外部連結: [新宿] /wiki/%E6%96%B0%E5%AE%BF
外部連結: [菅原道真] /wiki/%E8%8F%85%E5%8E%9F%E9%81%93%E7%9C%9F
外部連結: [宿儺] /wiki/%E5%AE%BF%E5%84%BA
外部連結: [澀谷] /wiki/%E6%BE%80%E8%B0%B7
外部連結: [週刊少年Jump] /wiki/%E9%80%B1%E5%88%8A%E5%B0%91%E5%B9%B4Jump
外部連結: [巨型怪獸─ZIGA─] /wiki/%E5%B7%A8%E5%9E%8B%E6%80%AA%E7%8

## 作業：接下來定義一個爬蟲函數，這個函數的主要工作為：
### (1) 爬取當前關鍵字的解釋，並存入檔案(因為文章內容太多會佔滿整個頁面，所以存程檔案，方便後續檢視)
### (2) 萃取出當前關鍵字所引用的外部連結，當作新的查詢關鍵字
### (3) 把第(2)擷取到的關鍵字當作新的關鍵字，回到第(1)步，爬取新的關鍵字解釋。

In [19]:
def WikiArticle(key_word_link, key_word, recursive):
    
    if (recursive <= max_recursive_depth):
        print("遞迴層[%d] - %s (%s)" % (recursive, key_word_link, key_word))
        
        # 模擬封包的標頭
        headers = {
            'authority': 'zh.wikipedia.org',
            'method': 'GET',
            'path': '/wiki/' + key_word_link,
            'scheme': 'https',
            'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3',
            'accept-encoding': 'gzip, deflate, br',
            'accept-language': 'zh-TW,zh;q=0.9,en-US;q=0.8,en;q=0.7,zh-CN;q=0.6',
            'cookie': 'GeoIP=TW:TPE:Taipei:25.05:121.53:v4; TBLkisOn=0; mwPhp7Seed=8b8; WMF-Last-Access-Global=04-Jun-2019; WMF-Last-Access=04-Jun-2019',
            'dnt': '1',
            #'if-modified-since': 'Tue, 04 Jun 2019 12:03:22 GMT',
            'referer': 'https://zh.wikipedia.org/wiki/Wikipedia:%E9%A6%96%E9%A1%B5',
            'upgrade-insecure-requests': '1',
            'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36'
        }    

        url = 'https://zh.wikipedia.org' + key_word_link  # 組合關鍵字查詢URL
        resp = requests.get(url, headers=headers)
        resp.encoding = 'utf-8'

        html = BeautifulSoup(resp.text, "lxml")
        content = html.find(name='div', attrs={'id':'mw-content-text'}).find_all(name='p')
        
        #
        # Part 1: 請參考範例1，爬取當前關鍵字的文章內容。
        #         因為內容太多，我們把它寫入檔案，並以關鍵字作為檔案名稱，以便稍後查閱內容。
        #         請先建立一個名為"WikiArticle"的資料夾，爬取到的文章內容會放在這個資料夾底下。
        #
        '''
        
        Your code here
        
        '''
        for paragraph in content:  
            file_name = key_word.replace('/', '_')  # 以'_'取代'/', 避免檔名被誤解釋成路徑
            f = open("WikiArticle/" + file_name, "a+", encoding='utf-8')
            f.write( str(paragraph.get_text()) + "\n" )
            f.close()        
        
        #
        # Part 2: 請參考範例2，萃取出本篇文章中所延伸引用的外部連結，並儲存在external_link_dict
        #
        external_link_dict = dict({})
        '''
        
        Your code here
        
        '''
        for ext_link in content:
            a_tag = ext_link.find_all('a', href=re.compile("^(/wiki/)((?!;)\S)*$"))
            if len(a_tag) > 0:
                for link_string in a_tag:
                    a_link = link_string["href"]       # 外部連結的網址
                    a_keyword = link_string.get_text()  # 外部連結的中文名稱
                    #print("外部連結: %s [%s]" % (a_link, a_keyword))
                    external_link_dict[a_link] = a_keyword

                    
        #
        # Part 3: 將Part 2所收集的外部連結，當作新的關鍵字，繼續迭代深入爬蟲
        #
        if (len(external_link_dict) > 0):
            
            recursive = recursive + 1  # 遞迴深度加1
            
            for k, v in external_link_dict.items():
                WikiArticle(k, v, recursive)  # 再次呼叫同樣的函數，執行同樣的流程
                

### 執行前個步驟定義好的爬蟲主程式

In [20]:
# 定義爬取的遞迴深度。深度不要訂太深，否則會爬很久。
max_recursive_depth = 1

WikiArticle(root_keyword_link, input_keyword, 0)

遞迴層[0] - /wiki/%E5%92%92%E8%A1%93%E8%BF%B4%E6%88%B0 (咒術迴戰)
遞迴層[1] - /wiki/%E6%97%A5%E6%9C%AC%E6%BC%AB%E7%95%AB%E5%AE%B6 (日本漫畫家)
遞迴層[1] - /wiki/%E8%8A%A5%E8%A7%81%E4%B8%8B%E4%B8%8B (芥見下下)
遞迴層[1] - /wiki/%E6%97%A5%E6%9C%AC%E6%BC%AB%E7%95%AB (漫畫)
遞迴層[1] - /wiki/%E9%9B%86%E8%8B%B1%E7%A4%BE (集英社)
遞迴層[1] - /wiki/%E9%80%B1%E5%88%8A%E5%B0%91%E5%B9%B4Jump (週刊少年Jump)
遞迴層[1] - /wiki/%E6%97%A5%E6%9C%AC%E9%9B%BB%E8%A6%96%E5%8B%95%E7%95%AB (電視動畫)
遞迴層[1] - /wiki/%E6%97%A5%E6%9C%AC%E5%8B%95%E7%95%AB%E5%88%97%E8%A1%A8_(2020%E5%B9%B4) (2020年)
遞迴層[1] - /wiki/%E6%97%A5%E6%9C%AC%E5%8B%95%E7%95%AB%E5%88%97%E8%A1%A8_(2021%E5%B9%B4) (2021年)
遞迴層[1] - /wiki/%E5%8A%87%E5%A0%B4%E7%89%88_%E5%92%92%E8%A1%93%E8%BF%B4%E6%88%B0_0 (劇場版 咒術迴戰 0)
遞迴層[1] - /wiki/%E6%9D%B1%E4%BA%AC%E9%83%BD (東京)
遞迴層[1] - /wiki/%E4%BA%AC%E9%83%BD (京都)
遞迴層[1] - /wiki/%E6%96%B0%E5%AE%BF (新宿)
遞迴層[1] - /wiki/%E8%8F%85%E5%8E%9F%E9%81%93%E7%9C%9F (菅原道真)
遞迴層[1] - /wiki/%E5%AE%BF%E5%84%BA (宿儺)
遞迴層[1] - /wiki/%E6%BE%80%E8%B0%B7 (澀谷)
遞迴層[1] - /wiki/%E