# Wikipedia爬蟲練習
## 範例：練習是從Wikipedia中爬取文章。先定義一個搜尋的關鍵字，擷取該關鍵字詞的文章。

In [9]:
import requests
import re
import os
from bs4 import BeautifulSoup

### 先定義一個我們想搜尋的字詞，並將它轉換成UTF-8編碼後的URL

In [10]:
input_keyword = "鬼滅之刃"  # 這裡可以自己定義有興趣的關鍵字

utf8_url = repr(input_keyword.encode('UTF-8')).upper()  # 編碼成UTF-8並轉成大寫字元
utf8_url = utf8_url.replace("\\X", "%")                 # 用 '%' 取代 '\X' 
print("%s: %s" % (input_keyword, utf8_url[2:-1:1]))     # 擷取中間的編碼結果

# 組成Wiki關鍵字搜尋的網址格式
root_keyword_link = '/wiki/' + utf8_url[2:-1:1]
print(root_keyword_link)

鬼滅之刃: %E9%AC%BC%E6%BB%85%E4%B9%8B%E5%88%83
/wiki/%E9%AC%BC%E6%BB%85%E4%B9%8B%E5%88%83


### 範例1：送出關鍵字請求後，爬取該關鍵字的文章內容

In [11]:
# 模擬封包的標頭
headers = {
    'authority': 'zh.wikipedia.org',
    'method': 'GET',
    'path': '/wiki/' + root_keyword_link,
    'scheme': 'https',
    'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3',
    'accept-encoding': 'gzip, deflate, br',
    'accept-language': 'zh-TW,zh;q=0.9,en-US;q=0.8,en;q=0.7,zh-CN;q=0.6',
    'cookie': 'GeoIP=TW:TPE:Taipei:25.05:121.53:v4; TBLkisOn=0; mwPhp7Seed=8b8; WMF-Last-Access-Global=04-Jun-2019; WMF-Last-Access=04-Jun-2019',
    'dnt': '1',
    #'if-modified-since': 'Tue, 04 Jun 2019 12:03:22 GMT',
    'referer': 'https://zh.wikipedia.org/wiki/Wikipedia:%E9%A6%96%E9%A1%B5',
    'upgrade-insecure-requests': '1',
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36'
}    

url = 'https://zh.wikipedia.org' + root_keyword_link  # 組合關鍵字查詢URL
resp = requests.get(url, headers=headers)
resp.encoding = 'utf-8'

html = BeautifulSoup(resp.text, "lxml")
content = html.find(name='div', attrs={'id':'mw-content-text'}).find_all(name='p')

#
# 解析回傳資料，並萃取文章內容
#
for paragraph in content:
    print(paragraph.get_text())


《鬼滅之刃》（日語：鬼滅の刃）是由日本漫畫家吾峠呼世晴所創作的日本漫畫作品，於《週刊少年Jump》2016年11號開始連載中。[1]以大正時代為故事舞台，講述了主角竈門炭治郎全家被鬼殺害，為了尋求唯一倖存但被鬼化的妹妹變回人的方法，踏上了斬鬼之旅所描寫的純和風劍戟奇譚。[2]

截至2019年11月27日為止累計發行量已突破2500萬冊，同年12月4日開賣的日本版第18集初版就達到100萬冊。根據Oricon統計為2019年日本國內最暢銷漫畫。[3]

除了收錄漫畫的主要內容，還有「大正小道消息」、在《JUMP GIGA》刊載的四格漫畫番外、卷末附贈番外「完全中學！！鬼滅學園物語」等等附錄。

小說由矢島綾撰寫，揭曉原作未公開的設定和人物名字。

《鬼滅之刃公式漫迷手冊 鬼殺隊見聞錄》（鬼滅の刃公式ファンブック 鬼殺隊見聞録）

2018年6月4日於《週刊少年Jump》27號宣布改編為電視動畫，2019年4月至9月於TOKYO MX等電視台播放，動畫由ufotable製作，全26集。[11]

2019年9月28日，動畫播放完畢後以「竈門炭治郎 立志篇」為副標題，並宣布「無限列車篇」決定製作電影版，並釋出第一支預告片。[12]同年10月20日於特別活動《鬼滅之宴》中，宣布預計於2020年上映，同時釋出第二支預告片。

2019年3月29日，在電視動畫播放前將特別上映版《鬼滅之刃 兄妹之絆》，將於日本全國11間戲院展開為期兩週的限定上映，後因好評延長上映時間，內容是由電視動畫第1集至第5集所構成。此外全世界最快的首映於2019年3月19日東京的「新宿 Wald 9」舉辦。[13]同年3月30日也在台灣台南的「翻轉動漫祭」中舉辦動畫先行上映會。[14]

台灣巴哈姆特動畫瘋在播出期間內，播放量突破1200萬次，第19集的單集播放量則突破100萬次。至2019年12月止，播放量已累計1800萬次。

而中國大陸bilibili在播出期間內，播放量突破2億次。至2019年10月止，播放量已累計3億次。



台灣於2019年4月6日起，每週日由巴哈姆特動畫瘋、LiTV 線上影視、friDay影音等網路平台跟播。

《鬼滅電台》（鬼滅ラヂヲ）是官方網路廣播，於2019年2月27日起在音泉和YouTube首次發布，目前已發布27回，3月27日起每週星期三發布。[20][21]，

### 範例2：從爬取的文章內容中，擷取出有外部連結的關鍵字。這些關鍵字在文章中是以藍色字體顯示，會連到外部的網頁，並解釋其內容。

In [12]:
for ext_link in content:
    a_tag = ext_link.find_all('a', href=re.compile("^(/wiki/)((?!;)\S)*$"))
    if len(a_tag) > 0:
        for link_string in a_tag:
            a_link = link_string["href"]       # 外部連結的網址
            a_keyword = link_string.get_text()  # 外部連結的中文名稱
            print("外部連結: [%s] %s" % (a_keyword, a_link))

外部連結: [日本漫畫家] /wiki/%E6%97%A5%E6%9C%AC%E6%BC%AB%E7%95%AB%E5%AE%B6
外部連結: [吾峠呼世晴] /wiki/%E5%90%BE%E5%B3%A0%E5%91%BC%E4%B8%96%E6%99%B4
外部連結: [日本漫畫] /wiki/%E6%97%A5%E6%9C%AC%E6%BC%AB%E7%95%AB
外部連結: [週刊少年Jump] /wiki/%E9%80%B1%E5%88%8A%E5%B0%91%E5%B9%B4Jump
外部連結: [大正時代] /wiki/%E5%A4%A7%E6%AD%A3%E6%99%82%E4%BB%A3
外部連結: [鬼] /wiki/%E9%AC%BC
外部連結: [和風] /wiki/%E5%92%8C%E9%A2%A8
外部連結: [Oricon] /wiki/Oricon
外部連結: [週刊少年Jump] /wiki/%E9%80%B1%E5%88%8A%E5%B0%91%E5%B9%B4Jump
外部連結: [TOKYO MX] /wiki/TOKYO_MX
外部連結: [ufotable] /wiki/Ufotable
外部連結: [電影版] /wiki/%E5%8B%95%E7%95%AB%E9%9B%BB%E5%BD%B1
外部連結: [東京] /wiki/%E6%9D%B1%E4%BA%AC%E9%83%BD
外部連結: [台南] /wiki/%E5%8F%B0%E5%8D%97
外部連結: [巴哈姆特動畫瘋] /wiki/%E5%B7%B4%E5%93%88%E5%A7%86%E7%89%B9%E5%8B%95%E7%95%AB%E7%98%8B
外部連結: [bilibili] /wiki/Bilibili
外部連結: [台灣] /wiki/%E5%8F%B0%E7%81%A3
外部連結: [巴哈姆特動畫瘋] /wiki/%E5%B7%B4%E5%93%88%E5%A7%86%E7%89%B9%E5%8B%95%E7%95%AB%E7%98%8B
外部連結: [LiTV 線上影視] /wiki/LiTV_%E7%B7%9A%E4%B8%8A%E5%BD%B1%E8%A6%96
外部連結: [friDay影音] /wiki/FriDay%E5

## 作業：接下來定義一個爬蟲函數，這個函數的主要工作為：
### (1) 爬取當前關鍵字的解釋，並存入檔案(因為文章內容太多會佔滿整個頁面，所以存程檔案，方便後續檢視)
### (2) 萃取出當前關鍵字所引用的外部連結，當作新的查詢關鍵字
### (3) 把第(2)擷取到的關鍵字當作新的關鍵字，回到第(1)步，爬取新的關鍵字解釋。

In [13]:
def WikiArticle(key_word_link, key_word, recursive):
    
    if (recursive <= max_recursive_depth):
        print("遞迴層[%d] - %s (%s)" % (recursive, key_word_link, key_word))
        
        # 模擬封包的標頭
        headers = {
            'authority': 'zh.wikipedia.org',
            'method': 'GET',
            'path': '/wiki/' + key_word_link,
            'scheme': 'https',
            'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3',
            'accept-encoding': 'gzip, deflate, br',
            'accept-language': 'zh-TW,zh;q=0.9,en-US;q=0.8,en;q=0.7,zh-CN;q=0.6',
            'cookie': 'GeoIP=TW:TPE:Taipei:25.05:121.53:v4; TBLkisOn=0; mwPhp7Seed=8b8; WMF-Last-Access-Global=04-Jun-2019; WMF-Last-Access=04-Jun-2019',
            'dnt': '1',
            #'if-modified-since': 'Tue, 04 Jun 2019 12:03:22 GMT',
            'referer': 'https://zh.wikipedia.org/wiki/Wikipedia:%E9%A6%96%E9%A1%B5',
            'upgrade-insecure-requests': '1',
            'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36'
        }    

        url = 'https://zh.wikipedia.org' + key_word_link  # 組合關鍵字查詢URL
        resp = requests.get(url, headers=headers)
        resp.encoding = 'utf-8'

        html = BeautifulSoup(resp.text, "lxml")
        content = html.find(name='div', attrs={'id':'mw-content-text'}).find_all(name='p')
        
        #
        # Part 1: 請參考範例1，爬取當前關鍵字的文章內容。
        #         因為內容太多，我們把它寫入檔案，並以關鍵字作為檔案名稱，以便稍後查閱內容。
        #         請先建立一個名為"WikiArticle"的資料夾，爬取到的文章內容會放在這個資料夾底下。
        #
        output_dir = 'WikiArticle'

        if not os.path.exists(output_dir):
            os.makedirs(output_dir)
            
        output_file = '{outdir}/{outfile}.txt'.format(
            outdir=output_dir, outfile=key_word.replace('/', '_'))
        
        if os.path.exists(output_file):
            os.remove(output_file)

        with open(output_file, "w", encoding="utf-8") as fh:
            for paragraph in content:
                f = fh.write(paragraph.get_text())

        
        #
        # Part 2: 請參考範例2，萃取出本篇文章中所延伸引用的外部連結，並儲存在external_link_dict
        #
        external_link_dict = dict({})
         
        
        for ext_link in content:
            a_tag = ext_link.find_all('a', href=re.compile("^(/wiki/)((?!;)\S)*$"))
            if len(a_tag) > 0:
                for link_string in a_tag:
                    a_link = link_string["href"]       # 外部連結的網址
                    a_keyword = link_string.get_text()  # 外部連結的中文名稱
#                     print("外部連結: [%s] %s" % (a_keyword, a_link))
                    external_link_dict[a_link] = a_keyword
#         print(external_link_dict)

                    
        #
        # Part 3: 將Part 2所收集的外部連結，當作新的關鍵字，繼續迭代深入爬蟲
        #
        if (len(external_link_dict) > 0):
            
            recursive = recursive + 1  # 遞迴深度加1
            
            for k, v in external_link_dict.items():
                WikiArticle(k, v, recursive)  # 再次呼叫同樣的函數，執行同樣的流程
                

### 執行前個步驟定義好的爬蟲主程式

In [14]:
# 定義爬取的遞迴深度。深度不要訂太深，否則會爬很久。
max_recursive_depth = 2

WikiArticle(root_keyword_link, input_keyword, 0)

遞迴層[0] - /wiki/%E9%AC%BC%E6%BB%85%E4%B9%8B%E5%88%83 (鬼滅之刃)
遞迴層[1] - /wiki/%E6%97%A5%E6%9C%AC%E6%BC%AB%E7%95%AB%E5%AE%B6 (日本漫畫家)
遞迴層[2] - /wiki/%E6%97%A5%E6%9C%AC (日本)
遞迴層[2] - /wiki/%E6%BC%AB%E7%95%AB (漫畫)
遞迴層[2] - /wiki/%E6%BC%AB%E7%95%AB%E5%AE%B6 (漫畫家)
遞迴層[2] - /wiki/%E5%8A%87%E6%9C%AC (腳本)
遞迴層[2] - /wiki/%E6%AD%A6%E5%86%85%E7%9B%B4%E5%AD%90 (武內直子)
遞迴層[2] - /wiki/%E6%89%8B%E5%A1%9A%E6%B2%BB%E8%99%AB (手塚治虫)
遞迴層[1] - /wiki/%E5%90%BE%E5%B3%A0%E5%91%BC%E4%B8%96%E6%99%B4 (吾峠呼世晴)
遞迴層[2] - /wiki/%E6%97%A5%E6%9C%AC (日本)
遞迴層[2] - /wiki/%E6%BC%AB%E7%95%AB%E5%AE%B6 (漫畫家)
遞迴層[2] - /wiki/%E7%A6%8F%E5%B2%A1%E7%B8%A3 (福岡縣)
遞迴層[2] - /wiki/%E5%96%AE%E7%AF%87 (單篇)
遞迴層[2] - /wiki/JUMP%E5%AF%B6%E7%89%A9%E6%96%B0%E4%BA%BA%E6%BC%AB%E7%95%AB%E8%B3%9E (JUMP寶物新人漫畫賞)
遞迴層[2] - /wiki/%E7%AF%A0%E5%8E%9F%E5%81%A5%E5%A4%AA (篠原健太)
遞迴層[2] - /wiki/%E9%80%B1%E5%88%8A%E5%B0%91%E5%B9%B4Jump%E7%9A%84%E5%A2%9E%E5%88%8A%E8%99%9F (少年Jump＋)
遞迴層[2] - /wiki/%E9%9B%86%E8%8B%B1%E7%A4%BE (集英社)
遞迴層[2] - /wiki/%E9%80%B1%E5%88%8A%E5

遞迴層[2] - /wiki/%E6%A3%8B%E9%AD%82 (棋魂)
遞迴層[2] - /wiki/%E7%B6%B2%E7%90%83%E7%8E%8B%E5%AD%90 (網球王子)
遞迴層[2] - /wiki/%E6%AD%BB%E4%BA%A1%E7%AC%94%E8%AE%B0 (死亡筆記)
遞迴層[2] - /wiki/%E9%93%B6%E9%AD%82 (銀魂)
遞迴層[2] - /wiki/%E5%AE%B6%E5%BA%AD%E6%95%99%E5%B8%ABHITMAN_REBORN! (家庭教師HITMAN REBORN!)
遞迴層[2] - /wiki/%E9%A9%85%E9%AD%94%E5%B0%91%E5%B9%B4 (驅魔少年)
遞迴層[2] - /wiki/%E9%AD%94%E4%BA%BA%E5%81%B5%E6%8E%A2%E8%85%A6%E5%9A%99%E6%B6%85%E7%BE%85 (魔人偵探腦嚙涅羅)
遞迴層[2] - /wiki/%E5%87%BA%E5%8C%85%E7%8E%8B%E5%A5%B3 (出包王女)
遞迴層[2] - /wiki/SKET_DANCE (SKET DANCE)
遞迴層[2] - /wiki/%E5%A6%96%E6%80%AA%E5%B0%91%E7%88%BA (妖怪少爺)
遞迴層[2] - /wiki/%E7%BE%8E%E9%A3%9F%E7%8D%B5%E4%BA%BA (美食獵人)
遞迴層[2] - /wiki/%E7%88%86%E6%BC%AB%E7%8E%8B%E3%80%82 (爆漫王。)
遞迴層[2] - /wiki/%E5%BD%B1%E5%AD%90%E7%B1%83%E7%90%83%E5%93%A1 (影子籃球員)
遞迴層[2] - /wiki/%E6%83%A1%E9%AD%94%E5%A5%B6%E7%88%B8 (惡魔奶爸)
遞迴層[2] - /wiki/%E5%81%BD%E6%88%80 (偽戀)
遞迴層[2] - /wiki/%E6%8E%92%E7%90%83%E5%B0%91%E5%B9%B4!! (排球少年!!)
遞迴層[2] - /wiki/%E9%BD%8A%E6%9C%A8%E6%A5%A0%E9%9B%84%E7

KeyboardInterrupt: 