# Wikipedia爬蟲練習
## 範例：練習是從Wikipedia中爬取文章。先定義一個搜尋的關鍵字，擷取該關鍵字詞的文章。

In [1]:
import requests
import re
from bs4 import BeautifulSoup

### 先定義一個我們想搜尋的字詞，並將它轉換成UTF-8編碼後的URL

In [2]:
input_keyword = "天氣之子"  # 這裡可以自己定義有興趣的關鍵字

utf8_url = repr(input_keyword.encode('UTF-8')).upper()  # 編碼成UTF-8並轉成大寫字元
# B'\XE7\XB6\XB2\XE8\XB7\XAF\XE7\X88\XAC\XE8\X9F\XB2'
utf8_url = utf8_url.replace("\\X", "%")                 # 用 '%' 取代 '\X' 
# B'%E7%B6%B2%E8%B7%AF%E7%88%AC%E8%9F%B2'
print("%s: %s" % (input_keyword, utf8_url[2:-1:1]))     # 擷取中間的編碼結果

# 組成Wiki關鍵字搜尋的網址格式
root_keyword_link = '/wiki/' + utf8_url[2:-1:1]
print(root_keyword_link)

天氣之子: %E5%A4%A9%E6%B0%A3%E4%B9%8B%E5%AD%90
/wiki/%E5%A4%A9%E6%B0%A3%E4%B9%8B%E5%AD%90


### 範例1：送出關鍵字請求後，爬取該關鍵字的文章內容

In [3]:
# 模擬封包的標頭
headers = {
    'authority': 'zh.wikipedia.org',
    'method': 'GET',
    'path': '/wiki/' + root_keyword_link,
    'scheme': 'https',
    'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3',
    'accept-encoding': 'gzip, deflate, br',
    'accept-language': 'zh-TW,zh;q=0.9,en-US;q=0.8,en;q=0.7,zh-CN;q=0.6',
    'cookie': 'GeoIP=TW:TPE:Taipei:25.05:121.53:v4; TBLkisOn=0; mwPhp7Seed=8b8; WMF-Last-Access-Global=04-Jun-2019; WMF-Last-Access=04-Jun-2019',
    'dnt': '1',
    #'if-modified-since': 'Tue, 04 Jun 2019 12:03:22 GMT',
    'referer': 'https://zh.wikipedia.org/wiki/Wikipedia:%E9%A6%96%E9%A1%B5',
    'upgrade-insecure-requests': '1',
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36'
}    

url = 'https://zh.wikipedia.org' + root_keyword_link  # 組合關鍵字查詢URL
resp = requests.get(url, headers=headers)
resp.encoding = 'utf-8'

html = BeautifulSoup(resp.text, "lxml")
content = html.find(name='div', attrs={'id':'mw-content-text'}).find_all(name='p')

#
# 解析回傳資料，並萃取文章內容
#
for paragraph in content:
    print(paragraph.get_text())




《天氣之子》（日語：天気の子，英語：Weathering With You）是日本動畫家新海誠編劇並執導的動畫電影，於2019年7月19日在日本上映。這是新海誠繼《你的名字》後時隔三年的又一部動畫電影，也是他的第七部及進入令和時代後的首部動畫電影[3][4][5]，更獲得代表日本角逐第92屆奧斯卡最佳國際影片獎和第44屆多倫多國際影展特別放映組的資格[6]。

故事開始於東京奧運結束後的2021年（令和3年）夏天[8]，「很想試試在那光芒之中前行！」家鄉位在伊豆七島最南端的神津島高中一年級少年森嶋帆高離家出走，獨自一人來到東京都。拮据的生活迫使他不得不找份工作，終於找到的一份工作卻只是為一本古怪的神秘學雜誌擔任寫手。

在這座繁忙城市裡到處取材的帆高，邂逅了與弟弟相依為命、不可思議的美少女陽菜。陽菜個性堅強、開朗。在廢棄大樓雜草叢生的屋頂上，陽菜跟帆高說：「馬上就會放晴了喔。」在陽菜這句話之後，頭頂的烏雲逐漸散去，耀眼的陽光灑落街道，灰色的世界恢復了鮮豔色彩。原來，陽菜擁有「改變天氣」的奇妙能力！在氣候異常的時代，被命運捉弄的少年少女，該如何「選擇」自己的生活？

由RADWIMPS所創作的電影配樂專輯，於電影上映當日（2019年7月19日）發售。[10][11]

由新海誠本人撰寫的小說，於電影上映前一日（2019年7月18日）發售。[12]角川翼文庫（日語：角川つばさ文庫）還推出由ちーこ繪製插圖、將小說內容標上振假名，適合較低年齡層讀者的版本。

窪田航作畫。於《月刊Afternoon（日語：月刊アフタヌーン）》2019年9月號開始連載。

首週開出16億4380萬日元的票房，位居當週票房冠軍[25]。上映三十四天，票房突破100億日元，新海誠成為在宮崎駿之後，第二位達成2部作品突破100億日元的日本電影導演[26]。截至10月27日為止，票房累計至138.2億日幣[1]。

首日票房開出新台幣破千萬元[27]；首週四天票房為新台幣5405萬元[28]；2019年9月22日，上映第11天全台票房破億[29][28]；次週票房累計至新台幣1億元[28]；第三週票房累計至新台幣1.29億元[30]；第四週票房累計至新台幣1.45億元[31]；截至11月17日為止，票房累計至新台幣1.64億元[2]。

上映十一天，取得201萬令吉，截止23日票房達250萬令吉。

### 範例2：從爬取的文章內容中，擷取出有外部連結的關鍵字。這些關鍵字在文章中是以藍色字體顯示，會連到外部的網頁，並解釋其內容。

In [4]:
for ext_link in content:
    a_tag = ext_link.find_all('a', href=re.compile("^(/wiki/)((?!;)\S)*$"))
    if len(a_tag) > 0:
        for link_string in a_tag:
            a_link = link_string["href"]       # 外部連結的網址
            a_keyword = link_string.get_text()  # 外部連結的中文名稱
            print("外部連結: [%s] %s" % (a_keyword, a_link))

外部連結: [日本] /wiki/%E6%97%A5%E6%9C%AC
外部連結: [新海誠] /wiki/%E6%96%B0%E6%B5%B7%E8%AF%9A
外部連結: [動畫電影] /wiki/%E5%8B%95%E7%95%AB%E9%9B%BB%E5%BD%B1
外部連結: [你的名字] /wiki/%E4%BD%A0%E7%9A%84%E5%90%8D%E5%AD%97%E3%80%82
外部連結: [令和] /wiki/%E4%BB%A4%E5%92%8C
外部連結: [第92屆奧斯卡] /wiki/%E7%AC%AC92%E5%B1%86%E5%A5%A5%E6%96%AF%E5%8D%A1%E6%9C%80%E4%BD%B3%E5%9C%8B%E9%9A%9B%E5%BD%B1%E7%89%87%E8%A7%92%E9%80%90%E5%90%8D%E5%96%AE
外部連結: [最佳國際影片獎] /wiki/%E5%A5%A5%E6%96%AF%E5%8D%A1%E6%9C%80%E4%BD%B3%E5%9B%BD%E9%99%85%E5%BD%B1%E7%89%87%E5%A5%96
外部連結: [第44屆多倫多國際影展] /wiki/2019%E5%B9%B4%E5%A4%9A%E5%80%AB%E5%A4%9A%E5%9C%8B%E9%9A%9B%E5%BD%B1%E5%B1%95
外部連結: [東京奧運] /wiki/2020%E5%B9%B4%E5%A4%8F%E5%AD%A3%E5%A5%A5%E6%9E%97%E5%8C%B9%E5%85%8B%E8%BF%90%E5%8A%A8%E4%BC%9A
外部連結: [伊豆七島] /wiki/%E4%BC%8A%E8%B1%86%E7%BE%A4%E5%B3%B6
外部連結: [神津島] /wiki/%E7%A5%9E%E6%B4%A5%E5%B3%B6%E6%9D%91
外部連結: [東京都] /wiki/%E6%9D%B1%E4%BA%AC%E9%83%BD
外部連結: [神秘學] /wiki/%E7%A5%9E%E7%A7%98%E5%AD%B8
外部連結: [RADWIMPS] /wiki/RADWIMPS
外部連結: [振假名] /wiki/%E6%8C%AF%E5%81%87

## 作業：接下來定義一個爬蟲函數，這個函數的主要工作為：
### (1) 爬取當前關鍵字的解釋，並存入檔案(因為文章內容太多會佔滿整個頁面，所以存程檔案，方便後續檢視)
### (2) 萃取出當前關鍵字所引用的外部連結，當作新的查詢關鍵字
### (3) 把第(2)擷取到的關鍵字當作新的關鍵字，回到第(1)步，爬取新的關鍵字解釋。

In [5]:
def WikiArticle(key_word_link, key_word, recursive):
    
    if (recursive <= max_recursive_depth):
        print("遞迴層[%d] - %s (%s)" % (recursive, key_word_link, key_word))
        
        # 模擬封包的標頭
        headers = {
            'authority': 'zh.wikipedia.org',
            'method': 'GET',
            'path': '/wiki/' + key_word_link,
            'scheme': 'https',
            'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3',
            'accept-encoding': 'gzip, deflate, br',
            'accept-language': 'zh-TW,zh;q=0.9,en-US;q=0.8,en;q=0.7,zh-CN;q=0.6',
            'cookie': 'GeoIP=TW:TPE:Taipei:25.05:121.53:v4; TBLkisOn=0; mwPhp7Seed=8b8; WMF-Last-Access-Global=04-Jun-2019; WMF-Last-Access=04-Jun-2019',
            'dnt': '1',
            #'if-modified-since': 'Tue, 04 Jun 2019 12:03:22 GMT',
            'referer': 'https://zh.wikipedia.org/wiki/Wikipedia:%E9%A6%96%E9%A1%B5',
            'upgrade-insecure-requests': '1',
            'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36'
        }    

        url = 'https://zh.wikipedia.org' + key_word_link  # 組合關鍵字查詢URL
        resp = requests.get(url, headers=headers)
        resp.encoding = 'utf-8'

        html = BeautifulSoup(resp.text, "lxml")
        content = html.find(name='div', attrs={'id':'mw-content-text'}).find_all(name='p')
        
        #
        # Part 1: 請參考範例1，爬取當前關鍵字的文章內容。
        #         因為內容太多，我們把它寫入檔案，並以關鍵字作為檔案名稱，以便稍後查閱內容。
        #         請先建立一個名為"WikiArticle"的資料夾，爬取到的文章內容會放在這個資料夾底下。
        #
        with open(f"WikiArticle/{key_word}.txt", "w", encoding="utf-8") as fh:
            for paragraph in content:
                fh.write(paragraph.get_text())
        
        #
        # Part 2: 請參考範例2，萃取出本篇文章中所延伸引用的外部連結，並儲存在external_link_dict
        #
        external_link_dict = dict({})
        for ext_link in content:
            a_tag = ext_link.find_all('a', href=re.compile("^(/wiki/)((?!;)\S)*$"))
            if len(a_tag) > 0:
                for link_string in a_tag:
                    a_link = link_string["href"]       # 外部連結的網址
                    a_keyword = link_string.get_text()  # 外部連結的中文名稱
#                     a_keyword = link_string.get('title')
                    external_link_dict[a_link] = a_keyword

                    
        #
        # Part 3: 將Part 2所收集的外部連結，當作新的關鍵字，繼續迭代深入爬蟲
        #
        if (len(external_link_dict) > 0):
            recursive = recursive + 1  # 遞迴深度加1
            for k, v in external_link_dict.items():
                WikiArticle(k, v, recursive)  # 再次呼叫同樣的函數，執行同樣的流程
                

### 執行前個步驟定義好的爬蟲主程式

In [6]:
# 定義爬取的遞迴深度。深度不要訂太深，否則會爬很久。
max_recursive_depth = 1

WikiArticle(root_keyword_link, input_keyword, 0)

遞迴層[0] - /wiki/%E5%A4%A9%E6%B0%A3%E4%B9%8B%E5%AD%90 (天氣之子)
遞迴層[1] - /wiki/%E6%97%A5%E6%9C%AC (日本)
遞迴層[1] - /wiki/%E6%96%B0%E6%B5%B7%E8%AF%9A (新海誠)
遞迴層[1] - /wiki/%E5%8B%95%E7%95%AB%E9%9B%BB%E5%BD%B1 (動畫電影)
遞迴層[1] - /wiki/%E4%BD%A0%E7%9A%84%E5%90%8D%E5%AD%97%E3%80%82 (你的名字)
遞迴層[1] - /wiki/%E4%BB%A4%E5%92%8C (令和)
遞迴層[1] - /wiki/%E7%AC%AC92%E5%B1%86%E5%A5%A5%E6%96%AF%E5%8D%A1%E6%9C%80%E4%BD%B3%E5%9C%8B%E9%9A%9B%E5%BD%B1%E7%89%87%E8%A7%92%E9%80%90%E5%90%8D%E5%96%AE (第92屆奧斯卡)
遞迴層[1] - /wiki/%E5%A5%A5%E6%96%AF%E5%8D%A1%E6%9C%80%E4%BD%B3%E5%9B%BD%E9%99%85%E5%BD%B1%E7%89%87%E5%A5%96 (最佳國際影片獎)
遞迴層[1] - /wiki/2019%E5%B9%B4%E5%A4%9A%E5%80%AB%E5%A4%9A%E5%9C%8B%E9%9A%9B%E5%BD%B1%E5%B1%95 (第44屆多倫多國際影展)
遞迴層[1] - /wiki/2020%E5%B9%B4%E5%A4%8F%E5%AD%A3%E5%A5%A5%E6%9E%97%E5%8C%B9%E5%85%8B%E8%BF%90%E5%8A%A8%E4%BC%9A (東京奧運)
遞迴層[1] - /wiki/%E4%BC%8A%E8%B1%86%E7%BE%A4%E5%B3%B6 (伊豆七島)
遞迴層[1] - /wiki/%E7%A5%9E%E6%B4%A5%E5%B3%B6%E6%9D%91 (神津島)
遞迴層[1] - /wiki/%E6%9D%B1%E4%BA%AC%E9%83%BD (東京都)
遞迴層[1] - /wiki/%E7%