# Wikipedia爬蟲練習
## 範例：練習是從Wikipedia中爬取文章。先定義一個搜尋的關鍵字，擷取該關鍵字詞的文章。

In [6]:
import requests
import re
from bs4 import BeautifulSoup

### 先定義一個我們想搜尋的字詞，並將它轉換成UTF-8編碼後的URL

In [9]:
input_keyword = "新垣結衣"  # 這裡可以自己定義有興趣的關鍵字

utf8_url = repr(input_keyword.encode('UTF-8')).upper()  # 編碼成UTF-8並轉成大寫字元
utf8_url = utf8_url.replace("\\X", "%")                 # 用 '%' 取代 '\X' 
print("%s: %s" % (input_keyword, utf8_url[2:-1:1]))     # 擷取中間的編碼結果

# 組成Wiki關鍵字搜尋的網址格式
root_keyword_link = '/wiki/' + utf8_url[2:-1:1]
print(root_keyword_link)

新垣結衣: %E6%96%B0%E5%9E%A3%E7%B5%90%E8%A1%A3
/wiki/%E6%96%B0%E5%9E%A3%E7%B5%90%E8%A1%A3


### 範例1：送出關鍵字請求後，爬取該關鍵字的文章內容

In [11]:
# 模擬封包的標頭
headers = {
    'authority': 'zh.wikipedia.org',
    'method': 'GET',
    'path': '/wiki/' + root_keyword_link,
    'scheme': 'https',
    'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3',
    'accept-encoding': 'gzip, deflate, br',
    'accept-language': 'zh-TW,zh;q=0.9,en-US;q=0.8,en;q=0.7,zh-CN;q=0.6',
    'cookie': 'GeoIP=TW:TPE:Taipei:25.05:121.53:v4; TBLkisOn=0; mwPhp7Seed=8b8; WMF-Last-Access-Global=04-Jun-2019; WMF-Last-Access=04-Jun-2019',
    'dnt': '1',
    #'if-modified-since': 'Tue, 04 Jun 2019 12:03:22 GMT',
    'referer': 'https://zh.wikipedia.org/wiki/Wikipedia:%E9%A6%96%E9%A1%B5',
    'upgrade-insecure-requests': '1',
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36'
}    

url = 'https://zh.wikipedia.org' + root_keyword_link  # 組合關鍵字查詢URL
resp = requests.get(url, headers=headers)
resp.encoding = 'utf-8'

html = BeautifulSoup(resp.text, "lxml")
content = html.find(name='div', attrs={'id':'mw-content-text'}).find_all(name='p')

#
# 解析回傳資料，並萃取文章內容
#
for paragraph in content:
    print(paragraph.get_text())


新垣結衣（日語：新垣 結衣／あらがき ゆい Aragaki Yui，1988年6月11日－），日本女演員、歌手及模特兒，出生於沖繩縣那霸市，身高169公分[1]，血型A型[2]，目前為日本LesPros娛樂旗下的藝人。

2001年，因姊姊年齡與身高未符資格而無法參加當時《nicola（日語：ニコラ (雑誌)）》舉辦的模特兒甄選比賽，遂而推薦妹妹新垣結衣代替，結果意外獲得最優秀獎。此後在擔任模特兒的過程中，受到許多讀者歡迎，從《nicola》雜誌畢業為止的模特兒封面登場次數為當時最多的15次，並與同時期的模特兒虎南有香（日語：虎南有香）結成好友。

2005年，從《nicola》雜誌畢後，參與演出深夜的特攝劇《sh15uya》，並在電視劇《東大特訓班》演出開始受到關注。同年參與東日本電信電話（日語：東日本電信電話）（NTT東日本）一系列的企業形象廣告，並在日本NTV的綜藝節目裡擔任短劇演員，另作為雜誌模特兒，主要為少年雜誌拍攝平面照片。

2006年，為電影《超劇場版 Keroro軍曹》的角色「Mirara」配音。因接連參與日本電視台（NTV）土9電視劇《辣妹掌門人》及《My☆Boss My☆Hero》而引起話題。3月3日，第一本寫真集《水漾☆青春》出版，3月5日發售，從12點開始在福家書店銀座店，舉行簽名和握手活動，有1500人到場，日職監督長嶋茂雄也到場共享盛況；5月17日發售寫真影像「相遇」，寫真集封面日文標題「ちゅら」在琉球語是「美麗」的意思；於10月2日起，開始在廣播節目《GIRLS LOCKS》主持，和已畢業的戶田惠梨香是好友，曾與她一起送禮物給聽眾。年末，擔任日本格力高Pocky廣告代言人並參與廣播節目演出，其後人氣漸升[3]，並發行個人第一次的明星交換收藏卡（TRADING CARD），發售活動當天兩個場地約1300人到場，4400套完售，創下歷來第一次發行明星交換卡單日售出的最高紀錄。

2007年初，代言第85屆日本全國高校足球賽的應援經理，與第一任應援經理堀北真希皆為日本廣播節目《School of Locks》裡《Girls Locks》單元的主持人。另擔任2007年度的日本紅十字會勸導捐血代言人，原本每年代言人都是在該年度舉辦成年式，但新垣結衣與鈴木杏（2004年度）兩人卻是例外。2007年3月22日，推出第二本寫真集《純白18》，是以北國

### 範例2：從爬取的文章內容中，擷取出有外部連結的關鍵字。這些關鍵字在文章中是以藍色字體顯示，會連到外部的網頁，並解釋其內容。

In [13]:
for ext_link in content:
    a_tag = ext_link.find_all('a', href=re.compile("^(/wiki/)((?!;)\S)*$"))
    if len(a_tag) > 0:
        for link_string in a_tag:
            a_link = link_string["href"]       # 外部連結的網址
            a_keyword = link_string.get_text()  # 外部連結的中文名稱
            print("外部連結: [%s] %s" % (a_keyword, a_link))

外部連結: [日本] /wiki/%E6%97%A5%E6%9C%AC
外部連結: [女演員] /wiki/%E5%A5%B3%E6%BC%94%E5%93%A1
外部連結: [歌手] /wiki/%E6%AD%8C%E6%89%8B
外部連結: [模特兒] /wiki/%E6%A8%A1%E7%89%B9%E5%85%92
外部連結: [沖繩縣] /wiki/%E6%B2%96%E7%B9%A9%E7%B8%A3
外部連結: [那霸市] /wiki/%E9%82%A3%E9%9C%B8%E5%B8%82
外部連結: [身高] /wiki/%E8%BA%AB%E9%AB%98
外部連結: [公分] /wiki/%E5%85%AC%E5%88%86
外部連結: [血型] /wiki/%E8%A1%80%E5%9E%8B
外部連結: [A型] /wiki/A%E5%9E%8B
外部連結: [日本] /wiki/%E6%97%A5%E6%9C%AC
外部連結: [LesPros娛樂] /wiki/LesPros%E5%A8%9B%E6%A8%82
外部連結: [藝人] /wiki/%E8%97%9D%E4%BA%BA
外部連結: [模特兒] /wiki/%E6%A8%A1%E7%89%B9%E5%85%92
外部連結: [sh15uya] /wiki/Sh15uya
外部連結: [東大特訓班] /wiki/%E6%9D%B1%E5%A4%A7%E7%89%B9%E8%A8%93%E7%8F%AD
外部連結: [NTT] /wiki/%E6%97%A5%E6%9C%AC%E9%9B%BB%E4%BF%A1%E9%9B%BB%E8%A9%B1
外部連結: [NTV] /wiki/NTV
外部連結: [綜藝節目] /wiki/%E7%B6%9C%E8%97%9D%E7%AF%80%E7%9B%AE
外部連結: [短劇] /wiki/%E7%9F%AD%E5%8A%87
外部連結: [超劇場版 Keroro軍曹] /wiki/Keroro%E8%BB%8D%E6%9B%B9_(%E5%8A%87%E5%A0%B4%E7%89%88)
外部連結: [日本電視台] /wiki/%E6%97%A5%E6%9C%AC%E9%9B%BB%E8%A6%96%E5%8F%B0
外部連結: [辣

## 作業：接下來定義一個爬蟲函數，這個函數的主要工作為：
### (1) 爬取當前關鍵字的解釋，並存入檔案(因為文章內容太多會佔滿整個頁面，所以存程檔案，方便後續檢視)
### (2) 萃取出當前關鍵字所引用的外部連結，當作新的查詢關鍵字
### (3) 把第(2)擷取到的關鍵字當作新的關鍵字，回到第(1)步，爬取新的關鍵字解釋。

In [63]:
def WikiArticle(key_word_link, key_word, recursive):
    
    if (recursive <= max_recursive_depth):
        print("遞迴層[%d] - %s (%s)" % (recursive, key_word_link, key_word))
        
        # 模擬封包的標頭
        headers = {
            'authority': 'zh.wikipedia.org',
            'method': 'GET',
            'path': '/wiki/' + key_word_link,
            'scheme': 'https',
            'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3',
            'accept-encoding': 'gzip, deflate, br',
            'accept-language': 'zh-TW,zh;q=0.9,en-US;q=0.8,en;q=0.7,zh-CN;q=0.6',
            'cookie': 'GeoIP=TW:TPE:Taipei:25.05:121.53:v4; TBLkisOn=0; mwPhp7Seed=8b8; WMF-Last-Access-Global=04-Jun-2019; WMF-Last-Access=04-Jun-2019',
            'dnt': '1',
            #'if-modified-since': 'Tue, 04 Jun 2019 12:03:22 GMT',
            'referer': 'https://zh.wikipedia.org/wiki/Wikipedia:%E9%A6%96%E9%A1%B5',
            'upgrade-insecure-requests': '1',
            'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36'
        }    

        url = 'https://zh.wikipedia.org' + key_word_link  # 組合關鍵字查詢URL
        resp = requests.get(url, headers=headers)
        resp.encoding = 'utf-8'

        html = BeautifulSoup(resp.text, "lxml")
        content = html.find(name='div', attrs={'id':'mw-content-text'}).find_all(name='p')
        
        #
        # Part 1: 請參考範例1，爬取當前關鍵字的文章內容。
        #         因為內容太多，我們把它寫入檔案，並以關鍵字作為檔案名稱，以便稍後查閱內容。
        #         請先建立一個名為"WikiArticle"的資料夾，爬取到的文章內容會放在這個資料夾底下。
        #
        
        f = ''
        with open("./Data/WikiArticle/新垣結衣.txt", "w", encoding = "utf-8") as fh:
            for paragraph in content:
                f = fh.write(paragraph.get_text())
        try:
            with open("./Data/WikiArticle/新垣結衣.txt", "r", encoding = "utf-8") as fh:
                f = fh.read()
        except EnvironmentError: # parent of IOError, OSError *and* WindowsError where available
            pass
        


        
        #
        # Part 2: 請參考範例2，萃取出本篇文章中所延伸引用的外部連結，並儲存在external_link_dict
        #
        external_link_dict = dict({})
        for ext_link in content:
            a_tag = ext_link.find_all('a', href=re.compile("^(/wiki/)((?!;)\S)*$"))
            if len(a_tag) > 0:
                for link_string in a_tag:
                    a_link = link_string["href"]       # 外部連結的網址
                    a_keyword = link_string.get_text()  # 外部連結的中文名稱
                    a_print = "外部連結: [%s] %s" % (a_keyword, a_link)
                    external_link_dict[a_link] = a_keyword

                    
        #
        # Part 3: 將Part 2所收集的外部連結，當作新的關鍵字，繼續迭代深入爬蟲
        #
        if (len(external_link_dict) > 0):
            
            recursive = recursive + 1  # 遞迴深度加1
            
            for k, v in external_link_dict.items():
                WikiArticle(k, v, recursive)  # 再次呼叫同樣的函數，執行同樣的流程
                

### 執行前個步驟定義好的爬蟲主程式

In [64]:
# 定義爬取的遞迴深度。深度不要訂太深，否則會爬很久。
max_recursive_depth = 2

WikiArticle(root_keyword_link, input_keyword, 0)

遞迴層[0] - /wiki/%E6%96%B0%E5%9E%A3%E7%B5%90%E8%A1%A3 (新垣結衣)
遞迴層[1] - /wiki/%E6%97%A5%E6%9C%AC (日本)
遞迴層[2] - /wiki/Help:%E6%97%A5%E8%AA%9E (?)
遞迴層[2] - /wiki/%E6%9D%B1%E4%BA%9E (東亞)
遞迴層[2] - /wiki/%E5%B3%B6%E5%B6%BC%E5%9C%8B%E5%AE%B6 (島嶼國家)
遞迴層[2] - /wiki/%E6%97%A5%E6%9C%AC%E5%88%97%E5%B3%B6 (日本列島)
遞迴層[2] - /wiki/%E7%90%89%E7%90%83%E7%BE%A4%E5%B2%9B (琉球群島)
遞迴層[2] - /wiki/%E4%BC%8A%E8%B1%86%E7%BE%A4%E5%B3%B6 (伊豆)
遞迴層[2] - /wiki/%E5%B0%8F%E7%AC%A0%E5%8E%9F%E7%BE%A4%E5%B2%9B (小笠原)
遞迴層[2] - /wiki/%E5%B3%B6%E5%B6%BC (島嶼)
遞迴層[2] - /wiki/%E5%A4%AA%E5%B9%B3%E6%B4%8B (太平洋)
遞迴層[2] - /wiki/%E9%84%82%E9%9C%8D%E6%AC%A1%E5%85%8B%E6%B5%B7 (鄂霍次克海)
遞迴層[2] - /wiki/%E6%97%A5%E6%9C%AC%E6%B5%B7 (日本海)
遞迴層[2] - /wiki/%E4%B8%9C%E6%B5%B7 (東海)
遞迴層[2] - /wiki/%E9%99%86%E7%BC%98%E6%B5%B7 (緣海)
遞迴層[2] - /wiki/%E6%9C%9D%E9%B2%9C%E5%8D%8A%E5%B2%9B (朝鮮半島)
遞迴層[2] - /wiki/%E4%BF%84%E7%BE%85%E6%96%AF%E9%81%A0%E6%9D%B1%E5%9C%B0%E5%8D%80 (俄屬遠東)
遞迴層[2] - /wiki/%E5%8D%83%E5%B3%B6%E7%BE%A4%E5%B3%B6 (千島群島)
遞迴層[2] - /wiki/%E8%87%

UnicodeEncodeError: 'latin-1' codec can't encode characters in position 31-35: ordinal not in range(256)