# Wikipedia爬蟲練習
## 範例：練習是從Wikipedia中爬取文章。先定義一個搜尋的關鍵字，擷取該關鍵字詞的文章。

In [5]:
import requests
import re
from bs4 import BeautifulSoup

### 先定義一個我們想搜尋的字詞，並將它轉換成UTF-8編碼後的URL

In [15]:
input_keyword = "中島美嘉"  # 這裡可以自己定義有興趣的關鍵字

utf8_url = repr(input_keyword.encode('UTF-8')).upper()  # 編碼成UTF-8並轉成大寫字元
utf8_url = utf8_url.replace("\\X", "%")                 # 用 '%' 取代 '\X' 
print("%s: %s" % (input_keyword, utf8_url[2:-1:1]))     # 擷取中間的編碼結果

# 組成Wiki關鍵字搜尋的網址格式
root_keyword_link = '/wiki/' + utf8_url[2:-1:1]
print(root_keyword_link)

中島美嘉: %E4%B8%AD%E5%B3%B6%E7%BE%8E%E5%98%89
/wiki/%E4%B8%AD%E5%B3%B6%E7%BE%8E%E5%98%89


### 範例1：送出關鍵字請求後，爬取該關鍵字的文章內容

In [7]:
# 模擬封包的標頭
headers = {
    'authority': 'zh.wikipedia.org',
    'method': 'GET',
    'path': '/wiki/' + root_keyword_link,
    'scheme': 'https',
    'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3',
    'accept-encoding': 'gzip, deflate, br',
    'accept-language': 'zh-TW,zh;q=0.9,en-US;q=0.8,en;q=0.7,zh-CN;q=0.6',
    'cookie': 'GeoIP=TW:TPE:Taipei:25.05:121.53:v4; TBLkisOn=0; mwPhp7Seed=8b8; WMF-Last-Access-Global=04-Jun-2019; WMF-Last-Access=04-Jun-2019',
    'dnt': '1',
    #'if-modified-since': 'Tue, 04 Jun 2019 12:03:22 GMT',
    'referer': 'https://zh.wikipedia.org/wiki/Wikipedia:%E9%A6%96%E9%A1%B5',
    'upgrade-insecure-requests': '1',
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36'
}    

url = 'https://zh.wikipedia.org' + root_keyword_link  # 組合關鍵字查詢URL
resp = requests.get(url, headers=headers)
resp.encoding = 'utf-8'

html = BeautifulSoup(resp.text, "lxml")
content = html.find(name='div', attrs={'id':'mw-content-text'}).find_all(name='p')

#
# 解析回傳資料，並萃取文章內容
#
for paragraph in content:
    print(paragraph.get_text())


中島美嘉（1983年2月19日－）是日本歌手與演員，鹿兒島縣日置市伊集院町出身[1]，所屬經紀公司為True Project（日語：ケイダッシュ），所屬唱片公司則為日本索尼音樂娛樂。

中島美嘉於2001年以主演日劇《新宿傷痕戀歌》及單曲《STARS》出道。其美豔的外型及神秘感等個人風格，使中島美嘉成為2000年代的日本代表歌姬之一。不僅為一名歌手，身為演員的中島美嘉在影壇也相當活躍，曾獲得不少獎項的肯定，評價不俗。2005年中島美嘉主演電影《NANA》，成為該年日本國片年度票房冠軍更引起一股風潮。而隨著電影在各國的發行，更讓中島的人氣直線上升，聲勢遍及全亞洲。

中島美嘉的歌曲以曲風多元著名，諸如搖滾、雷鬼、爵士等曲風，再加以她獨特的唱腔及裸足演唱的習慣，在日本樂壇獨樹一格；其中又以情歌最為著名，她的《STARS》、《WILL》、《雪の華》、《櫻花紛飛時》、《看不見的星星》、《LIFE》、《ORION》、《ALWAYS》、《曾經我也想過一了百了》等著名情歌，無論是在日本，或是亞洲各地，皆獲得眾多好評。值得一提的是，2003年以後所發行的歌曲大都由中島美嘉本人作詞。從出道至今以個人名義發行的所有原創專輯皆以一個簡單的英文單字命名。

中島美嘉出生於九州，在鹿兒島縣日置市長大，有兩個姐姐，從小便接觸演歌以及日本傳統舞蹈。初中時開始染髮、化妝、改造制服，也曾經翹課跑去喜歡的男生的學校。曾經有一個學期沒去學校，所以成績單是全空白。初中2年級時因受到校園欺凌事件而轉至鹿兒島市天保山中學繼續學業。但畢業後沒上高中，而是在當地速食店打工約一年[2]。15歲的時候, 搬到福岡縣福岡市與多人合租公寓，時常來回福岡與鹿兒島[3]。此時已經接受了一些試鏡，不過是以模特兒的身分，並非歌手，但所有的甄試都落選。2000年的秋天，在接受一些模特兒試鏡的同時立志成為歌手，決定向索尼音樂娛樂寄出試唱帶[3]。

2001年，唱片公司職員聽過中島寄送的試唱帶後，推薦她於日本索尼音樂與富士電視台舉行的聯合選秀「SONY AUDITION」中登場，結果於選秀中合格[3]。其後獲參加電視劇女主角的選拔，於3000名參加者中脫穎而出，獲得成為富士電視台連續劇《新宿傷痕戀歌》女主角的資格，並演唱劇集的主題曲《STARS》作為歌手出道作品，以歌手與演員雙重身份出道。2001年11月7日，出道單曲《STARS》

### 範例2：從爬取的文章內容中，擷取出有外部連結的關鍵字。這些關鍵字在文章中是以藍色字體顯示，會連到外部的網頁，並解釋其內容。

In [8]:
for ext_link in content:
    a_tag = ext_link.find_all('a', href=re.compile("^(/wiki/)((?!;)\S)*$"))
    if len(a_tag) > 0:
        for link_string in a_tag:
            a_link = link_string["href"]       # 外部連結的網址
            a_keyword = link_string.get_text()  # 外部連結的中文名稱
            print("外部連結: [%s] %s" % (a_keyword, a_link))
# ss = "reoo#123"
# print(ss.replace(ss, ss[0: ss.find("#")]))

外部連結: [日本] /wiki/%E6%97%A5%E6%9C%AC
外部連結: [歌手] /wiki/%E6%AD%8C%E6%89%8B
外部連結: [演員] /wiki/%E6%BC%94%E5%93%A1
外部連結: [鹿兒島縣] /wiki/%E9%B9%BF%E5%85%92%E5%B3%B6%E7%B8%A3
外部連結: [日置市] /wiki/%E6%97%A5%E7%BD%AE%E5%B8%82
外部連結: [日本索尼音樂娛樂] /wiki/%E6%97%A5%E6%9C%AC%E7%B4%A2%E5%B0%BC%E9%9F%B3%E6%A8%82%E5%A8%9B%E6%A8%82
外部連結: [新宿傷痕戀歌] /wiki/%E6%96%B0%E5%AE%BF%E5%82%B7%E7%97%95%E6%88%80%E6%AD%8C
外部連結: [STARS] /wiki/STARS_(%E4%B8%AD%E5%B3%B6%E7%BE%8E%E5%98%89%E5%96%AE%E6%9B%B2)
外部連結: [NANA] /wiki/NANA_(%E9%9B%BB%E5%BD%B1)
外部連結: [搖滾] /wiki/%E6%91%87%E6%BB%9A
外部連結: [雷鬼] /wiki/%E9%9B%B7%E9%AC%BC
外部連結: [爵士] /wiki/%E7%88%B5%E5%A3%AB
外部連結: [日本樂壇] /wiki/J-pop
外部連結: [STARS] /wiki/STARS_(%E4%B8%AD%E5%B3%B6%E7%BE%8E%E5%98%89%E5%96%AE%E6%9B%B2)
外部連結: [WILL] /wiki/WILL_(%E4%B8%AD%E5%B3%B6%E7%BE%8E%E5%98%89%E5%96%AE%E6%9B%B2)
外部連結: [雪の華] /wiki/%E9%9B%AA%E8%8A%B1_(%E5%96%AE%E6%9B%B2)
外部連結: [櫻花紛飛時] /wiki/%E6%AB%BB%E8%8A%B1%E7%B4%9B%E9%A3%9B%E6%99%82
外部連結: [看不見的星星] /wiki/%E7%9C%8B%E4%B8%8D%E8%A6%8B%E7%9A%84%E6%98%9F%E6

## 作業：接下來定義一個爬蟲函數，這個函數的主要工作為：
### (1) 爬取當前關鍵字的解釋，並存入檔案(因為文章內容太多會佔滿整個頁面，所以存程檔案，方便後續檢視)
### (2) 萃取出當前關鍵字所引用的外部連結，當作新的查詢關鍵字
### (3) 把第(2)擷取到的關鍵字當作新的關鍵字，回到第(1)步，爬取新的關鍵字解釋。

In [20]:
def WikiArticle(key_word_link, key_word, recursive):
    
    if (recursive <= max_recursive_depth):
        print("遞迴層[%d] - %s (%s)" % (recursive, key_word_link, key_word))
        
        # 模擬封包的標頭
        headers = {
            'authority': 'zh.wikipedia.org',
            'method': 'GET',
            'path': '/wiki/' + key_word_link,
            'scheme': 'https',
            'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3',
            'accept-encoding': 'gzip, deflate, br',
            'accept-language': 'zh-TW,zh;q=0.9,en-US;q=0.8,en;q=0.7,zh-CN;q=0.6',
            'cookie': 'GeoIP=TW:TPE:Taipei:25.05:121.53:v4; TBLkisOn=0; mwPhp7Seed=8b8; WMF-Last-Access-Global=04-Jun-2019; WMF-Last-Access=04-Jun-2019',
            'dnt': '1',
            #'if-modified-since': 'Tue, 04 Jun 2019 12:03:22 GMT',
            'referer': 'https://zh.wikipedia.org/wiki/Wikipedia:%E9%A6%96%E9%A1%B5',
            'upgrade-insecure-requests': '1',
            'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36'
        }    

        url = 'https://zh.wikipedia.org' + key_word_link  # 組合關鍵字查詢URL
        resp = requests.get(url, headers=headers)
        resp.encoding = 'utf-8'

        html = BeautifulSoup(resp.text, "lxml")
        content = html.find(name='div', attrs={'id':'mw-content-text'}).find_all(name='p')
        
        #
        # Part 1: 請參考範例1，爬取當前關鍵字的文章內容。
        #         因為內容太多，我們把它寫入檔案，並以關鍵字作為檔案名稱，以便稍後查閱內容。
        #         請先建立一個名為"WikiArticle"的資料夾，爬取到的文章內容會放在這個資料夾底下。
        #
        '''
        
        Your code here
        
        '''
        st = ""
        for paragraph in content:
            st += paragraph.get_text()

        with open("./Wikiarticle/"+ input_keyword +".txt", "w", encoding = "utf-8") as f:
            f.write(st)
        #
        # Part 2: 請參考範例2，萃取出本篇文章中所延伸引用的外部連結，並儲存在external_link_dict
        #
        external_link_dict = dict({})
        '''

        Your code here

        '''
        st = ""
        for ext_link in content:
            a_tag = ext_link.find_all('a', href=re.compile("^(/wiki/)((?!;)\S)*$"))
            if len(a_tag) > 0:
                for link_string in a_tag:
                    a_link = link_string["href"]       # 外部連結的網址
                    a_keyword = link_string.get_text()  # 外部連結的中文名稱
                    external_link_dict[a_keyword] = a_link.replace(a_link, a_link[0: a_link.find("#")])

        # Part 3: 將Part 2所收集的外部連結，當作新的關鍵字，繼續迭代深入爬蟲
        #
        if (len(external_link_dict) > 0):

            recursive = recursive + 1  # 遞迴深度加1
            for k, v in external_link_dict.items():

                WikiArticle(v, k, recursive)  # 再次呼叫同樣的函數，執行同樣的流程





### 執行前個步驟定義好的爬蟲主程式

In [None]:
# 定義爬取的遞迴深度。深度不要訂太深，否則會爬很久。
max_recursive_depth = 1
WikiArticle(root_keyword_link, input_keyword, 0)



遞迴層[0] - /wiki/%E4%B8%AD%E5%B3%B6%E7%BE%8E%E5%98%89 (中島美嘉)
遞迴層[1] - /wiki/%E6%97%A5%E6%9C%A (日本)
遞迴層[1] - /wiki/%E6%AD%8C%E6%89%8 (歌手)
遞迴層[1] - /wiki/%E6%BC%94%E5%93%A (演員)
遞迴層[1] - /wiki/%E9%B9%BF%E5%85%92%E5%B3%B6%E7%B8%A (鹿兒島縣)
遞迴層[1] - /wiki/%E6%97%A5%E7%BD%AE%E5%B8%8 (日置市)
遞迴層[1] - /wiki/%E6%97%A5%E6%9C%AC%E7%B4%A2%E5%B0%BC%E9%9F%B3%E6%A8%82%E5%A8%9B%E6%A8%8 (日本索尼音樂娛樂)
