# Wikipedia爬蟲練習
## 範例：練習是從Wikipedia中爬取文章。先定義一個搜尋的關鍵字，擷取該關鍵字詞的文章。

In [6]:
import requests, re, os
from bs4 import BeautifulSoup

### 先定義一個我們想搜尋的字詞，並將它轉換成UTF-8編碼後的URL

*Python在解析網頁時預設用Unicode去解析，而大多數網站是utf-8格式的
https://codertw.com/%E7%A8%8B%E5%BC%8F%E8%AA%9E%E8%A8%80/356896/
https://www.itread01.com/content/1541646028.html
*Python中的str( )和repr( )兩個函式的區別，都是可以將任意的值轉化為字串：函式str( )將其轉化成為適於人閱讀的形式，而repr(object)就是轉換成為閱讀器閱讀的形式
https://codertw.com/%E7%A8%8B%E5%BC%8F%E8%AA%9E%E8%A8%80/562477/
*Python upper() 方法將字符串中的小寫字母轉為大寫字母。
https://zh.wikipedia.org/wiki/%E8%8A%AC%E5%85%B0

In [7]:
input_keyword = "小王子"  # 這裡可以自己定義有興趣的關鍵字

utf8_url = repr(input_keyword.encode('UTF-8')).upper()  # 編碼成UTF-8並轉成大寫字元
utf8_url = utf8_url.replace("\\X", "%")                 # 用 '\X' 取代 '%' 
print("%s: %s" % (input_keyword, utf8_url[2:-1:1]))     # 擷取中間的編碼結果

# 組成Wiki關鍵字搜尋的網址格式
root_keyword_link = '/wiki/' + utf8_url[2:-1:1]
print(root_keyword_link)
print(input_keyword)


小王子: %E5%B0%8F%E7%8E%8B%E5%AD%90
/wiki/%E5%B0%8F%E7%8E%8B%E5%AD%90
小王子


### 範例1：送出關鍵字請求後，爬取該關鍵字的文章內容

In [8]:
# 模擬封包的標頭
headers = {
    'authority': 'zh.wikipedia.org',
    'method': 'GET',
    'path': '/wiki/' + root_keyword_link,
    'scheme': 'https',
    'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3',
    'accept-encoding': 'gzip, deflate, br',
    'accept-language': 'zh-TW,zh;q=0.9,en-US;q=0.8,en;q=0.7,zh-CN;q=0.6',
    'cookie': 'GeoIP=TW:TPE:Taipei:25.05:121.53:v4; TBLkisOn=0; mwPhp7Seed=8b8; WMF-Last-Access-Global=04-Jun-2019; WMF-Last-Access=04-Jun-2019',
    'dnt': '1',
    #'if-modified-since': 'Tue, 04 Jun 2019 12:03:22 GMT',
    'referer': 'https://zh.wikipedia.org/wiki/Wikipedia:%E9%A6%96%E9%A1%B5',
    'upgrade-insecure-requests': '1',
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36'
}    
# 組合關鍵字查詢URL
url = 'https://zh.wikipedia.org/' + root_keyword_link
resp = requests.get(url, headers=headers)
resp.encoding = 'utf-8'

html = BeautifulSoup(resp.text, "lxml")
content = html.find(name='div', attrs={'id':'mw-content-text'}).find_all(name='p')

for paragraph in content:
    print(paragraph.get_text())
    

Reynal & Hitchcock（美國）

《小王子》（法語：Le Petit Prince、英語：The Little Prince），是法國貴族作家、詩人、飛行員先驅安托萬·德·聖修伯里創作的最著名的小說，發表於1943年。作為法語書籍中擁有最多讀者和譯本的小說，《小王子》曾當選為20世紀法國最佳圖書。它是世界最暢銷的圖書之一，被翻譯成250多種語言和方言[2]，全世界迄今已售出兩億多冊，年銷售一百多萬冊。[3][4][5]

聖修伯里作為法國最有名的幾個文學獎的得主與第二次世界大戰起始時的預備役飛行員，在法國淪陷自己流亡美國時完成了本書的手稿。其大半的著名作品都是其時在感情劇變和健康惡化的狀況下寫出的，這之中就包括那個關於一個跑到地球來的小王子的有關孤獨、友情與得到而又失去的愛的感人小故事。[6]
自小說發布以來，《小王子》已經被廣泛改編為廣播劇、舞台劇、電影、電視劇和芭蕾舞劇、歌劇等各種形式。[7][8][2]

《小王子》所述的飛行員墜機於撒哈拉沙漠的情節明顯取材於聖修伯里的親身經歷。聖修伯里1939年的回憶錄《風沙星辰》（法語：Terre des hommes）中詳細地敘述了這段遭遇。

1935年12月30日2:45，聖修伯里與副駕駛兼導航員安德烈·普雷沃（法語：André Prévot）在飛行了19小時44分鐘後，飛機因故障不幸墜於撒哈拉大沙漠[9]。他們當時正試圖打破巴黎至西貢的飛行速度記錄，贏得150,000法郎的獎金[10]。飛機型號是 Caudron C-630 Simoun[N 1]，據信墜機地點位於尼羅河三角洲的奈特倫窪地（Wadi Natrun Valley）附近[11]。

兩人都在空難中奇蹟生還，但緊接面臨著沙漠酷暑，嚴重脫水的挑戰。當時他們只有一張簡單含混的地圖，幾串葡萄，一瓶咖啡，一個橙子，一點酒和一天量的飲用水。過了不久兩人就看到了海市蜃樓，緊接著感到越來越逼真的幻覺。第二、三天的時候，竟脫水到了一滴汗都流不出的地步。最後第四天，一個貝都因人騎駱駝路過時發現了他們，用土法施補水術後才救了兩人的性命[10]。

聖修伯里做郵政飛行員時，曾在撒哈拉沙漠見過一種大耳朵的狐狸「耳廓狐」，這大概就是書中狐狸的原型。1928年聖修伯里在尤比角做航空郵件站經理時，曾在一封給他妹妹Didi的信裏，提到過馴養耳廓狐的想法。

據研究，文中小

### 範例2：從爬取的文章內容中，擷取出有外部連結的關鍵字。這些關鍵字在文章中是以藍色字體顯示，會連到外部的網頁，並解釋其內容。

In [9]:
for ext_link in content:
    a_tag = ext_link.find_all('a', href=re.compile("^(/wiki/)((?!;)\S)*$"))
    if len(a_tag) > 0:
        for link_string in a_tag:
            a_link = link_string["href"]       # 外部連結的網址
            a_keyword = link_string.get_text()  # 外部連結的中文名稱
            print("外部連結: [%s] %s" % (a_keyword, a_link))

外部連結: [法國] /wiki/%E6%B3%95%E5%9B%BD
外部連結: [飛行員] /wiki/%E9%A3%9E%E8%A1%8C%E5%91%98
外部連結: [安托萬·德·聖修伯里] /wiki/%E5%AE%89%E6%89%98%E4%B8%87%C2%B7%E5%BE%B7%E5%9C%A3%E5%9F%83%E5%85%8B%E7%B5%AE%E4%BD%A9%E9%87%8C
外部連結: [小說] /wiki/%E5%B0%8F%E8%AF%B4
外部連結: [法語] /wiki/%E6%B3%95%E8%AF%AD
外部連結: [第二次世界大戰] /wiki/%E7%AC%AC%E4%BA%8C%E6%AC%A1%E4%B8%96%E7%95%8C%E5%A4%A7%E6%88%98
外部連結: [法國淪陷] /wiki/%E6%B3%95%E5%9C%8B%E6%B7%AA%E9%99%B7
外部連結: [廣播劇] /wiki/%E5%BB%A3%E6%92%AD%E5%8A%87
外部連結: [舞台劇] /wiki/%E5%8A%87%E5%A0%B4_(%E8%97%9D%E8%A1%93)
外部連結: [電影] /wiki/%E7%94%B5%E5%BD%B1
外部連結: [電視劇] /wiki/%E7%94%B5%E8%A7%86%E5%89%A7
外部連結: [芭蕾舞劇] /wiki/%E8%8A%AD%E8%95%BE%E8%88%9E
外部連結: [歌劇] /wiki/%E6%AD%8C%E5%89%A7
外部連結: [撒哈拉沙漠] /wiki/%E6%92%92%E5%93%88%E6%8B%89%E6%B2%99%E6%BC%A0
外部連結: [風沙星辰] /wiki/%E9%A2%A8%E6%B2%99%E6%98%9F%E8%BE%B0
外部連結: [西貢] /wiki/%E8%A5%BF%E8%B4%A1
外部連結: [尼羅河三角洲] /wiki/%E5%B0%BC%E7%BD%97%E6%B2%B3%E4%B8%89%E8%A7%92%E6%B4%B2
外部連結: [空難] /wiki/%E7%A9%BA%E9%9B%A3
外部連結: [葡萄] /wiki/%E8%91%A1%E8%90%84
外部連結: [

## 作業：接下來定義一個爬蟲函數，這個函數的主要工作為：
### (1) 爬取當前關鍵字的解釋，並存入檔案(因為文章內容太多會佔滿整個頁面，所以存程檔案，方便後續檢視)
### (2) 萃取出當前關鍵字所引用的外部連結，當作新的查詢關鍵字
### (3) 把第(2)擷取到的關鍵字當作新的關鍵字，回到第(1)步，爬取新的關鍵字解釋。

In [15]:
def WikiArticle(key_word_link, key_word, recursive):
    
    if (recursive <= max_recursive_depth):
        print("遞迴層[%d] - %s (%s)" % (recursive, key_word_link, key_word))
        
        # 模擬封包的標頭
        headers = {
            'authority': 'zh.wikipedia.org',
            'method': 'GET',
            'path': '/wiki/' + key_word_link,
            'scheme': 'https',
            'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3',
            'accept-encoding': 'gzip, deflate, br',
            'accept-language': 'zh-TW,zh;q=0.9,en-US;q=0.8,en;q=0.7,zh-CN;q=0.6',
            'cookie': 'GeoIP=TW:TPE:Taipei:25.05:121.53:v4; TBLkisOn=0; mwPhp7Seed=8b8; WMF-Last-Access-Global=04-Jun-2019; WMF-Last-Access=04-Jun-2019',
            'dnt': '1',
            #'if-modified-since': 'Tue, 04 Jun 2019 12:03:22 GMT',
            'referer': 'https://zh.wikipedia.org/wiki/Wikipedia:%E9%A6%96%E9%A1%B5',
            'upgrade-insecure-requests': '1',
            'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36'
        }    

        url = 'https://zh.wikipedia.org' + key_word_link  # 組合關鍵字查詢URL
        resp = requests.get(url, headers=headers)
        resp.encoding = 'utf-8'

        html = BeautifulSoup(resp.text, "lxml")
        content = html.find(name='div', attrs={'id':'mw-content-text'}).find_all(name='p')
        
        #
        # Part 1: 請參考範例1，爬取當前關鍵字的文章內容。
        #         因為內容太多，我們把它寫入檔案，並以關鍵字作為檔案名稱，以便稍後查閱內容。
        #         請先建立一個名為"WikiArticle"的資料夾，爬取到的文章內容會放在這個資料夾底下。

        #建立資料夾
        #https://www.jishuwen.com/d/2LwL/zh-tw

        output_dir = 'WikiArticle'
        if not os.path.exists(output_dir):
            os.makedirs(output_dir)
        output_file = '{outdir}/{outfile}.text'.format(outdir=output_dir, outfile=key_word.replace('/','_'))
        if os.path.exists(output_file):
            os.remove(output_file)
        with open(output_file, "w", encoding="utf-8") as fh:
            for paragraph in content:
                f = fh.write(paragraph.get_text())
        
        #
        # Part 2: 請參考範例2，萃取出本篇文章中所延伸引用的外部連結，並儲存在external_link_dict
        #
        external_link_dict = dict({})
        
        for ext_link in content:
            a_tag = ext_link.find_all('a', href=re.compile("^(/wiki/)((?!;)\S)*$"))
            if len(a_tag) > 0:
                for link_string in a_tag:
                    a_link = link_string["href"]       
                    a_keyword = link_string.get_text()  
                    external_link_dict[a_link] = a_keyword        

                    
        #
        # Part 3: 將Part 2所收集的外部連結，當作新的關鍵字，繼續迭代深入爬蟲
        #
        if (len(external_link_dict) > 0):
            
            recursive = recursive + 1  # 遞迴深度加1
            
            for k, v in external_link_dict.items():
                WikiArticle(k, v, recursive)  # 再次呼叫同樣的函數，執行同樣的流程
                

### 執行前個步驟定義好的爬蟲主程式

In [16]:
# 定義爬取的遞迴深度。深度不要訂太深，否則會爬很久。
max_recursive_depth = 1


WikiArticle(root_keyword_link, input_keyword, 0)

遞迴層[0] - /wiki/%E5%B0%8F%E7%8E%8B%E5%AD%90 (小王子)
遞迴層[1] - /wiki/%E6%B3%95%E5%9B%BD (法國)
遞迴層[1] - /wiki/%E9%A3%9E%E8%A1%8C%E5%91%98 (飛行員)
遞迴層[1] - /wiki/%E5%AE%89%E6%89%98%E4%B8%87%C2%B7%E5%BE%B7%E5%9C%A3%E5%9F%83%E5%85%8B%E7%B5%AE%E4%BD%A9%E9%87%8C (安托萬·德·聖修伯里)
遞迴層[1] - /wiki/%E5%B0%8F%E8%AF%B4 (小說)
遞迴層[1] - /wiki/%E6%B3%95%E8%AF%AD (法語)
遞迴層[1] - /wiki/%E7%AC%AC%E4%BA%8C%E6%AC%A1%E4%B8%96%E7%95%8C%E5%A4%A7%E6%88%98 (第二次世界大戰)
遞迴層[1] - /wiki/%E6%B3%95%E5%9C%8B%E6%B7%AA%E9%99%B7 (法國淪陷)
遞迴層[1] - /wiki/%E5%BB%A3%E6%92%AD%E5%8A%87 (廣播劇)
遞迴層[1] - /wiki/%E5%8A%87%E5%A0%B4_(%E8%97%9D%E8%A1%93) (舞台劇)
遞迴層[1] - /wiki/%E7%94%B5%E5%BD%B1 (電影)
遞迴層[1] - /wiki/%E7%94%B5%E8%A7%86%E5%89%A7 (電視劇)
遞迴層[1] - /wiki/%E8%8A%AD%E8%95%BE%E8%88%9E (芭蕾舞劇)
遞迴層[1] - /wiki/%E6%AD%8C%E5%89%A7 (歌劇)
遞迴層[1] - /wiki/%E6%92%92%E5%93%88%E6%8B%89%E6%B2%99%E6%BC%A0 (撒哈拉沙漠)
遞迴層[1] - /wiki/%E9%A2%A8%E6%B2%99%E6%98%9F%E8%BE%B0 (風沙星辰)
遞迴層[1] - /wiki/%E8%A5%BF%E8%B4%A1 (西貢)
遞迴層[1] - /wiki/%E5%B0%BC%E7%BD%97%E6%B2%B3%E4%B8%89%E8%A7%

In [13]:
def WikiArticle(key_word_link, key_word, recursive):
    
    if (recursive <= max_recursive_depth):
        print("遞迴層[%d] - %s (%s)" % (recursive, key_word_link, key_word))
        
        # 模擬封包的標頭
        headers = {
            'authority': 'zh.wikipedia.org',
            'method': 'GET',
            'path': '/wiki/' + key_word_link,
            'scheme': 'https',
            'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3',
            'accept-encoding': 'gzip, deflate, br',
            'accept-language': 'zh-TW,zh;q=0.9,en-US;q=0.8,en;q=0.7,zh-CN;q=0.6',
            'cookie': 'GeoIP=TW:TPE:Taipei:25.05:121.53:v4; TBLkisOn=0; mwPhp7Seed=8b8; WMF-Last-Access-Global=04-Jun-2019; WMF-Last-Access=04-Jun-2019',
            'dnt': '1',
            #'if-modified-since': 'Tue, 04 Jun 2019 12:03:22 GMT',
            'referer': 'https://zh.wikipedia.org/wiki/Wikipedia:%E9%A6%96%E9%A1%B5',
            'upgrade-insecure-requests': '1',
            'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36'
        }    

        url = 'https://zh.wikipedia.org' + key_word_link  # 組合關鍵字查詢URL
        resp = requests.get(url, headers=headers)
        resp.encoding = 'utf-8'

        html = BeautifulSoup(resp.text, "lxml")
        content = html.find(name='div', attrs={'id':'mw-content-text'}).find_all(name='p')
        
        #
        # Part 1: 請參考範例1，爬取當前關鍵字的文章內容。
        #         因為內容太多，我們把它寫入檔案，並以關鍵字作為檔案名稱，以便稍後查閱內容。
        #         請先建立一個名為"WikiArticle"的資料夾，爬取到的文章內容會放在這個資料夾底下。
        #
        output_dir = 'WikiArticle'

        if not os.path.exists(output_dir):
            os.makedirs(output_dir)
            
        output_file = '{outdir}/{outfile}.txt'.format(outdir=output_dir, outfile=key_word.replace('/', '_'))
        #output_file = '{outdir}/{outfile}.text'.format(outdir=output_dir, outfile=key_word)
        print("output_file_name:",output_file)
        
        if os.path.exists(output_file):
            os.remove(output_file)

        with open(output_file, "w", encoding="utf-8") as fh:
            for paragraph in content:
                f = fh.write(paragraph.get_text())
    
        #
        # Part 2: 請參考範例2，萃取出本篇文章中所延伸引用的外部連結，並儲存在external_link_dict
        #
        
        external_link_dict = dict({})
        
        for ext_link in content:
            a_tag = ext_link.find_all('a', href=re.compile("^(/wiki/)((?!;)\S)*$"))
            if len(a_tag) > 0:
                for link_string in a_tag:
                    a_link = link_string["href"]       # 外部連結的網址
                    a_keyword = link_string.get_text()  # 外部連結的中文名稱
#                     print("外部連結: [%s] %s" % (a_keyword, a_link))
                    external_link_dict[a_link] = a_keyword
         
#        print(external_link_dict)
                    
        #
        # Part 3: 將Part 2所收集的外部連結，當作新的關鍵字，繼續迭代深入爬蟲
        #
        
        if (len(external_link_dict) > 0):            
            recursive = recursive + 1  # 遞迴深度加1            
            for k, v in external_link_dict.items():
                WikiArticle(k, v, recursive)  # 再次呼叫同樣的函數，執行同樣的流程
                