# Wikipedia爬蟲練習
## 範例：練習是從Wikipedia中爬取文章。先定義一個搜尋的關鍵字，擷取該關鍵字詞的文章。

In [1]:
import requests
import re
from bs4 import BeautifulSoup

### 先定義一個我們想搜尋的字詞，並將它轉換成UTF-8編碼後的URL

In [2]:
input_keyword = "泰戈爾"

utf8_url = repr(input_keyword.encode('UTF-8')).upper()  # 編碼成UTF-8並轉成大寫字元
utf8_url = utf8_url.replace("\\X", "%")                 # 用 '%' 取代 '\X' 
print("%s: %s" % (input_keyword, utf8_url[2:-1:1]))     # 擷取中間的編碼結果

# 組成Wiki關鍵字搜尋的網址格式
root_keyword_link = '/wiki/' + utf8_url[2:-1:1]
print(root_keyword_link)

泰戈爾: %E6%B3%B0%E6%88%88%E7%88%BE
/wiki/%E6%B3%B0%E6%88%88%E7%88%BE


### 範例1：送出關鍵字請求後，爬取該關鍵字的文章內容

In [3]:
# 模擬封包的標頭
headers = {
    'authority': 'zh.wikipedia.org',
    'method': 'GET',
    'path': '/wiki/' + root_keyword_link,
    'scheme': 'https',
    'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3',
    'accept-encoding': 'gzip, deflate, br',
    'accept-language': 'zh-TW,zh;q=0.9,en-US;q=0.8,en;q=0.7,zh-CN;q=0.6',
    'cookie': 'GeoIP=TW:TPE:Taipei:25.05:121.53:v4; TBLkisOn=0; mwPhp7Seed=8b8; WMF-Last-Access-Global=04-Jun-2019; WMF-Last-Access=04-Jun-2019',
    'dnt': '1',
    #'if-modified-since': 'Tue, 04 Jun 2019 12:03:22 GMT',
    'referer': 'https://zh.wikipedia.org/wiki/Wikipedia:%E9%A6%96%E9%A1%B5',
    'upgrade-insecure-requests': '1',
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36'
}    

url = 'https://zh.wikipedia.org' + root_keyword_link  # 組合關鍵字查詢URL
resp = requests.get(url, headers=headers)
resp.encoding = 'utf-8'

html = BeautifulSoup(resp.text, "lxml")
content = html.find(name='div', attrs={'id':'mw-content-text'}).find_all(name='p')

#
# 解析回傳資料，並萃取文章內容
#
for paragraph in content:
    print(paragraph.get_text())


羅賓德拉納特·泰戈爾（孟加拉語：রবীন্দ্রনাথ ঠাকুর，1861年5月7日－1941年8月7日），孟加拉族人，是一位印度詩人、哲學家和反現代民族主義者，1913年，他以《吉檀迦利》成為第一位獲得諾貝爾文學獎的亞洲人[1]。

在西方國家，泰戈爾一般被看作是一位詩人，而很少被看做一位哲學家，但在印度這兩者往往是相同的。在他的詩中含有深刻的宗教和哲學的見解。對泰戈爾來說，他的詩是他奉獻給神的禮物，而他本人是神的求婚者。他的詩在印度享有史詩的地位。他本人被許多印度教徒看作是一個聖人。

泰戈爾出生於印度加爾各答一個受到良好教育的家庭，家庭屬於商人兼地主，婆羅門種姓。他的父親戴賓德納特·泰戈爾是一位地方的印度教宗教領袖。泰戈爾是家中的第14子。

泰戈爾8歲開始寫詩，12歲開始寫劇本，15歲發表了第一首長詩《野花》，17歲發表了敘事詩《詩人的故事》。1878年赴英國倫敦大學學院（UCL）留學，1880年回國專門從事文學活動。1886年，他發表《新月集》，成為印度各級學校必選的文學教材[2]。這期間，他還撰寫了許多抨擊英國殖民統治政論文章。

泰戈爾在印度獨立運動的初期支持這個運動，但後來他與這個運動疏遠了。為了抗議1919年阿姆利則慘案，他拒絕了英國國王授予的騎士頭銜，他是第一個拒絕英王授予榮譽的人[2]:p209-。

他反對英國在印度建立起來的教育制度，反對這種「人為」的、完全服從的、死背書、不與大自然接觸的學校。為此他在他的故鄉建立了一個按他的設想設計的學校，這是維斯瓦·巴拉蒂大學的前身[3]。

泰戈爾做過多次旅行，這使他了解到許多不同的文化以及它們之間的區別。他對東方和西方文化的描寫至今為止是這類描述中最細膩的之一。1941年，泰戈爾在其生日留下控訴英國殖民統治和相信祖國必將獲得獨立解放的著名演講《文明的危機》[4]，數個月後與世長逝，享壽80歲[5]。

除詩外泰戈爾還寫了小說、小品文、遊記、話劇和2000多首歌曲。他的詩歌主要是用孟加拉語寫成[6]，在孟加拉語地區，他的詩歌非常普及。他的散文的內容主要是社會、政治和教育，他的詩歌，除了其中的宗教內容外，最主要的是描寫自然和生命。在泰戈爾的詩歌中，生命本身和它的多樣性就是歡樂的原因。同時，他所表達的愛（包括愛國）也是他的詩歌的內容之一。

印度國歌《人民的意志》和孟加拉國國歌《金色的孟加拉》都使用了泰

### 範例2：從爬取的文章內容中，擷取出有外部連結的關鍵字。這些關鍵字在文章中是以藍色字體顯示，會連到外部的網頁，並解釋其內容。

In [4]:
for ext_link in content:
    a_tag = ext_link.find_all('a', href=re.compile("^(/wiki/)((?!;)\S)*$"))
    if len(a_tag) > 0:
        for link_string in a_tag:
            a_link = link_string["href"]       # 外部連結的網址
            a_keyword = link_string.get_text()  # 外部連結的中文名稱
            print("外部連結: [%s] %s" % (a_keyword, a_link))

外部連結: [孟加拉語] /wiki/%E5%AD%9F%E5%8A%A0%E6%8B%89%E8%AA%9E
外部連結: [孟加拉族] /wiki/%E5%AD%9F%E5%8A%A0%E6%8B%89%E6%97%8F
外部連結: [印度] /wiki/%E5%8D%B0%E5%BA%A6
外部連結: [哲學家] /wiki/%E5%93%B2%E5%AD%A6%E5%AE%B6
外部連結: [民族主義] /wiki/%E6%B0%91%E6%97%8F%E4%B8%BB%E4%B9%89
外部連結: [吉檀迦利] /wiki/%E5%90%89%E6%AA%80%E8%BF%A6%E5%88%A9
外部連結: [哲學家] /wiki/%E5%93%B2%E5%AD%A6%E5%AE%B6
外部連結: [哲學] /wiki/%E5%93%B2%E5%AD%A6
外部連結: [史詩] /wiki/%E5%8F%B2%E8%AF%97
外部連結: [加爾各答] /wiki/%E5%8A%A0%E5%B0%94%E5%90%84%E7%AD%94
外部連結: [婆羅門] /wiki/%E5%A9%86%E7%BD%97%E9%97%A8
外部連結: [種姓] /wiki/%E7%A7%8D%E5%A7%93%E5%88%B6%E5%BA%A6
外部連結: [印度教] /wiki/%E5%8D%B0%E5%BA%A6%E6%95%99
外部連結: [宗教] /wiki/%E5%AE%97%E6%95%99
外部連結: [倫敦大學學院] /wiki/%E4%BC%A6%E6%95%A6%E5%A4%A7%E5%AD%A6%E5%AD%A6%E9%99%A2
外部連結: [印度獨立運動] /wiki/%E5%8D%B0%E5%BA%A6%E7%8B%AC%E7%AB%8B%E8%BF%90%E5%8A%A8
外部連結: [阿姆利則慘案] /wiki/%E9%98%BF%E5%A7%86%E5%88%A9%E5%89%87%E6%85%98%E6%A1%88
外部連結: [英國] /wiki/%E8%8B%B1%E5%9B%BD
外部連結: [騎士] /wiki/%E9%AA%91%E5%A3%AB
外部連結: [維斯瓦·巴拉蒂大學] /wiki/%E7%BB%B4%E6%9

## 作業：接下來定義一個爬蟲函數，這個函數的主要工作為：
### (1) 爬取當前關鍵字的解釋，並存入檔案(因為文章內容太多會佔滿整個頁面，所以存成檔案，方便後續檢視)
### (2) 萃取出當前關鍵字所引用的外部連結，當作新的查詢關鍵字
### (3) 把第(2)擷取到的關鍵字當作新的關鍵字，回到第(1)步，爬取新的關鍵字解釋。

In [5]:
def WikiArticle(key_word_link, key_word, recursive):
    
    if (recursive <= max_recursive_depth):
        print("遞迴層[%d] - %s (%s)" % (recursive, key_word_link, key_word))
        
        # 模擬封包的標頭
        headers = {
            'authority': 'zh.wikipedia.org',
            'method': 'GET',
            'path': '/wiki/' + key_word_link,
            'scheme': 'https',
            'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3',
            'accept-encoding': 'gzip, deflate, br',
            'accept-language': 'zh-TW,zh;q=0.9,en-US;q=0.8,en;q=0.7,zh-CN;q=0.6',
            'cookie': 'GeoIP=TW:TPE:Taipei:25.05:121.53:v4; TBLkisOn=0; mwPhp7Seed=8b8; WMF-Last-Access-Global=04-Jun-2019; WMF-Last-Access=04-Jun-2019',
            'dnt': '1',
            #'if-modified-since': 'Tue, 04 Jun 2019 12:03:22 GMT',
            'referer': 'https://zh.wikipedia.org/wiki/Wikipedia:%E9%A6%96%E9%A1%B5',
            'upgrade-insecure-requests': '1',
            'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36'
        }    

        url = 'https://zh.wikipedia.org' + key_word_link  # 組合關鍵字查詢URL
        resp = requests.get(url, headers=headers)
        resp.encoding = 'utf-8'

        html = BeautifulSoup(resp.text, "lxml")
        content = html.find(name='div', attrs={'id':'mw-content-text'}).find_all(name='p')
        
        #
        # Part 1: 請參考範例1，爬取當前關鍵字的文章內容。
        #         因為內容太多，我們把它寫入檔案，並以關鍵字作為檔案名稱，以便稍後查閱內容。
        #         請先建立一個名為"WikiArticle"的資料夾，爬取到的文章內容會放在這個資料夾底下。
        #
        for paragraph in content:  
            file_name = key_word.replace('/', '_')  # 以'_'取代'/', 避免檔名被誤解釋成路徑
            f = open("WikiArticle_" + file_name, "a+", encoding='utf-8')
            f.write( str(paragraph.get_text()) + "\n" )
            f.close()
        #
        # Part 2: 請參考範例2，萃取出本篇文章中所延伸引用的外部連結，並儲存在external_link_dict
        #
        external_link_dict = dict({})
        for ext_link in content:
            a_tag = ext_link.find_all('a', href=re.compile("^(/wiki/)((?!;)\S)*$"))
            if len(a_tag) > 0:
                for link_string in a_tag:
                    a_link = link_string["href"]       # 外部連結的網址
                    a_keyword = link_string.get_text()  # 外部連結的中文名稱
                    #print("外部連結: %s [%s]" % (a_link, a_keyword))
                    external_link_dict[a_link] = a_keyword           
        #
        # Part 3: 將Part 2所收集的外部連結，當作新的關鍵字，繼續迭代深入爬蟲
        #
        if (len(external_link_dict) > 0):
            
            recursive = recursive + 1  # 遞迴深度加1
            
            for k, v in external_link_dict.items():
                WikiArticle(k, v, recursive)  # 再次呼叫同樣的函數，執行同樣的流程
                

### 執行前個步驟定義好的爬蟲主程式

In [6]:
# 定義爬取的遞迴深度。深度不要訂太深，否則會爬很久。
max_recursive_depth = 2

WikiArticle(root_keyword_link, input_keyword, 0)

遞迴層[0] - /wiki/%E6%B3%B0%E6%88%88%E7%88%BE (泰戈爾)
遞迴層[1] - /wiki/%E5%AD%9F%E5%8A%A0%E6%8B%89%E8%AA%9E (孟加拉語)
遞迴層[2] - /wiki/%E5%8D%B0%E6%AC%A7%E8%AF%AD%E7%B3%BB (印歐語系)
遞迴層[2] - /wiki/%E5%8D%B0%E5%BA%A6-%E4%BC%8A%E6%9C%97%E8%AF%AD%E6%97%8F (印度-伊朗語族)
遞迴層[2] - /wiki/%E5%8D%B0%E5%BA%A6-%E9%9B%85%E5%88%A9%E5%AE%89%E8%AF%AD%E6%94%AF (印度-雅利安語支)
遞迴層[2] - /wiki/%E5%AD%9F%E5%8A%A0%E6%8B%89%E5%9B%BD (孟加拉國)
遞迴層[2] - /wiki/%E5%8D%B0%E5%BA%A6 (印度)
遞迴層[2] - /wiki/%E8%A5%BF%E5%AD%9F%E5%8A%A0%E6%8B%89%E9%82%A6 (西孟加拉邦)
遞迴層[2] - /wiki/%E7%89%B9%E9%87%8C%E6%99%AE%E6%8B%89%E9%82%A6 (特里普拉邦)
遞迴層[2] - /wiki/%E5%AE%98%E6%96%B9%E8%AF%AD%E8%A8%80 (官方語言)
遞迴層[2] - /wiki/%E5%8D%B0%E5%9C%B0%E8%AF%AD (印地語)
遞迴層[2] - /wiki/%E8%AF%BA%E8%B4%9D%E5%B0%94%E6%96%87%E5%AD%A6%E5%A5%96 (諾貝爾文學獎)
遞迴層[2] - /wiki/%E8%8B%B1%E5%B1%AC%E5%8D%B0%E5%BA%A6 (英屬印度)
遞迴層[2] - /wiki/%E7%BD%97%E5%AE%BE%E5%BE%B7%E6%8B%89%E7%BA%B3%E7%89%B9%C2%B7%E6%B3%B0%E6%88%88%E5%B0%94 (羅賓德拉納特·泰戈爾)
遞迴層[2] - /wiki/%E9%BC%BB%E5%8C%96%E5%85%83%E9%9F%B3 (鼻化元音)
遞迴層[

遞迴層[2] - /wiki/%E5%93%88%E6%8B%89%E5%B8%95%E6%96%87%E6%98%8E (哈拉帕文明)
遞迴層[2] - /wiki/%E5%9F%BA%E5%9B%A0 (基因)
遞迴層[2] - /wiki/%E5%90%A0%E9%99%80%E6%96%87%E5%8C%96 (吠陀文化)
遞迴層[2] - /wiki/%E5%9C%9F%E8%91%97 (土著)
遞迴層[2] - /wiki/%E7%A7%8D%E5%A7%93%E5%88%B6%E5%BA%A6 (種姓制度)
遞迴層[2] - /wiki/%E5%AD%94%E9%9B%80%E7%8E%8B%E6%9C%9D (孔雀王朝)
遞迴層[2] - /wiki/%E9%98%BF%E8%82%B2%E7%8E%8B (阿育王)
遞迴層[2] - /wiki/%E5%8D%97%E5%8D%B0%E5%BA%A6 (南印度)
遞迴層[2] - /wiki/%E8%BF%88%E7%B4%A2%E5%B0%94 (邁索爾)
遞迴層[2] - /wiki/%E5%8D%B0%E5%BA%A6%E5%8D%8A%E5%B2%9B (印度半島)
遞迴層[2] - /wiki/%E8%B4%B5%E9%9C%9C%E5%B8%9D%E5%9B%BD (貴霜帝國)
遞迴層[2] - /wiki/%E7%AC%88%E5%A4%9A%E7%8E%8B%E6%9C%9D (笈多王朝)
遞迴層[2] - /wiki/%E9%98%BF%E6%8B%89%E4%BC%AF%E5%B8%9D%E5%9B%BD (阿拉伯帝國)
遞迴層[2] - /wiki/%E4%BC%8A%E6%96%AF%E5%85%B0%E6%96%87%E5%8C%96 (伊斯蘭文化)
遞迴層[2] - /wiki/%E7%AA%81%E5%8E%A5%E4%BA%BA (突厥人)
遞迴層[2] - /wiki/%E5%BE%B7%E9%87%8C%E8%98%87%E4%B8%B9%E5%9C%8B (德里蘇丹國)
遞迴層[2] - /wiki/%E5%8D%B0%E5%BA%A6%E6%AD%B7%E5%8F%B2 (印度歷史)
遞迴層[2] - /wiki/%E5%B8%96%E6%9C%A8%E5%

遞迴層[2] - /wiki/%E5%90%84%E5%9B%BD%E8%BF%9B%E5%8F%A3%E9%A2%9D%E5%88%97%E8%A1%A8 (第10大進口國)
遞迴層[2] - /wiki/%E5%90%84%E5%9B%BD%E5%87%BA%E5%8F%A3%E9%A2%9D%E5%88%97%E8%A1%A8 (第19大出口國)
遞迴層[2] - /wiki/%E5%8D%B0%E5%BA%A6%E9%80%9A%E8%AE%AF (通訊產業)
遞迴層[2] - /wiki/%E7%87%9F%E9%A4%8A%E5%8D%88%E9%A4%90 (營養午餐)
遞迴層[2] - /wiki/%E5%88%B6%E9%80%A0%E4%B8%9A (製造業)
遞迴層[2] - /wiki/%E9%9B%BB%E5%8A%9B (電力)
遞迴層[2] - /wiki/%E9%9B%BB%E8%85%A6%E8%BB%9F%E9%AB%94 (電腦軟體)
遞迴層[2] - /wiki/%E6%99%AE%E5%8D%8E%E6%B0%B8%E9%81%93 (普華永道)
遞迴層[2] - /wiki/%E5%9C%8B%E6%B0%91%E7%94%9F%E7%94%A2%E7%B8%BD%E5%80%BC (國民生產總值)
遞迴層[2] - /wiki/%E7%BE%8E%E5%9C%8B (美國)
遞迴層[2] - /wiki/%E4%BA%BA%E5%8F%A3%E7%BA%A2%E5%88%A9 (人口紅利)
遞迴層[2] - /wiki/%E4%B8%AD%E7%94%A2%E9%9A%8E%E7%B4%9A (中產階級)
遞迴層[2] - /wiki/%E5%85%A8%E6%B0%91%E5%81%A5%E4%BF%9D (全民健保)
遞迴層[2] - /wiki/%E7%BB%8F%E6%B5%8E%E5%AD%A6%E4%BA%BA%E4%BF%A1%E6%81%AF%E7%A4%BE (經濟學人信息社)
遞迴層[2] - /wiki/%E7%89%A9%E5%83%B9 (物價)
遞迴層[2] - /wiki/%E9%82%A6%E5%8A%A0%E7%BE%85%E7%88%BE (邦加羅爾)
遞迴層[2] - /wiki/%

遞迴層[2] - /wiki/%E9%99%86%E5%86%9B (陸軍)
遞迴層[2] - /wiki/%E5%BF%97%E6%84%BF%E5%BD%B9 (志願役)
遞迴層[2] - /wiki/%E5%BE%81%E5%85%B5%E5%88%B6 (徵兵制)
遞迴層[2] - /wiki/%E5%8D%B0%E5%BA%A6%E4%B8%9C%E5%8C%97%E9%83%A8%E5%86%B2%E7%AA%81 (東北部)
遞迴層[2] - /wiki/%E6%81%90%E6%80%96%E5%88%86%E5%AD%90 (恐怖分子)
遞迴層[2] - /wiki/%E6%B5%B7%E8%BB%8D%E9%99%B8%E6%88%B0%E9%9A%8A (海軍陸戰隊)
遞迴層[2] - /wiki/%E7%B6%AD%E6%8B%89%E7%89%B9%E8%99%9F%E8%88%AA%E7%A9%BA%E6%AF%8D%E8%89%A6 (維拉特號航空母艦)
遞迴層[2] - /wiki/%E5%BD%88%E9%81%93%E9%A3%9B%E5%BD%88%E6%BD%9B%E8%89%A6 (彈道飛彈潛艦)
遞迴層[2] - /wiki/%E4%B8%AD%E5%9C%8B (中國)
遞迴層[2] - /wiki/%E4%BA%9A%E4%B8%9C%E5%8E%BF (亞東縣)
遞迴層[2] - /wiki/%E5%9C%B0%E7%90%86%E5%9D%90%E6%A0%87 (座標)
遞迴層[1] - /wiki/%E5%93%B2%E5%AD%A6%E5%AE%B6 (哲學家)
遞迴層[1] - /wiki/%E6%B0%91%E6%97%8F%E4%B8%BB%E4%B9%89 (民族主義)
遞迴層[2] - /wiki/%E4%B8%BB%E6%9D%83 (主權)
遞迴層[2] - /wiki/%E6%B0%91%E6%97%8F%E8%87%AA%E5%86%B3%E6%9D%83 (民族自決權)
遞迴層[2] - /wiki/%E4%BA%BA%E6%B0%91%E4%B8%BB%E6%9D%83%E8%AE%BA (人民主權)
遞迴層[2] - /wiki/%E8%AA%9E%E8%A8%80 (語言)
遞迴層[

遞迴層[2] - /wiki/%E7%BE%8E%E5%9C%8B%E9%9D%A9%E5%91%BD (美國革命)
遞迴層[2] - /wiki/%E8%AE%A9-%E9%9B%85%E5%85%8B%C2%B7%E5%8D%A2%E6%A2%AD (盧梭)
遞迴層[2] - /wiki/%E4%BC%8F%E7%88%BE%E6%B3%B0 (伏爾泰)
遞迴層[2] - /wiki/%E5%90%AF%E8%92%99%E4%B8%BB%E4%B9%89 (啟蒙主義)
遞迴層[2] - /wiki/%E7%A7%91%E8%A5%BF%E5%98%89%E5%85%B1%E5%92%8C%E5%9B%BD (科西嘉共和國)
遞迴層[2] - /wiki/%E5%AE%AA%E6%94%BF%E4%B8%BB%E4%B9%89 (憲政主義)
遞迴層[2] - /wiki/%E6%8B%BF%E7%A0%B4%E5%B4%99%E6%88%B0%E7%88%AD (拿破崙戰爭)
遞迴層[2] - /wiki/%E5%8D%8A%E5%B3%B6%E4%BA%BA (半島人)
遞迴層[2] - /wiki/%E5%85%8B%E9%87%8C%E5%A5%A5%E5%B0%94%E4%BA%BA (克里奧爾人)
遞迴層[2] - /wiki/%E6%8B%89%E4%B8%81%E7%BE%8E%E6%B4%B2%E7%8B%AC%E7%AB%8B%E6%88%98%E4%BA%89 (拉丁美洲獨立戰爭)
遞迴層[2] - /wiki/%E7%A5%9E%E5%9C%A3%E7%BD%97%E9%A9%AC%E5%B8%9D%E5%9B%BD (神聖羅馬帝國)
遞迴層[2] - /wiki/%E6%B3%95%E7%90%86%E5%9E%8B%E6%9D%83%E5%A8%81 (制度法理)
遞迴層[2] - /wiki/%E8%90%8A%E8%8C%B5%E9%82%A6%E8%81%AF (萊茵邦聯)
遞迴層[2] - /wiki/%E5%A5%A5%E6%89%98%C2%B7%E5%86%AF%C2%B7%E4%BF%BE%E6%96%AF%E9%BA%A6 (俾斯麥)
遞迴層[2] - /wiki/%E9%90%B5%E8%A1%80%E6%94%BF

SSLError: HTTPSConnectionPool(host='zh.wikipedia.org', port=443): Max retries exceeded with url: /wiki/%E8%98%87%E6%A0%BC%E8%98%AD%E7%8D%A8%E7%AB%8B%E9%81%8B%E5%8B%95 (Caused by SSLError(SSLError("bad handshake: SysCallError(10054, 'WSAECONNRESET')",),))