# Wikipedia爬蟲練習
## 範例：練習是從Wikipedia中爬取文章。先定義一個搜尋的關鍵字，擷取該關鍵字詞的文章。

In [1]:
import requests
import re
from bs4 import BeautifulSoup

In [2]:
import sys
import locale

print(sys.getfilesystemencoding())
print(locale.getpreferredencoding())

utf-8
cp950


### 先定義一個我們想搜尋的字詞，並將它轉換成UTF-8編碼後的URL

In [3]:
input_keyword = "公民投票法"  # 定義有興趣的關鍵字

utf8_url = repr(input_keyword.encode('UTF-8')).upper()  # 編碼成UTF-8並轉成大寫字元
utf8_url = utf8_url.replace("\\X", "%")                 # 用 '%' 取代 '\X' 
print("%s: %s" % (input_keyword, utf8_url[2:-1:1]))     # 擷取中間的編碼結果

# 組成Wiki關鍵字搜尋的網址格式
root_keyword_link = '/wiki/' + utf8_url[2:-1:1]
print(root_keyword_link)

公民投票法: %E5%85%AC%E6%B0%91%E6%8A%95%E7%A5%A8%E6%B3%95
/wiki/%E5%85%AC%E6%B0%91%E6%8A%95%E7%A5%A8%E6%B3%95


### 範例1：送出關鍵字請求後，爬取該關鍵字的文章內容

In [4]:
# 模擬封包的標頭
headers = {
    'authority': 'zh.wikipedia.org',
    'method': 'GET',
    'path': '/wiki/' + root_keyword_link,
    'scheme': 'https',
    'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3',
    'accept-encoding': 'gzip, deflate, br',
    'accept-language': 'zh-TW,zh;q=0.9,en-US;q=0.8,en;q=0.7,zh-CN;q=0.6',
    'cookie': 'GeoIP=TW:TPE:Taipei:25.05:121.53:v4; TBLkisOn=0; mwPhp7Seed=8b8; WMF-Last-Access-Global=04-Jun-2019; WMF-Last-Access=04-Jun-2019',
    'dnt': '1',
    #'if-modified-since': 'Tue, 04 Jun 2019 12:03:22 GMT',
    'referer': 'https://zh.wikipedia.org/wiki/Wikipedia:%E9%A6%96%E9%A1%B5',
    'upgrade-insecure-requests': '1',
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36'
}    

url = "https://zh.wikipedia.org" + root_keyword_link  # 組合關鍵字查詢URL
response = requests.get(url=url, headers=headers)
response.encoding = "utf-8"

html = BeautifulSoup(response.text, "html5lib")
content = html.find(name='div', attrs={'id':'mw-content-text'}).find_all(name="p")

#
# 解析回傳資料，並萃取文章內容
#
for paragraph in content:
    print(paragraph.get_text())


《公民投票法》，簡稱《公投法》， 是一部中華民國法律，於2004年1月2日起正式實施，保障中華民國國民實踐公民投票的權利[1]。國民大會廢除後，複決立法院所提憲法修正案及領土變更案的權利，依據該法由全體國民行使。



以下為依公民投票法之規定提出之全國性公投流程的2019年版本：

其他規定：

由立法委員提交的修憲提案：必須要先獲得所有立委1/4的連署支持，然後全案才透過程序委員會列入院會報告事項處理。立法院由朝野共同協商人數比例，由全部立委1/3加1人組成「修憲委員會」負責審查修憲案。修憲委員會討論後，如能獲得該委員會1/3出席委員中1/2同意，才算完成初審，並送交院會進行二、三讀程序。全案在進入二、三讀程序後，全體立委3/4出席討論，出席委員中的3/4同意，才能送出立法院、交由公民依憲法增修條文及公民投票法相關規定複決之。[3]

地方性公投流程同以上規定。

全國性公民投票截至2017年12月修法前，中央選舉委員會公告成案、並舉行投票的全國性公民投票已有6案，但6案全部因投票人數未達50%門檻而遭到否決。

全國性公民投票第7案至第16案於2018年11月24日進行投票，其中第7案至第12案、第16案同意通過，第13案至第15案遭到否決。

地方性公民投票截至2017年12月修法前，經由中華民國各地方選舉委員會公告成案、並舉行投票的地方性公民投票已有5案，其中有4案遭到否決，1案同意。

《公民投票法》制定的主要背景，是現行的《中華民國憲法》規定人民有選舉、罷免、創制、複決四項公民投票權，但是對於憲法的創制複決權一直由國民大會所主導，人民無法透過提案創制國家政策或修改憲法。在民主改革的浪潮下，以公民投票的形式行使直接民權，成為立法的主要推手，同時亦可限制立法院的權力，因為最終需要經過公投才能通過具爭議的法案。而台灣作為一個政治實體，此法將提高台灣修改憲法的認受性。

1947年爆發二二八事件，甫自東京帝國大學經濟學部畢業、年僅23歲的台南人邱永漢向聯合國寄出「決定台灣未來地位時，應訴諸公民投票」的請願書，透過美聯社與合眾社廣為傳播，引起軒然大波，台灣省議會議長黃朝琴特地為文反駁。[4]

《公民投票法》的立法一直是民進黨的長期主張。民進黨的黨綱之一是台灣前途由台灣人民自主決定，因此在很早就提出以公投決定台灣的國土區域與國際地位問題。蔡同榮於1990年召集成

### 範例2：從爬取的文章內容中，擷取出有外部連結的關鍵字。這些關鍵字在文章中是以藍色字體顯示，會連到外部的網頁，並解釋其內容。

In [5]:
for ext_link in content:
    a_tag = ext_link.find_all("a", href=re.compile("^(/wiki/)((?!;)\S)*$"))  #正規表達式，去除網址、符號
    if len(a_tag) > 0:
        for link_string in a_tag:
            a_link = link_string["href"]       # 外部連結的網址
            a_keyword = link_string.get_text()  # 外部連結的中文名稱
            print("外部連結: [{}] {}".format(a_keyword, a_link))

外部連結: [中華民國法律] /wiki/%E4%B8%AD%E8%8F%AF%E6%B0%91%E5%9C%8B%E6%B3%95%E5%BE%8B
外部連結: [中華民國國民] /wiki/%E4%B8%AD%E8%8F%AF%E6%B0%91%E5%9C%8B%E5%9C%8B%E6%B0%91
外部連結: [公民投票] /wiki/%E5%85%AC%E6%B0%91%E6%8A%95%E7%A5%A8
外部連結: [權利] /wiki/%E6%AC%8A%E5%88%A9
外部連結: [國民大會] /wiki/%E5%9C%8B%E6%B0%91%E5%A4%A7%E6%9C%83
外部連結: [立法院] /wiki/%E7%AB%8B%E6%B3%95%E9%99%A2
外部連結: [憲法修正] /wiki/%E6%86%B2%E6%B3%95%E4%BF%AE%E6%AD%A3
外部連結: [修憲委員會] /wiki/%E7%AB%8B%E6%B3%95%E9%99%A2%E4%BF%AE%E6%86%B2%E5%A7%94%E5%93%A1%E6%9C%83
外部連結: [中華民國憲法] /wiki/%E4%B8%AD%E8%8F%AF%E6%B0%91%E5%9C%8B%E6%86%B2%E6%B3%95
外部連結: [選舉] /wiki/%E9%81%B8%E8%88%89
外部連結: [罷免] /wiki/%E7%BD%B7%E5%85%8D
外部連結: [創制] /wiki/%E5%89%B5%E5%88%B6
外部連結: [複決] /wiki/%E8%A4%87%E6%B1%BA
外部連結: [國民大會] /wiki/%E5%9C%8B%E6%B0%91%E5%A4%A7%E6%9C%83
外部連結: [提案] /wiki/%E6%8F%90%E6%A1%88
外部連結: [創制] /wiki/%E5%89%B5%E5%88%B6
外部連結: [直接民權] /wiki/%E7%9B%B4%E6%8E%A5%E6%B0%91%E6%AC%8A
外部連結: [二二八事件] /wiki/%E4%BA%8C%E4%BA%8C%E5%85%AB%E4%BA%8B%E4%BB%B6
外部連結: [東京帝國大學] /wiki/%E6%9D%B1%E4%B

## 作業：接下來定義一個爬蟲函數，這個函數的主要工作為：
### (1) 爬取當前關鍵字的解釋，並存入檔案(因為文章內容太多會佔滿整個頁面，所以存程檔案，方便後續檢視)
### (2) 萃取出當前關鍵字所引用的外部連結，當作新的查詢關鍵字
### (3) 把第(2)擷取到的關鍵字當作新的關鍵字，回到第(1)步，爬取新的關鍵字解釋。

In [6]:
def WikiArticle(key_word_link, key_word, recursive):
    
    if (recursive <= max_recursive_depth):
        print("遞迴層[{}] - {} ({})".format(recursive, key_word_link, key_word))
        
        # 模擬封包的標頭
        headers = {
            'authority': 'zh.wikipedia.org',
            'method': 'GET',
            'path': '/wiki/' + key_word_link,
            'scheme': 'https',
            'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3',
            'accept-encoding': 'gzip, deflate, br',
            'accept-language': 'zh-TW,zh;q=0.9,en-US;q=0.8,en;q=0.7,zh-CN;q=0.6',
            'cookie': 'GeoIP=TW:TPE:Taipei:25.05:121.53:v4; TBLkisOn=0; mwPhp7Seed=8b8; WMF-Last-Access-Global=04-Jun-2019; WMF-Last-Access=04-Jun-2019',
            'dnt': '1',
            #'if-modified-since': 'Tue, 04 Jun 2019 12:03:22 GMT',
            'referer': 'https://zh.wikipedia.org/wiki/Wikipedia:%E9%A6%96%E9%A1%B5',
            'upgrade-insecure-requests': '1',
            'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36'
        }    

        url = "https://zh.wikipedia.org" + key_word_link  # 組合關鍵字查詢URL
        response = requests.get(url, headers=headers)
        response.encoding = "utf-8"

        html = BeautifulSoup(response.text, "html5lib")
        content = html.find(name="div", attrs={"id":"mw-content-text"}).find_all(name="p")
        
        #
        # Part 1: 請參考範例1，爬取當前關鍵字的文章內容。
        #         因為內容太多，我們把它寫入檔案，並以關鍵字作為檔案名稱，以便稍後查閱內容。
        #         請先建立一個名為"WikiArticle"的資料夾，爬取到的文章內容會放在這個資料夾底下。
        #
        '''
        
        Your code here
        
        '''
        with open("Data/WikiArticle/"+key_word+".txt","w",encoding="utf-8") as fh:
            for paragraph in content:
                #paragraph = paragraph.encode("utf8").decode("latin1")
                f=fh.write(str(paragraph))

        
        #
        # Part 2: 請參考範例2，萃取出本篇文章中所延伸引用的外部連結，並儲存在external_link_dict
        #
        external_link_dict = dict({})
        '''
        
        Your code here
        
        '''
        for ext_link in content:
            a_tag = ext_link.find_all('a', href=re.compile("^(/wiki/)((?!;)\S)*$"))
            if len(a_tag) > 0:
                for link_string in a_tag:
                    a_link = link_string["href"]       # 外部連結的網址
                    a_keyword = link_string.get_text()  # 外部連結的中文名稱
                    external_link_dict[a_link]=a_keyword

                    
        #
        # Part 3: 將Part 2所收集的外部連結，當作新的關鍵字，繼續迭代深入爬蟲
        #
        if (len(external_link_dict) > 0):
            
            recursive = recursive + 1  # 遞迴深度加1
            
            for k, v in external_link_dict.items():
                WikiArticle(k, v, recursive)  # 再次呼叫同樣的函數，執行同樣的流程
                

### 執行前個步驟定義好的爬蟲主程式

In [7]:
# 遞迴兩層測試了一下爬太久了，所以用一層而已
max_recursive_depth = 1

WikiArticle(root_keyword_link, input_keyword, 0)

遞迴層[0] - /wiki/%E5%85%AC%E6%B0%91%E6%8A%95%E7%A5%A8%E6%B3%95 (公民投票法)
遞迴層[1] - /wiki/%E4%B8%AD%E8%8F%AF%E6%B0%91%E5%9C%8B%E6%B3%95%E5%BE%8B (中華民國法律)
遞迴層[1] - /wiki/%E4%B8%AD%E8%8F%AF%E6%B0%91%E5%9C%8B%E5%9C%8B%E6%B0%91 (中華民國國民)
遞迴層[1] - /wiki/%E5%85%AC%E6%B0%91%E6%8A%95%E7%A5%A8 (公民投票)
遞迴層[1] - /wiki/%E6%AC%8A%E5%88%A9 (權利)
遞迴層[1] - /wiki/%E5%9C%8B%E6%B0%91%E5%A4%A7%E6%9C%83 (國民大會)
遞迴層[1] - /wiki/%E7%AB%8B%E6%B3%95%E9%99%A2 (立法院)
遞迴層[1] - /wiki/%E6%86%B2%E6%B3%95%E4%BF%AE%E6%AD%A3 (憲法修正)
遞迴層[1] - /wiki/%E7%AB%8B%E6%B3%95%E9%99%A2%E4%BF%AE%E6%86%B2%E5%A7%94%E5%93%A1%E6%9C%83 (修憲委員會)
遞迴層[1] - /wiki/%E4%B8%AD%E8%8F%AF%E6%B0%91%E5%9C%8B%E6%86%B2%E6%B3%95 (中華民國憲法)
遞迴層[1] - /wiki/%E9%81%B8%E8%88%89 (選舉)
遞迴層[1] - /wiki/%E7%BD%B7%E5%85%8D (罷免)
遞迴層[1] - /wiki/%E5%89%B5%E5%88%B6 (創制)
遞迴層[1] - /wiki/%E8%A4%87%E6%B1%BA (複決)
遞迴層[1] - /wiki/%E6%8F%90%E6%A1%88 (提案)
遞迴層[1] - /wiki/%E7%9B%B4%E6%8E%A5%E6%B0%91%E6%AC%8A (直接民權)
遞迴層[1] - /wiki/%E4%BA%8C%E4%BA%8C%E5%85%AB%E4%BA%8B%E4%BB%B6 (二二八事件)
遞迴層[1] - /