# Wikipedia爬蟲練習
## 範例：練習是從Wikipedia中爬取文章。先定義一個搜尋的關鍵字，擷取該關鍵字詞的文章。

In [1]:
import requests
import re
from bs4 import BeautifulSoup

### 先定義一個我們想搜尋的字詞，並將它轉換成UTF-8編碼後的URL

In [19]:
input_keyword = "假新聞"  # 這裡可以自己定義有興趣的關鍵字

utf8_url = repr(input_keyword.encode('UTF-8')).upper()  # 編碼成UTF-8並轉成大寫字元
utf8_url = utf8_url.replace("\X", "%")                 # 用 '%' 取代 '\X' 
print("%s: %s" % (input_keyword, utf8_url[2:-1:1]))     # 擷取中間的編碼結果

# 組成Wiki關鍵字搜尋的網址格式
root_keyword_link = '/wiki/' + utf8_url[2:-1:1]
print(root_keyword_link)

假新聞: %E5%81%87%E6%96%B0%E8%81%9E
/wiki/%E5%81%87%E6%96%B0%E8%81%9E


### 範例1：送出關鍵字請求後，爬取該關鍵字的文章內容

In [4]:
# 模擬封包的標頭
headers = {
    'authority': 'zh.wikipedia.org',
    'method': 'GET',
    'path': '/wiki/' + root_keyword_link,
    'scheme': 'https',
    'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3',
    'accept-encoding': 'gzip, deflate, br',
    'accept-language': 'zh-TW,zh;q=0.9,en-US;q=0.8,en;q=0.7,zh-CN;q=0.6',
    'cookie': 'GeoIP=TW:TPE:Taipei:25.05:121.53:v4; TBLkisOn=0; mwPhp7Seed=8b8; WMF-Last-Access-Global=04-Jun-2019; WMF-Last-Access=04-Jun-2019',
    'dnt': '1',
    #'if-modified-since': 'Tue, 04 Jun 2019 12:03:22 GMT',
    'referer': 'https://zh.wikipedia.org/wiki/Wikipedia:%E9%A6%96%E9%A1%B5',
    'upgrade-insecure-requests': '1',
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36'
}    

url = 'https://zh.wikipedia.org' + root_keyword_link  # 組合關鍵字查詢URL
resp = requests.get(url, headers=headers)
resp.encoding = 'utf-8'

html = BeautifulSoup(resp.text, "lxml")
content = html.find(name='div', attrs={'id':'mw-content-text'}).find_all(name='p')

# 解析回傳資料，並萃取文章內容
for paragraph in content:
    print(paragraph.get_text())


假新聞（英語：Fake news）是目的是為了誤導大眾，帶來政治、經濟、市場、或心理得到成就感和利益的新聞或宣傳[1]，包括通過傳統新聞媒體（印刷和廣播）或線上社群媒體傳播的故意錯誤資訊或惡作劇[2]。這些虛假資訊通常是由記者因收受利益而進行報導時引起的，這種的做法稱為支票簿新聞[3]。這些新聞已經增加了更多假新聞或黃色新聞的數量，並經常被回饋為社群媒體中的錯誤資訊，成為一種負面的正向循環[4]。

美國總統唐納·川普頻繁使用「假新聞」一詞稱呼對他進行負面報導的媒體[5][6]，同樣的現象也發生在所有國家，形成越來越對立和撕裂的民主社會。假新聞為了增加讀者或網路分享，常會配合吸引人的標題或是完全假造的新聞故事[1]，也有基於事實斷章取義或是主觀誘導假新聞，都是為了達到其爭辯的目的。假新聞類似標題黨，主要都是靠所產生的廣告收入，不管內容的正確與否[1]。假新聞容易取得廣告收入、增加政治上的兩極分化，因著社群媒體的無所不在，經Facebook傳播假新聞的散布有相當的關係[1][7]。根據德國霍恩海姆大學的研究成果，極右翼人士特別偏好轉載假新聞[8]。一些沒有標示維護者或編輯者的匿名網站，由於很難針對製造假新聞的作者起訴，也會成為假新聞的媒介之一[9]。普林斯頓大學的一項研究發現，年長的人相對於年輕人較為缺乏數字素養，而更容易分享假新聞[10]。

假新聞的相關性在後真相政治中有所增加。對於媒體機構而言，吸引觀眾存取其網站的能力對於產生線上廣告收入是必要的。發布具有吸參照戶的虛假內容的故事有利於廣告商並提高評級。輕鬆存取線上廣告收入，增加政治兩極分化以及社群媒體（主要是Facebook訊息來源）的流行[2]，都與假新聞的傳播有關，這些新聞與合法新聞報導競爭[11]。此外，各國政府也多少參與製作和宣傳假新聞以減低敵國的影響力[12]。

虛假新聞破壞了媒體的正當報導，使記者更難以報導重大新聞報導[13]。BuzzFeed的一項分析發現，關於2016年美國總統選舉的前20個虛假新聞報導在Facebook上的點擊率超過了19個主要媒體的前20則選舉報導[14]。匿名代管的虛假新聞網站[2]也缺乏已知的出版商也受到批評，因為它們難以起訴假新聞的來源[15]。

假新聞是一種新詞[2][16]，通常用來指捏造新聞。在傳統新聞，社群媒體或虛假新聞網站中發現的這類新聞事實上沒有任何依據

### 範例2：從爬取的文章內容中，擷取出有外部連結的關鍵字。這些關鍵字在文章中是以藍色字體顯示，會連到外部的網頁，並解釋其內容。

In [57]:
for ext_link in content:
    a_tag = ext_link.find_all('a', href=re.compile("^(/wiki/)((?!;)\S)*$"))
    if len(a_tag) > 0:
        for link_string in a_tag:
            a_link = link_string["href"]        # 外部連結的網址
            a_keyword = link_string.get_text()  # 外部連結的中文名稱
            print("[%s] （%s）" % (a_keyword, a_link))

[政治] （/wiki/%E6%94%BF%E6%B2%BB）
[經濟] （/wiki/%E7%B6%93%E6%BF%9F）
[市場] （/wiki/%E5%B8%82%E5%A0%B4）
[心理] （/wiki/%E5%BF%83%E7%90%86）
[利益] （/wiki/%E5%88%A9%E7%9B%8A）
[錯誤資訊] （/wiki/%E9%8C%AF%E8%AA%A4%E8%B3%87%E8%A8%8A）
[惡作劇] （/wiki/%E6%83%A1%E4%BD%9C%E5%8A%87）
[美國總統] （/wiki/%E7%BE%8E%E5%9B%BD%E6%80%BB%E7%BB%9F）
[唐納·川普] （/wiki/%E5%94%90%E7%B4%8D%C2%B7%E5%B7%9D%E6%99%AE）
[分享] （/wiki/%E5%85%B1%E4%BA%AB）
[標題黨] （/wiki/%E6%A0%87%E9%A2%98%E5%85%9A）
[Facebook] （/wiki/Facebook）
[霍恩海姆大學] （/wiki/%E9%9C%8D%E6%81%A9%E6%B5%B7%E5%A7%86%E5%A4%A7%E5%AD%B8）
[極右翼] （/wiki/%E6%A5%B5%E5%8F%B3%E7%BF%BC）
[後真相政治] （/wiki/%E5%BE%8C%E7%9C%9F%E7%9B%B8%E6%94%BF%E6%B2%BB）
[社群媒體] （/wiki/%E7%A4%BE%E4%BA%A4%E5%AA%92%E9%AB%94）
[Facebook] （/wiki/Facebook）
[訊息來源] （/wiki/%E6%B6%88%E6%81%AF%E4%BE%86%E6%BA%90）
[BuzzFeed] （/wiki/BuzzFeed）
[2016年美國總統選舉] （/wiki/2016%E5%B9%B4%E7%BE%8E%E5%9C%8B%E7%B8%BD%E7%B5%B1%E9%81%B8%E8%88%89）
[新詞] （/wiki/%E6%96%B0%E8%AF%8D）
[CBS] （/wiki/CBS）
[60分鐘時事雜誌] （/wiki/60%E5%88%86%E9%90%98%E6%99%82%E4%BA%8B%

## 作業：接下來定義一個爬蟲函數，這個函數的主要工作為：
### (1) 爬取當前關鍵字的解釋，並存入檔案(因為文章內容太多會佔滿整個頁面，所以存程檔案，方便後續檢視)
### (2) 萃取出當前關鍵字所引用的外部連結，當作新的查詢關鍵字
### (3) 把第(2)擷取到的關鍵字當作新的關鍵字，回到第(1)步，爬取新的關鍵字解釋。

In [59]:
import os
def WikiArticle(key_word_link, key_word, recursive): 
    if (recursive <= max_recursive_depth):
        print("遞迴層[%d]  [%s] (%s)" % (recursive, key_word, key_word_link))
      
        # 模擬封包的標頭
        headers = {
            'authority': 'zh.wikipedia.org',
            'method': 'GET',
            'path': '/wiki/' + key_word_link,
            'scheme': 'https',
            'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3',
            'accept-encoding': 'gzip, deflate, br',
            'accept-language': 'zh-TW,zh;q=0.9,en-US;q=0.8,en;q=0.7,zh-CN;q=0.6',
            'cookie': 'GeoIP=TW:TPE:Taipei:25.05:121.53:v4; TBLkisOn=0; mwPhp7Seed=8b8; WMF-Last-Access-Global=04-Jun-2019; WMF-Last-Access=04-Jun-2019',
            'dnt': '1',
            #'if-modified-since': 'Tue, 04 Jun 2019 12:03:22 GMT',
            'referer': 'https://zh.wikipedia.org/wiki/Wikipedia:%E9%A6%96%E9%A1%B5',
            'upgrade-insecure-requests': '1',
            'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36'
        }    

        url = 'https://zh.wikipedia.org' + key_word_link  # 組合關鍵字查詢URL
        resp = requests.get(url, headers=headers)
        resp.encoding = 'utf-8'

        html = BeautifulSoup(resp.text, "lxml")
        content = html.find(name='div', attrs={'id':'mw-content-text'}).find_all(name='p')
        
        # Part 1: 請參考範例1，爬取當前關鍵字的文章內容。
        #         因為內容太多，我們把它寫入檔案，並以關鍵字作為檔案名稱，以便稍後查閱內容。
        #         請先建立一個名為"WikiArticle"的資料夾，爬取到的文章內容會放在這個資料夾底下。
            
        for paragraph in content:  
            #file_name = key_word.replace('/', '_')  # 以'_'取代'/', 避免檔名被誤解釋成路徑
            f = open("WikiArticle/" + file_name, "a+", encoding='utf-8')
            f.write( str(paragraph.get_text()) + "\n" )
            f.close()
            
        # Part 2: 請參考範例2，萃取出本篇文章中所延伸引用的外部連結，並儲存在external_link_dict
        external_link_dict = dict({})
        for ext_link in content:
            a_tag = ext_link.find_all('a', href=re.compile("^(/wiki/)((?!;)\S)*$"))
            if len(a_tag) > 0:
                for link_string in a_tag:
                    a_link = link_string["href"]       # 外部連結的網址
                    a_keyword = link_string.get_text()  # 外部連結的中文名稱
                    #print("外部連結: %s [%s]" % (a_link, a_keyword))
                    external_link_dict[a_link] = a_keyword
                    
    
        # Part 3: 將Part 2所收集的外部連結，當作新的關鍵字，繼續迭代深入爬蟲
        if (len(external_link_dict) > 0):
            recursive = recursive + 1  # 遞迴深度加1
            for k, v in external_link_dict.items():
                WikiArticle(k, v, recursive)  # 再次呼叫同樣的函數，執行同樣的流程           

### 執行前個步驟定義好的爬蟲主程式

In [60]:
# 定義爬取的遞迴深度。深度不要訂太深，否則會爬很久。
max_recursive_depth = 3
WikiArticle(root_keyword_link, input_keyword, 0)

遞迴層[0]  [假新聞] (/wiki/%E5%81%87%E6%96%B0%E8%81%9E)
遞迴層[1]  [政治] (/wiki/%E6%94%BF%E6%B2%BB)
遞迴層[2]  [決策] (/wiki/%E5%86%B3%E7%AD%96)
遞迴層[3]  [異常心理學] (/wiki/%E7%95%B0%E5%B8%B8%E5%BF%83%E7%90%86%E5%AD%B8)
遞迴層[3]  [行為遺傳學] (/wiki/%E8%A1%8C%E4%B8%BA%E9%81%97%E4%BC%A0%E5%AD%A6)
遞迴層[3]  [生物心理學] (/wiki/%E7%94%9F%E7%89%A9%E5%BF%83%E7%90%86%E5%AD%B8)
遞迴層[3]  [心理藥物學] (/wiki/%E7%B2%BE%E7%A5%9E%E8%97%A5%E7%90%86%E5%AD%B8)
遞迴層[3]  [認知心理學] (/wiki/%E8%AA%8D%E7%9F%A5%E5%BF%83%E7%90%86%E5%AD%B8)
遞迴層[3]  [比較心理學] (/wiki/%E6%AF%94%E8%BC%83%E5%BF%83%E7%90%86%E5%AD%B8)
遞迴層[3]  [跨文化心理學] (/wiki/%E8%B7%A8%E6%96%87%E5%8C%96%E5%BF%83%E7%90%86%E5%AD%B8)
遞迴層[3]  [文化心理學] (/wiki/%E6%96%87%E5%8C%96%E5%BF%83%E7%90%86%E5%AD%A6)
遞迴層[3]  [發展心理學] (/wiki/%E7%99%BC%E5%B1%95%E5%BF%83%E7%90%86%E5%AD%B8)
遞迴層[3]  [演化心理學] (/wiki/%E6%BC%94%E5%8C%96%E5%BF%83%E7%90%86%E5%AD%B8)
遞迴層[3]  [實驗心理學] (/wiki/%E5%AF%A6%E9%A9%97%E5%BF%83%E7%90%86%E5%AD%B8)
遞迴層[3]  [數學心理學] (/wiki/%E6%95%B8%E5%AD%B8%E5%BF%83%E7%90%86%E5%AD%B8)
遞迴層[3]  [神經心理學] (/wi

遞迴層[3]  [資本主義] (/wiki/%E8%B3%87%E6%9C%AC%E4%B8%BB%E7%BE%A9)
遞迴層[3]  [西方世界] (/wiki/%E8%A5%BF%E6%96%B9%E4%B8%96%E7%95%8C)
遞迴層[3]  [西方文化] (/wiki/%E8%A5%BF%E6%96%B9%E6%96%87%E5%8C%96)
遞迴層[3]  [資訊社會] (/wiki/%E8%B3%87%E8%A8%8A%E7%A4%BE%E6%9C%83)
遞迴層[3]  [網路空間] (/wiki/%E7%B6%B2%E8%B7%AF%E7%A9%BA%E9%96%93)
遞迴層[3]  [歐盟] (/wiki/%E6%AD%90%E7%9B%9F)
遞迴層[3]  [信息及通信技術] (/wiki/%E4%BF%A1%E6%81%AF%E5%8F%8A%E9%80%9A%E4%BF%A1%E6%8A%80%E6%9C%AF)
遞迴層[3]  [生活質量] (/wiki/%E7%94%9F%E6%B4%BB%E8%B4%A8%E9%87%8F)
遞迴層[3]  [國際電信聯盟] (/wiki/%E5%9B%BD%E9%99%85%E7%94%B5%E4%BF%A1%E8%81%94%E7%9B%9F)
遞迴層[3]  [克里特] (/wiki/%E5%85%8B%E9%87%8C%E7%89%B9)
遞迴層[3]  [哈尼亞] (/wiki/%E5%93%88%E5%B0%BC%E4%BA%9A)
遞迴層[2]  [國家] (/wiki/%E5%9C%8B%E5%AE%B6)
遞迴層[3]  [語言] (/wiki/%E8%AF%AD%E8%A8%80)
遞迴層[3]  [文化] (/wiki/%E6%96%87%E5%8C%96)
遞迴層[3]  [種族] (/wiki/%E6%97%8F%E7%BE%A4)
遞迴層[3]  [宗教] (/wiki/%E5%AE%97%E6%95%99)
遞迴層[3]  [領土] (/wiki/%E9%A2%86%E5%9C%9F)
遞迴層[3]  [國家機構] (/wiki/%E6%94%BF%E6%9D%83)
遞迴層[3]  [歷史] (/wiki/%E5%8E%86%E5%8F%B2)
遞迴層[3]  

KeyboardInterrupt: 