# Wikipedia爬蟲練習
## 範例：練習是從Wikipedia中爬取文章。先定義一個搜尋的關鍵字，擷取該關鍵字詞的文章。

In [24]:
import requests
import re
from bs4 import BeautifulSoup

### 先定義一個我們想搜尋的字詞，並將它轉換成UTF-8編碼後的URL

In [25]:
input_keyword = "可爾必思"  # 這裡可以自己定義有興趣的關鍵字

utf8_url = repr(input_keyword.encode('UTF-8')).upper()  # 編碼成UTF-8並轉成大寫字元
utf8_url = utf8_url.replace("\\X", "%")                 # 用 '%' 取代 '\X' 
print("%s: %s" % (input_keyword, utf8_url[2:-1:1]))     # 擷取中間的編碼結果

# 組成Wiki關鍵字搜尋的網址格式
root_keyword_link = '/wiki/' + utf8_url[2:-1:1]
print(root_keyword_link)

可爾必思: %E5%8F%AF%E7%88%BE%E5%BF%85%E6%80%9D
/wiki/%E5%8F%AF%E7%88%BE%E5%BF%85%E6%80%9D


### 範例1：送出關鍵字請求後，爬取該關鍵字的文章內容

In [26]:
# 模擬封包的標頭
headers = {
    'authority': 'zh.wikipedia.org',
    'method': 'GET',
    'path': '/wiki/' + root_keyword_link,
    'scheme': 'https',
    'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3',
    'accept-encoding': 'gzip, deflate, br',
    'accept-language': 'zh-TW,zh;q=0.9,en-US;q=0.8,en;q=0.7,zh-CN;q=0.6',
    'cookie': 'GeoIP=TW:TPE:Taipei:25.05:121.53:v4; TBLkisOn=0; mwPhp7Seed=8b8; WMF-Last-Access-Global=04-Jun-2019; WMF-Last-Access=04-Jun-2019',
    'dnt': '1',
    #'if-modified-since': 'Tue, 04 Jun 2019 12:03:22 GMT',
    'referer': 'https://zh.wikipedia.org/wiki/Wikipedia:%E9%A6%96%E9%A1%B5',
    'upgrade-insecure-requests': '1',
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36'
}    

url = 'https://zh.wikipedia.org' + root_keyword_link  # 組合關鍵字查詢URL
resp = requests.get(url, headers=headers)
resp.encoding = 'utf-8'

html = BeautifulSoup(resp.text, "lxml")
content = html.find(name='div', attrs={'id':'mw-content-text'}).find_all(name='p')

#
# 解析回傳資料，並萃取文章內容
#
for paragraph in content:
    print(paragraph.get_text())


可爾必思（カルピス）是一種乳酸菌飲料，為日本飲料製造商可爾必思株式會社的主要飲料產品。

可爾必思株式會社位在東京都澀谷區，英文為Calpis Co., Ltd.，曾在1991年時加入味之素集團旗下，現為朝日飲料集團成員。可爾必思的名稱同時也是該公司的註冊商標。

可爾必思企業的創業者為僧侶出身的三島海雲。創業初期當時為國分集團的成員。父母是山田耕筰與渡邊海旭（當時為芝學園的校長）。創業時以「初戀的味道」為宣傳，生產全世界第一瓶的乳酸菌飲料「可爾必思」。同時也生產脫脂牛奶和可爾必思奶油作為主力商品。

在納入味之素旗下後，近年推出將可爾必思與水調和稀釋的飲料「可爾必思水語」（カルピスウォーター），並在日本進口礦泉水「evian」和葡萄酒，也發售雞尾酒「可爾必思沙瓦」（カルピスサワー）進入酒精飲料市場。

此外該公司也有生產其他種類的飲料。

由於Calpis的發音，在英語中近似「Cow piss」（牛的尿），為了避免讓顧客有不良的聯想，因此在英語國家中改用「CalPico」的名字銷售。

1902年，年僅25歲的三島海雲造訪中國內蒙古，以當地的一種類似酸奶的飲料為基礎，於1919年開發出了可爾必思。三島也被傳授「公司發售的第一種飲料要與公司同名」的商業技巧。以脫脂牛奶發酵後成為的「酸乳」，在發酵過程中加入糖、馬奶酒類似的酵母菌，這些都是造成可爾必思獨特風味不可或缺的要素，同時也是企業長期以來的祕密，但在1990年中公開。

公司名稱的由來是「鈣」（カルシウム、Calcium）加上梵語中的सर पिस「サルピス、salpis」（漢字翻譯為「熟酥」，第二種味道之意）組合而來。

也曾有以梵語中「sarpir-manda」（日音：サルピル・マンダ，為醍醐、無上的味道之意）為基礎，用「サルピス」（音譯：薩爾必思）、「カルピル」（音譯：可爾必魯）當作公司名的提案，但公司中這方面的專家、同時也是音樂專家的山田耕筰認為還是「カルピス」作為名稱較佳也比較響亮，因此就成為公司和主力飲料的名字。

原本的商標是「一名戴著巴拿馬草帽的黑人男性，正在用吸管喝著玻璃瓶中的可爾必思」的圖案。這是在第一次世界大戰後，為了幫助困苦的德國畫家，由社長三島海雲舉辦的「國際海報大獎」（国際懸賞ポスター典）中選出的第三名作品。但在1989年後被批評「有種族歧視思想」，因而更換成現在的商標。



### 範例2：從爬取的文章內容中，擷取出有外部連結的關鍵字。這些關鍵字在文章中是以藍色字體顯示，會連到外部的網頁，並解釋其內容。

In [27]:
for ext_link in content:
    a_tag = ext_link.find_all('a', href=re.compile("^(/wiki/)((?!;)\S)*$"))
    if len(a_tag) > 0:
        for link_string in a_tag:
            a_link = link_string["href"]       # 外部連結的網址
            a_keyword = link_string.get_text()  # 外部連結的中文名稱
            print("外部連結: [%s] %s" % (a_keyword, a_link))

外部連結: [乳酸菌] /wiki/%E4%B9%B3%E9%85%B8%E8%8F%8C
外部連結: [飲料] /wiki/%E9%A3%B2%E6%96%99
外部連結: [日本] /wiki/%E6%97%A5%E6%9C%AC
外部連結: [東京都] /wiki/%E6%9D%B1%E4%BA%AC%E9%83%BD
外部連結: [澀谷區] /wiki/%E6%BE%80%E8%B0%B7%E5%8D%80
外部連結: [味之素] /wiki/%E5%91%B3%E4%B9%8B%E7%B4%A0
外部連結: [朝日飲料] /wiki/%E6%9C%9D%E6%97%A5%E5%95%A4%E9%85%92
外部連結: [註冊商標] /wiki/%E6%B3%A8%E5%86%8C%E5%95%86%E6%A0%87
外部連結: [僧侶] /wiki/%E5%83%A7%E4%BE%B6
外部連結: [脫脂牛奶] /wiki/%E8%84%B1%E8%84%82%E7%89%9B%E5%A5%B6
外部連結: [日本] /wiki/%E6%97%A5%E6%9C%AC
外部連結: [礦泉水] /wiki/%E7%A4%A6%E6%B3%89%E6%B0%B4
外部連結: [葡萄酒] /wiki/%E8%91%A1%E8%90%84%E9%85%92
外部連結: [雞尾酒] /wiki/%E9%9B%9E%E5%B0%BE%E9%85%92
外部連結: [沙瓦] /wiki/%E6%B2%99%E7%93%A6
外部連結: [酒精飲料] /wiki/%E9%85%92%E7%B2%BE%E9%A3%B2%E6%96%99
外部連結: [中國] /wiki/%E4%B8%AD%E5%9C%8B
外部連結: [內蒙古] /wiki/%E5%85%A7%E8%92%99%E5%8F%A4
外部連結: [酸奶] /wiki/%E9%85%B8%E5%A5%B6
外部連結: [發酵] /wiki/%E7%99%BC%E9%85%B5
外部連結: [糖] /wiki/%E7%B3%96
外部連結: [馬奶酒] /wiki/%E9%A6%AC%E5%A5%B6%E9%85%92
外部連結: [酵母菌] /wiki/%E9%85%B5%E6%AF%8D%E8%8F%8C
外部

## 作業：接下來定義一個爬蟲函數，這個函數的主要工作為：
### (1) 爬取當前關鍵字的解釋，並存入檔案(因為文章內容太多會佔滿整個頁面，所以存程檔案，方便後續檢視)
### (2) 萃取出當前關鍵字所引用的外部連結，當作新的查詢關鍵字
### (3) 把第(2)擷取到的關鍵字當作新的關鍵字，回到第(1)步，爬取新的關鍵字解釋。

In [32]:
def WikiArticle(key_word_link, key_word, recursive):
    
    if (recursive <= max_recursive_depth):
        print("遞迴層[%d] - %s (%s)" % (recursive, key_word_link, key_word))
        
        # 模擬封包的標頭
        headers = {
            'authority': 'zh.wikipedia.org',
            'method': 'GET',
            'path': '/wiki/' + key_word_link,
            'scheme': 'https',
            'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3',
            'accept-encoding': 'gzip, deflate, br',
            'accept-language': 'zh-TW,zh;q=0.9,en-US;q=0.8,en;q=0.7,zh-CN;q=0.6',
            'cookie': 'GeoIP=TW:TPE:Taipei:25.05:121.53:v4; TBLkisOn=0; mwPhp7Seed=8b8; WMF-Last-Access-Global=04-Jun-2019; WMF-Last-Access=04-Jun-2019',
            'dnt': '1',
            #'if-modified-since': 'Tue, 04 Jun 2019 12:03:22 GMT',
            'referer': 'https://zh.wikipedia.org/wiki/Wikipedia:%E9%A6%96%E9%A1%B5',
            'upgrade-insecure-requests': '1',
            'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36'
        }    

        url = 'https://zh.wikipedia.org' + key_word_link  # 組合關鍵字查詢URL
        resp = requests.get(url, headers=headers)
        resp.encoding = 'utf-8'

        html = BeautifulSoup(resp.text, "lxml")
        content = html.find(name='div', attrs={'id':'mw-content-text'}).find_all(name = 'p')
        
        #
        # Part 1: 請參考範例1，爬取當前關鍵字的文章內容。
        #         因為內容太多，我們把它寫入檔案，並以關鍵字作為檔案名稱，以便稍後查閱內容。
        #         請先建立一個名為"WikiArticle"的資料夾，爬取到的文章內容會放在這個資料夾底下。
        #
        
        for paragraph in content:
            file_savename = key_word.replace('/', '_')
            f = open("WikiArticle/" + file_savename, "a+", encoding = 'utf-8')
            f.write(str(paragraph.get_text()) + "\n")
            f.close()

        #
        # Part 2: 請參考範例2，萃取出本篇文章中所延伸引用的外部連結，並儲存在external_link_dict
        #
        
        external_link_dict = dict({})
        
        for ext_link in content:
            a_tag = ext_link.find_all('a', href=re.compile("^(/wiki/)((?!;)\S)*$"))
            if len(a_tag) > 0:
                for link_string in a_tag:
                    a_link = link_string["href"]       # 外部連結的網址
                    a_keyword = link_string.get_text()  # 外部連結的中文名稱
                    print("外部連結: [%s] %s" % (a_keyword, a_link))

                    
        #
        # Part 3: 將Part 2所收集的外部連結，當作新的關鍵字，繼續迭代深入爬蟲
        #
        if (len(external_link_dict) > 0):
            recursive = recursive + 1  # 遞迴深度加1
            
            for k, v in external_link_dict.items():
                WikiArticle(k, v, recursive)  # 再次呼叫同樣的函數，執行同樣的流程
                

### 執行前個步驟定義好的爬蟲主程式

In [33]:
# 定義爬取的遞迴深度。深度不要訂太深，否則會爬很久。
max_recursive_depth = 2

WikiArticle(root_keyword_link, input_keyword, 0)

遞迴層[0] - /wiki/%E5%8F%AF%E7%88%BE%E5%BF%85%E6%80%9D (可爾必思)
外部連結: [乳酸菌] /wiki/%E4%B9%B3%E9%85%B8%E8%8F%8C
外部連結: [飲料] /wiki/%E9%A3%B2%E6%96%99
外部連結: [日本] /wiki/%E6%97%A5%E6%9C%AC
外部連結: [東京都] /wiki/%E6%9D%B1%E4%BA%AC%E9%83%BD
外部連結: [澀谷區] /wiki/%E6%BE%80%E8%B0%B7%E5%8D%80
外部連結: [味之素] /wiki/%E5%91%B3%E4%B9%8B%E7%B4%A0
外部連結: [朝日飲料] /wiki/%E6%9C%9D%E6%97%A5%E5%95%A4%E9%85%92
外部連結: [註冊商標] /wiki/%E6%B3%A8%E5%86%8C%E5%95%86%E6%A0%87
外部連結: [僧侶] /wiki/%E5%83%A7%E4%BE%B6
外部連結: [脫脂牛奶] /wiki/%E8%84%B1%E8%84%82%E7%89%9B%E5%A5%B6
外部連結: [日本] /wiki/%E6%97%A5%E6%9C%AC
外部連結: [礦泉水] /wiki/%E7%A4%A6%E6%B3%89%E6%B0%B4
外部連結: [葡萄酒] /wiki/%E8%91%A1%E8%90%84%E9%85%92
外部連結: [雞尾酒] /wiki/%E9%9B%9E%E5%B0%BE%E9%85%92
外部連結: [沙瓦] /wiki/%E6%B2%99%E7%93%A6
外部連結: [酒精飲料] /wiki/%E9%85%92%E7%B2%BE%E9%A3%B2%E6%96%99
外部連結: [中國] /wiki/%E4%B8%AD%E5%9C%8B
外部連結: [內蒙古] /wiki/%E5%85%A7%E8%92%99%E5%8F%A4
外部連結: [酸奶] /wiki/%E9%85%B8%E5%A5%B6
外部連結: [發酵] /wiki/%E7%99%BC%E9%85%B5
外部連結: [糖] /wiki/%E7%B3%96
外部連結: [馬奶酒] /wiki/%E9%A6%AC%E5%A5%B