# Wikipedia爬蟲練習
## 範例：練習是從Wikipedia中爬取文章。先定義一個搜尋的關鍵字，擷取該關鍵字詞的文章。

In [1]:
import requests
import re
from bs4 import BeautifulSoup

### 先定義一個我們想搜尋的字詞，並將它轉換成UTF-8編碼後的URL

In [2]:
input_keyword="雷霸龍·詹姆斯"

utf8_url=repr(input_keyword.encode("utf-8")).upper() # 編碼成UTF-8並轉成大寫字元
utf8_url=utf8_url.replace("\\X","%")                 # 用 '%' 取代 '\X' 
print("%s: %s"%(input_keyword,utf8_url[2:-1:1]))     # 擷取中間的編碼結果

# 組成Wiki關鍵字搜尋的網址格式
root_keyword_link="/wiki/"+utf8_url[2:-1:1]
print(root_keyword_link)
print("https://zh.wikipedia.org"+root_keyword_link)

雷霸龍·詹姆斯: %E9%9B%B7%E9%9C%B8%E9%BE%8D%C2%B7%E8%A9%B9%E5%A7%86%E6%96%AF
/wiki/%E9%9B%B7%E9%9C%B8%E9%BE%8D%C2%B7%E8%A9%B9%E5%A7%86%E6%96%AF
https://zh.wikipedia.org/wiki/%E9%9B%B7%E9%9C%B8%E9%BE%8D%C2%B7%E8%A9%B9%E5%A7%86%E6%96%AF


### 範例1：送出關鍵字請求後，爬取該關鍵字的文章內容

In [3]:
# 模擬封包的標頭
headers = {
    'authority': 'zh.wikipedia.org',
    'method': 'GET',
    'path': '/wiki/' + root_keyword_link,
    'scheme': 'https',
    'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3',
    'accept-encoding': 'gzip, deflate, br',
    'accept-language': 'zh-TW,zh;q=0.9,en-US;q=0.8,en;q=0.7,zh-CN;q=0.6',
    'cookie': 'GeoIP=TW:TPE:Taipei:25.05:121.53:v4; TBLkisOn=0; mwPhp7Seed=8b8; WMF-Last-Access-Global=04-Jun-2019; WMF-Last-Access=04-Jun-2019',
    'dnt': '1',
    #'if-modified-since': 'Tue, 04 Jun 2019 12:03:22 GMT',
    'referer': 'https://zh.wikipedia.org/wiki/Wikipedia:%E9%A6%96%E9%A1%B5',
    'upgrade-insecure-requests': '1',
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36'
}    

url = 'https://zh.wikipedia.org' + root_keyword_link  # 組合關鍵字查詢URL
resp = requests.get(url,headers=headers)
resp.encoding='utf-8'

html = BeautifulSoup(resp.text, "lxml")
content = html.find(name='div', attrs={'id':'mw-content-text'}).find_all(name='p')
#
# 解析回傳資料，並萃取文章內容
#
for paragraph in content:
    print(paragraph.get_text())


雷霸龍·瑞蒙·詹姆斯一世（英語：LeBron Raymone James Sr.，1984年12月30日－），現役美國職業籃球運動員，目前效力於洛杉磯湖人。詹姆斯被公認為NBA歷史上最強的小前鋒[1][2][3][4]，全能的他亦可勝任小前鋒之外的控球後衛[5]或大前鋒，偶爾會擔任得分後衛或中鋒。

詹姆斯出生於美國俄亥俄州的阿克倫[6]，於聖文森–聖瑪麗高中（英語：St. Vincent–St. Mary High School）畢業後即投入2003年NBA選秀，並於選秀會上以狀元之姿加盟家鄉州球隊克里夫蘭騎士。詹姆斯在效力騎士期間，拿下了兩次NBA最有價值球員，打進過一次總決賽。2010年，詹姆斯作為不受限制自由球員離開了克利夫蘭，選擇與邁阿密熱火簽約。因此舉是在ESPN現場特別直播中宣布的，所以至今仍被認為是美國體育史上最具爭議的決定之一。詹姆斯在2011–12賽季贏得了他的職業生涯第一座總冠軍，隔年再度獲得了第二座總冠軍，連續兩個賽季他都被評選為NBA最有價值球員和總決賽最有價值球員。2014年，詹姆斯選擇退出與熱火的合約，時隔四年再次與騎士重新簽約。2015–16賽季，詹姆斯帶領騎士擊敗金州勇士，終結了騎士建隊52年來的冠軍荒，同時個人贏得第三次總決賽最有價值球員。2017–18賽季結束後，詹姆斯再次退出與騎士隊的合約，轉而與洛杉磯湖人簽約。

詹姆斯目前的生涯累計成就包括了兩枚奧運金牌、四次NBA最有價值球員、三次總決賽最有價值球員、三次全明星賽最有價值球員以及一次年度得分王，同時他也是NBA季後賽歷史得分王。其職業生涯已經累計十五次入選全明星陣容，十五次入選年度最佳陣容以及五次年度最佳防守陣容。詹姆斯是聯盟史上第二位單季取得NBA總冠軍、NBA最有價值球員、總決賽最有價值球員和2012年奧林匹克運動會冠軍獎牌，成功完成單季大滿貫的籃球運動員，而上一位達成此成就的球員為名人堂球星麥可·喬丹。

目前包括名人堂球星等各界普遍認定詹姆斯是NBA現役最優秀的現象級球星[7][8][9][10]，籃球運動員歷史地位僅次大帝喬丹排第二[11][12][13]。

雷霸龍·詹姆斯早在初中時期，教練帶他參加美國業餘JJ聯合會（The Amateur JJ Union）。雷霸龍在比賽中表現崔越，被稱為是該賽事中「最厲害的球員」。雷霸龍的球隊也在他的帶領下一路披荊斬棘，來

### 範例2：從爬取的文章內容中，擷取出有外部連結的關鍵字。這些關鍵字在文章中是以藍色字體顯示，會連到外部的網頁，並解釋其內容。

In [4]:
external_link_dict = dict({})
for ext_link in content:
    a_tag = ext_link.find_all('a', href=re.compile("^(/wiki/)((?!;)\S)*$"))
    if len(a_tag) > 0:
        for link_string in a_tag:
            a_link = link_string["href"]        # 外部連結的網址
            a_keyword = link_string.get_text()  # 外部連結的中文名稱
            external_link_dict[a_keyword]=a_link
            print("外部連結: [%s] %s" % (a_keyword, a_link))

外部連結: [籃球] /wiki/%E7%B1%83%E7%90%83
外部連結: [洛杉磯湖人] /wiki/%E6%B4%9B%E6%9D%89%E7%A3%AF%E6%B9%96%E4%BA%BA
外部連結: [NBA] /wiki/NBA
外部連結: [小前鋒] /wiki/%E5%B0%8F%E5%89%8D%E9%94%8B
外部連結: [控球後衛] /wiki/%E6%8E%A7%E7%90%83%E5%BE%8C%E8%A1%9B
外部連結: [大前鋒] /wiki/%E5%A4%A7%E5%89%8D%E9%8B%92
外部連結: [得分後衛] /wiki/%E5%BE%97%E5%88%86%E5%BE%8C%E8%A1%9B
外部連結: [中鋒] /wiki/%E4%B8%AD%E9%8B%92_(%E7%B1%83%E7%90%83)
外部連結: [美國] /wiki/%E7%BE%8E%E5%9C%8B
外部連結: [俄亥俄州] /wiki/%E4%BF%84%E4%BA%A5%E4%BF%84%E5%B7%9E
外部連結: [阿克倫] /wiki/%E9%98%BF%E5%85%8B%E4%BC%A6_(%E4%BF%84%E4%BA%A5%E4%BF%84%E5%B7%9E)
外部連結: [2003年NBA選秀] /wiki/2003%E5%B9%B4NBA%E9%81%B8%E7%A7%80
外部連結: [狀元] /wiki/NBA%E9%81%B8%E7%A7%80%E7%8B%80%E5%85%83
外部連結: [克里夫蘭騎士] /wiki/%E5%85%8B%E9%87%8C%E5%A4%AB%E8%98%AD%E9%A8%8E%E5%A3%AB
外部連結: [NBA最有價值球員] /wiki/NBA%E6%9C%80%E6%9C%89%E5%83%B9%E5%80%BC%E7%90%83%E5%93%A1
外部連結: [總決賽] /wiki/2007%E5%B9%B4NBA%E6%80%BB%E5%86%B3%E8%B5%9B
外部連結: [不受限制自由球員] /wiki/%E8%87%AA%E7%94%B1%E7%90%83%E5%93%A1
外部連結: [克利夫蘭] /wiki/%E5%85%8B%E5%88%A9%E5%

# 作業：接下來定義一個爬蟲函數，這個函數的主要工作為：
### (1) 爬取當前關鍵字的解釋，並存入檔案(因為文章內容太多會佔滿整個頁面，所以存程檔案，方便後續檢視)
### (2) 萃取出當前關鍵字所引用的外部連結，當作新的查詢關鍵字
### (3) 把第(2)擷取到的關鍵字當作新的關鍵字，回到第(1)步，爬取新的關鍵字解釋。

In [5]:
def WikiArticle(key_word_link, key_word, recursive):
    
    if (recursive <= max_recursive_depth):
        print("遞迴層[%d] - %s (%s)" % (recursive, key_word_link, key_word))
        
        # 模擬封包的標頭
        headers = {
            'authority': 'zh.wikipedia.org',
            'method': 'GET',
            'path': '/wiki/' + key_word_link,
            'scheme': 'https',
            'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3',
            'accept-encoding': 'gzip, deflate, br',
            'accept-language': 'zh-TW,zh;q=0.9,en-US;q=0.8,en;q=0.7,zh-CN;q=0.6',
            'cookie': 'GeoIP=TW:TPE:Taipei:25.05:121.53:v4; TBLkisOn=0; mwPhp7Seed=8b8; WMF-Last-Access-Global=04-Jun-2019; WMF-Last-Access=04-Jun-2019',
            'dnt': '1',
            #'if-modified-since': 'Tue, 04 Jun 2019 12:03:22 GMT',
            'referer': 'https://zh.wikipedia.org/wiki/Wikipedia:%E9%A6%96%E9%A1%B5',
            'upgrade-insecure-requests': '1',
            'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36'
        }    

        url = 'https://zh.wikipedia.org' + key_word_link  # 組合關鍵字查詢URL
        resp = requests.get(url, headers=headers)
        resp.encoding = 'utf-8'

        html = BeautifulSoup(resp.text, "lxml")
        content = html.find(name='div', attrs={'id':'mw-content-text'}).find_all(name='p')
        
        f=open("C:/Users/Yen/Desktop/爬蟲馬拉松/1- 爬蟲基礎知識/Day16/search_result.txt","w",encoding='utf-8')
        for paragraph in content:
            print(paragraph.get_text())
            f.write(paragraph.get_text())
        f.close()

        # Part 2: 請參考範例2，萃取出本篇文章中所延伸引用的外部連結，並儲存在external_link_dict
        
        external_link_dict = dict({})
        for ext_link in content:
            a_tag = ext_link.find_all('a', href=re.compile("^(/wiki/)((?!;)\S)*$"))
            if len(a_tag) > 0:
                for link_string in a_tag:
                    a_link = link_string["href"]        # 外部連結的網址
                    a_keyword = link_string.get_text()  # 外部連結的中文名稱
                    external_link_dict[a_keyword]=a_link
        print(external_link_dict)

        # Part 3: 將Part 2所收集的外部連結，當作新的關鍵字，繼續迭代深入爬蟲
        
        if (len(external_link_dict) > 0):
            
            recursive = recursive + 1  # 遞迴深度加1
            
            for k, v in external_link_dict.items():
                WikiArticle(k, v, recursive)  # 再次呼叫同樣的函數，執行同樣的流程    

### 執行前個步驟定義好的爬蟲主程式

In [6]:
# 定義爬取的遞迴深度。深度不要訂太深，否則會爬很久。
max_recursive_depth = 0

WikiArticle(root_keyword_link, input_keyword, 0)

遞迴層[0] - /wiki/%E9%9B%B7%E9%9C%B8%E9%BE%8D%C2%B7%E8%A9%B9%E5%A7%86%E6%96%AF (雷霸龍·詹姆斯)
雷霸龍·瑞蒙·詹姆斯一世（英語：LeBron Raymone James Sr.，1984年12月30日－），現役美國職業籃球運動員，目前效力於洛杉磯湖人。詹姆斯被公認為NBA歷史上最強的小前鋒[1][2][3][4]，全能的他亦可勝任小前鋒之外的控球後衛[5]或大前鋒，偶爾會擔任得分後衛或中鋒。

詹姆斯出生於美國俄亥俄州的阿克倫[6]，於聖文森–聖瑪麗高中（英語：St. Vincent–St. Mary High School）畢業後即投入2003年NBA選秀，並於選秀會上以狀元之姿加盟家鄉州球隊克里夫蘭騎士。詹姆斯在效力騎士期間，拿下了兩次NBA最有價值球員，打進過一次總決賽。2010年，詹姆斯作為不受限制自由球員離開了克利夫蘭，選擇與邁阿密熱火簽約。因此舉是在ESPN現場特別直播中宣布的，所以至今仍被認為是美國體育史上最具爭議的決定之一。詹姆斯在2011–12賽季贏得了他的職業生涯第一座總冠軍，隔年再度獲得了第二座總冠軍，連續兩個賽季他都被評選為NBA最有價值球員和總決賽最有價值球員。2014年，詹姆斯選擇退出與熱火的合約，時隔四年再次與騎士重新簽約。2015–16賽季，詹姆斯帶領騎士擊敗金州勇士，終結了騎士建隊52年來的冠軍荒，同時個人贏得第三次總決賽最有價值球員。2017–18賽季結束後，詹姆斯再次退出與騎士隊的合約，轉而與洛杉磯湖人簽約。

詹姆斯目前的生涯累計成就包括了兩枚奧運金牌、四次NBA最有價值球員、三次總決賽最有價值球員、三次全明星賽最有價值球員以及一次年度得分王，同時他也是NBA季後賽歷史得分王。其職業生涯已經累計十五次入選全明星陣容，十五次入選年度最佳陣容以及五次年度最佳防守陣容。詹姆斯是聯盟史上第二位單季取得NBA總冠軍、NBA最有價值球員、總決賽最有價值球員和2012年奧林匹克運動會冠軍獎牌，成功完成單季大滿貫的籃球運動員，而上一位達成此成就的球員為名人堂球星麥可·喬丹。

目前包括名人堂球星等各界普遍認定詹姆斯是NBA現役最優秀的現象級球星[7][8][9][10]，籃球運動員歷史地位僅次大帝喬丹排第二[11][12][13]。

雷霸龍·詹姆斯早在初中時期，教練