# Wikipedia 爬蟲練習
### 範例：練習從 Wikipedia 中爬取文章。先定義一個搜尋的關鍵字，擷取該關鍵字詞的文章。

In [2]:
import requests
import re
from bs4 import BeautifulSoup

#### 先定義一個我們想搜尋的字詞，並將它轉換成 UTF-8 編碼後的 URL

In [3]:
input_keyword = "網路爬蟲"  # 這裡可以自己定義有興趣的關鍵字

utf8_url = repr(input_keyword.encode('UTF-8')).upper()  # 編碼成UTF-8並轉成大寫字元
utf8_url = utf8_url.replace("\\X", "%")                 # 用 '%' 取代 '\X' 
print("%s: %s" % (input_keyword, utf8_url[2:-1:1]))     # 擷取中間的編碼結果

# 組成Wiki關鍵字搜尋的網址格式
root_keyword_link = '/wiki/' + utf8_url[2:-1:1]
print(root_keyword_link)

網路爬蟲: %E7%B6%B2%E8%B7%AF%E7%88%AC%E8%9F%B2
/wiki/%E7%B6%B2%E8%B7%AF%E7%88%AC%E8%9F%B2


### (1) 送出關鍵字請求後，爬取該關鍵字的文章內容

In [4]:
# 模擬封包的標頭
headers = {
    'authority': 'zh.wikipedia.org',
    'method': 'GET',
    'path': '/wiki/' + root_keyword_link,
    'scheme': 'https',
    'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3',
    'accept-encoding': 'gzip, deflate, br',
    'accept-language': 'zh-TW,zh;q=0.9,en-US;q=0.8,en;q=0.7,zh-CN;q=0.6',
    'cookie': 'GeoIP=TW:TPE:Taipei:25.05:121.53:v4; TBLkisOn=0; mwPhp7Seed=8b8; WMF-Last-Access-Global=04-Jun-2019; WMF-Last-Access=04-Jun-2019',
    'dnt': '1',
    #'if-modified-since': 'Tue, 04 Jun 2019 12:03:22 GMT',
    'referer': 'https://zh.wikipedia.org/wiki/Wikipedia:%E9%A6%96%E9%A1%B5',
    'upgrade-insecure-requests': '1',
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36'
}    

url = 'https://zh.wikipedia.org' + root_keyword_link  # 組合關鍵字查詢URL
resp = requests.get(url, headers=headers)
resp.encoding = 'utf-8'

html = BeautifulSoup(resp.text, "lxml")
content = html.find(name='div', attrs={'id':'mw-content-text'}).find_all(name='p')

#
# 解析回傳資料，並萃取文章內容
#
for paragraph in content:
    print(paragraph.get_text())


網路爬蟲（英語：web crawler），也叫網路蜘蛛（spider），是一種用來自動瀏覽全球資訊網的網路機器人。其目的一般為編纂網路索引。

網路搜尋引擎等站點通過爬蟲軟體更新自身的網站內容（英語：Web content）或其對其他網站的索引。網路爬蟲可以將自己所訪問的頁面儲存下來，以便搜尋引擎事後生成索引（英語：Index (search engine)）供使用者搜尋。

爬蟲造訪網站的過程會消耗目標系統資源。不少網路系統並不默許爬蟲工作。因此在訪問大量頁面時，爬蟲需要考慮到規劃、負載，還需要講「禮貌」。 不願意被爬蟲訪問、被爬蟲主人知曉的公開站點可以使用robots.txt檔案之類的方法避免訪問。這個檔案可以要求機器人（英語：Software agent）只對網站的一部分進行索引，或完全不作處理。

網際網路上的頁面極多，即使是最大的爬蟲系統也無法做出完整的索引。因此在公元2000年之前的全球資訊網出現初期，搜尋引擎經常找不到多少相關結果。現在的搜尋引擎在這方面已經進步很多，能夠即刻給出高素質結果。

爬蟲還可以驗證超連結和HTML代碼，用於網路抓取（參見資料驅動編程）。

網路爬蟲也可稱作網路蜘蛛[1]、螞蟻、自動索引程式（automatic indexer）[2] ，或（在FOAF（英語：FOAF (software)）軟體中）稱為網路疾走（web scutter）。[3]

網路爬蟲始於一張被稱作種子的統一資源位址（URL）列表。當網路爬蟲訪問這些統一資源定位器時，它們會甄別出頁面上所有的超連結，並將它們寫入一張「待訪列表」，即所謂爬行疆域（英語：crawl frontier）。此疆域上的URL將會被按照一套策略迴圈來訪問。如果爬蟲在執行的過程中複製歸檔和儲存網站上的資訊，這些檔案通常儲存，使他們可以較容易的被檢視。閱讀和瀏覽他們儲存的網站上並即時更新的資訊，這些被儲存的網頁又被稱為「快照」。越大容量的網頁意味著網路爬蟲只能在給予的時間內下載越少部分的網頁，所以要優先考慮其下載。高變化率意味著網頁可能已經被更新或者被取代。一些伺服器端軟體生成的URL（統一資源定位符）也使得網路爬蟲很難避免檢索到重複內容。

但是網際網路的資源卷帙浩繁，這也意味著網路爬蟲只能在一定時間內下載有限數量的網頁，因此它需要衡量優先順序的下載方式。有時候網頁出現、更新和消失的速度

### (2) 從爬取的文章內容中，擷取出有外部連結的關鍵字
- 這些關鍵字在文章中是以藍色字體顯示，會連到外部的網頁，並解釋其內容。


In [5]:
for ext_link in content:
    a_tag = ext_link.find_all('a', href=re.compile("^(/wiki/)((?!;)\S)*$"))
    if len(a_tag) > 0:
        for link_string in a_tag:
            a_link = link_string["href"]       # 外部連結的網址
            a_keyword = link_string.get_text()  # 外部連結的中文名稱
            print("外部連結: [%s] %s" % (a_keyword, a_link))


外部連結: [全球資訊網] /wiki/%E4%B8%87%E7%BB%B4%E7%BD%91
外部連結: [網路機器人] /wiki/%E7%BD%91%E7%BB%9C%E6%9C%BA%E5%99%A8%E4%BA%BA
外部連結: [網路索引] /wiki/%E7%BD%91%E7%BB%9C%E7%B4%A2%E5%BC%95
外部連結: [網路] /wiki/%E7%BD%91%E7%BB%9C%E6%90%9C%E7%B4%A2%E5%BC%95%E6%93%8E
外部連結: [搜尋引擎] /wiki/%E6%90%9C%E7%B4%A2%E5%BC%95%E6%93%8E
外部連結: [robots.txt] /wiki/Robots.txt
外部連結: [網站] /wiki/%E7%BD%91%E7%AB%99
外部連結: [超連結] /wiki/%E8%B6%85%E9%80%A3%E7%B5%90
外部連結: [HTML] /wiki/HTML
外部連結: [網路抓取] /wiki/%E7%BD%91%E7%BB%9C%E6%8A%93%E5%8F%96
外部連結: [資料驅動編程] /wiki/%E6%95%B0%E6%8D%AE%E9%A9%B1%E5%8A%A8%E7%BC%96%E7%A8%8B
外部連結: [網頁] /wiki/%E7%B6%B2%E9%A0%81
外部連結: [網際網路] /wiki/%E4%BA%92%E8%81%94%E7%BD%91
外部連結: [伺服器] /wiki/%E6%9C%8D%E5%8A%A1%E5%99%A8
外部連結: [超文字傳輸協定] /wiki/%E8%B6%85%E6%96%87%E6%9C%AC%E5%82%B3%E8%BC%B8%E5%8D%94%E5%AE%9A


  a_tag = ext_link.find_all('a', href=re.compile("^(/wiki/)((?!;)\S)*$"))


## 作業內容
- 接下來定義一個爬蟲函數，這個函數的主要工作為：
  1. 爬取當前關鍵字的解釋，並存入檔案 (因為文章內容太多會佔滿整個頁面，所以存程檔案，方便後續檢視)
  2. 萃取出當前關鍵字所引用的外部連結，當作新的查詢關鍵字
  3. 把第(2)擷取到的關鍵字當作新的關鍵字，回到第(1)步，爬取新的關鍵字解釋。

In [10]:
import requests
from bs4 import BeautifulSoup
import re
import os

max_recursive_depth = 2  # 設定最大遞迴深度

def WikiArticle(key_word_link, key_word, recursive):
    
    if recursive > max_recursive_depth:
        return  # 遞迴深度超過限制，停止遞迴

    print(f"🔍 遞迴層[{recursive}] - {key_word_link} ({key_word})")

    # 設定 HTTP 標頭
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36'
    }    

    url = 'https://zh.wikipedia.org' + key_word_link  # 組合查詢 URL
    resp = requests.get(url, headers=headers)
    resp.encoding = 'utf-8'

    # 解析 HTML
    html = BeautifulSoup(resp.text, "lxml")
    content = html.find(name='div', attrs={'id': 'mw-content-text'}).find_all(name='p')

    # 📌 Part 1：將文章內容儲存到檔案
    folder_path = "WikiArticle"
    os.makedirs(folder_path, exist_ok=True)  # 建立資料夾

    with open(f"{folder_path}/{key_word}.txt", "w", encoding="utf-8") as f:
        for paragraph in content:
            f.write(paragraph.get_text() + "\n")

    print(f"✅ 文章已儲存：{folder_path}/{key_word}.txt")

    # 📌 Part 2：萃取內部連結
    external_link_dict = {}
    
    for paragraph in content:
        a_tags = paragraph.find_all('a', href=re.compile("^(/wiki/)((?!:)\S)*$"))  # 過濾內部連結
        for link in a_tags:
            a_link = link["href"]       # 連結
            a_keyword = link.get_text()  # 連結的文字
            external_link_dict[a_link] = a_keyword  # 儲存內部連結
            print(f"🔗 外部連結: [{a_keyword}] {a_link}")

    # 📌 Part 3：遞迴爬取內部連結
    if len(external_link_dict) > 0:
        recursive += 1  # 遞迴層數加 1
        for link, keyword in external_link_dict.items():
            WikiArticle(link, keyword, recursive)  # 遞迴爬取下一層


  a_tags = paragraph.find_all('a', href=re.compile("^(/wiki/)((?!:)\S)*$"))  # 過濾內部連結


### 執行前個步驟定義好的爬蟲主程式

In [None]:
# 定義爬取的遞迴深度。深度不要訂太深，否則會爬很久。

WikiArticle(root_keyword_link, input_keyword, 0)

🔍 遞迴層[0] - /wiki/%E7%B6%B2%E8%B7%AF%E7%88%AC%E8%9F%B2 (網路爬蟲)
✅ 文章已儲存：WikiArticle/網路爬蟲.txt
🔗 外部連結: [万维网] /wiki/%E4%B8%87%E7%BB%B4%E7%BD%91
🔗 外部連結: [网络机器人] /wiki/%E7%BD%91%E7%BB%9C%E6%9C%BA%E5%99%A8%E4%BA%BA
🔗 外部連結: [网络索引] /wiki/%E7%BD%91%E7%BB%9C%E7%B4%A2%E5%BC%95
🔗 外部連結: [網路] /wiki/%E7%BD%91%E7%BB%9C%E6%90%9C%E7%B4%A2%E5%BC%95%E6%93%8E
🔗 外部連結: [搜索引擎] /wiki/%E6%90%9C%E7%B4%A2%E5%BC%95%E6%93%8E
🔗 外部連結: [robots.txt] /wiki/Robots.txt
🔗 外部連結: [网站] /wiki/%E7%BD%91%E7%AB%99
🔗 外部連結: [超連結] /wiki/%E8%B6%85%E9%80%A3%E7%B5%90
🔗 外部連結: [HTML] /wiki/HTML
🔗 外部連結: [网络抓取] /wiki/%E7%BD%91%E7%BB%9C%E6%8A%93%E5%8F%96
🔗 外部連結: [数据驱动编程] /wiki/%E6%95%B0%E6%8D%AE%E9%A9%B1%E5%8A%A8%E7%BC%96%E7%A8%8B
🔗 外部連結: [網頁] /wiki/%E7%B6%B2%E9%A0%81
🔗 外部連結: [互联网] /wiki/%E4%BA%92%E8%81%94%E7%BD%91
🔗 外部連結: [服务器] /wiki/%E6%9C%8D%E5%8A%A1%E5%99%A8
🔗 外部連結: [超文本傳輸協定] /wiki/%E8%B6%85%E6%96%87%E6%9C%AC%E5%82%B3%E8%BC%B8%E5%8D%94%E5%AE%9A
🔍 遞迴層[1] - /wiki/%E4%B8%87%E7%BB%B4%E7%BD%91 (万维网)
✅ 文章已儲存：WikiArticle/万维网.txt
🔗 外部連結: [互联网] /wi