# Wikipedia爬蟲練習
## 範例：練習是從Wikipedia中爬取文章。先定義一個搜尋的關鍵字，擷取該關鍵字詞的文章。

In [1]:
import requests
import re
from bs4 import BeautifulSoup

### 先定義一個我們想搜尋的字詞，並將它轉換成UTF-8編碼後的URL

In [2]:
input_keyword = "半導體"  # 這裡可以自己定義有興趣的關鍵字

utf8_url = repr(input_keyword.encode('UTF-8')).upper()  # 編碼成UTF-8並轉成大寫字元
utf8_url = utf8_url.replace("\\X", "%")                 # 用 '%' 取代 '\X' 
print("%s: %s" % (input_keyword, utf8_url[2:-1:1]))     # 擷取中間的編碼結果

# 組成Wiki關鍵字搜尋的網址格式
root_keyword_link = '/wiki/' + utf8_url[2:-1:1]
print(root_keyword_link)

半導體: %E5%8D%8A%E5%B0%8E%E9%AB%94
/wiki/%E5%8D%8A%E5%B0%8E%E9%AB%94


### 範例1：送出關鍵字請求後，爬取該關鍵字的文章內容

In [3]:
# 模擬封包的標頭
headers = {
    'authority': 'zh.wikipedia.org',
    'method': 'GET',
    'path': '/wiki/' + root_keyword_link,
    'scheme': 'https',
    'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3',
    'accept-encoding': 'gzip, deflate, br',
    'accept-language': 'zh-TW,zh;q=0.9,en-US;q=0.8,en;q=0.7,zh-CN;q=0.6',
    'cookie': 'GeoIP=TW:TPE:Taipei:25.05:121.53:v4; TBLkisOn=0; mwPhp7Seed=8b8; WMF-Last-Access-Global=04-Jun-2019; WMF-Last-Access=04-Jun-2019',
    'dnt': '1',
    #'if-modified-since': 'Tue, 04 Jun 2019 12:03:22 GMT',
    'referer': 'https://zh.wikipedia.org/wiki/Wikipedia:%E9%A6%96%E9%A1%B5',
    'upgrade-insecure-requests': '1',
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36'
}    

url = 'https://zh.wikipedia.org' + root_keyword_link  # 組合關鍵字查詢URL
resp = requests.get(url, headers=headers)
resp.encoding = 'utf-8'

html = BeautifulSoup(resp.text, "lxml")
content = html.find(name='div', attrs={'id':'mw-content-text'}).find_all(name='p')

#
# 解析回傳資料，並萃取文章內容
#
for paragraph in content:
    print(paragraph.get_text())


半導體（英語：Semiconductor）是一種電導率在絕緣體至導體之間的物質。電導率容易受控制的半導體，可作為資訊處理的元件材料。從科技或是經濟發展的角度來看，半導體非常重要。很多電子產品，如電腦、行動電話、數位錄音機的核心單元都是利用半導體的電導率變化來處理資訊。常見的半導體材料有矽、鍺、砷化鎵等，而矽更是各種半導體材料中，在商業應用上最具有影響力的一種。

材料的導電性是由導帶中含有的電子數量決定。當電子從價帶獲得能量而跳躍至導電帶時，電子就可以在帶間任意移動而導電。一般常見的金屬材料其導電帶與價電帶之間的能隙非常小，在室溫下電子很容易獲得能量而跳躍至導電帶而導電，而絕緣材料則因為能隙很大（通常大於9電子伏特），電子很難跳躍至導電帶，所以無法導電。

一般半導體材料的能隙約為1至3電子伏特，介於導體和絕緣體之間。因此只要給予適當條件的能量激發，或是改變其能隙之間距，此材料就能導電。

半導體通過電子傳導或電洞傳導的方式傳輸電流。電子傳導的方式與銅線中電流的流動類似，即在電場作用下高度電離的原子將多餘的電子向著負離子化程度比較低的方向傳遞。電洞導電則是指在正離子化的材料中，原子核外由於電子缺失形成的「電洞」，在電場作用下，電洞被少數的電子補入而造成電洞移動所形成的電流（一般稱為正電流）。

材料中載子（carrier）的數量對半導體的導電特性極為重要。這可以通過在半導體中有選擇的加入其他「雜質」（IIIA、VA族元素）來控制。如果我們在純矽中摻雜（doping）少許的砷或磷（最外層有5個電子），就會多出1個自由電子，這樣就形成N型半導體；如果我們在純矽中摻入少許的硼（最外層有3個電子），就反而少了1個電子，而形成一個電洞（hole），這樣就形成P型半導體（少了1個帶負電荷的原子，可視為多了1個正電荷）。

半導體和絕緣體之間的差異主要來自兩者的能帶寬度不同。絕緣體的能帶比半導體寬，意即絕緣體價帶中的載子必須獲得比在半導體中更高的能量才能跳過能帶，進入導帶中。室溫下的半導體導電性有如絕緣體，只有極少數的載子具有足夠的能量進入導帶。因此，對於一個在相同電場下的本徵半導體和絕緣體會有類似的電特性，不過半導體的能帶寬度小於絕緣體也意味著半導體的導電性更容易受到控制而改變。

純質半導體的電氣特性可以藉由植入雜質的過程而永久改變，這個過程通常稱為摻雜。依照摻雜所使用的雜質

### 範例2：從爬取的文章內容中，擷取出有外部連結的關鍵字。這些關鍵字在文章中是以藍色字體顯示，會連到外部的網頁，並解釋其內容。

In [4]:
for ext_link in content:
    a_tag = ext_link.find_all('a', href=re.compile("^(/wiki/)((?!;)\S)*$"))
    if len(a_tag) > 0:
        for link_string in a_tag:
            a_link = link_string["href"]       # 外部連結的網址
            a_keyword = link_string.get_text()  # 外部連結的中文名稱
            print("外部連結: [%s] %s" % (a_keyword, a_link))

外部連結: [絕緣體] /wiki/%E7%BB%9D%E7%BC%98%E4%BD%93
外部連結: [導體] /wiki/%E5%AF%BC%E4%BD%93
外部連結: [電腦] /wiki/%E8%AE%A1%E7%AE%97%E6%9C%BA
外部連結: [行動電話] /wiki/%E7%A7%BB%E5%8A%A8%E7%94%B5%E8%AF%9D
外部連結: [矽] /wiki/%E7%A1%85
外部連結: [鍺] /wiki/%E9%94%97
外部連結: [砷化鎵] /wiki/%E7%A0%B7%E5%8C%96%E9%95%93
外部連結: [導帶] /wiki/%E5%AF%BC%E5%B8%A6
外部連結: [價帶] /wiki/%E5%83%B9%E5%B8%B6
外部連結: [能隙] /wiki/%E8%83%BD%E9%9A%99
外部連結: [電子伏特] /wiki/%E7%94%B5%E5%AD%90%E4%BC%8F%E7%89%B9
外部連結: [電子] /wiki/%E7%94%B5%E5%AD%90
外部連結: [電洞] /wiki/%E9%9B%BB%E6%B4%9E
外部連結: [銅線] /wiki/%E9%93%9C
外部連結: [電流] /wiki/%E7%94%B5%E6%B5%81
外部連結: [電場] /wiki/%E7%94%B5%E5%9C%BA
外部連結: [電離] /wiki/%E7%94%B5%E7%A6%BB
外部連結: [原子] /wiki/%E5%8E%9F%E5%AD%90
外部連結: [原子核] /wiki/%E5%8E%9F%E5%AD%90%E6%A0%B8
外部連結: [IIIA] /wiki/%E7%A1%BC%E6%97%8F%E5%85%83%E7%B4%A0
外部連結: [VA族元素] /wiki/%E6%B0%AE%E6%97%8F%E5%85%83%E7%B4%A0
外部連結: [自由電子] /wiki/%E8%87%AA%E7%94%B1%E9%9B%BB%E5%AD%90
外部連結: [N型半導體] /wiki/N%E5%9E%8B%E5%8D%8A%E5%AF%BC%E4%BD%93
外部連結: [P型半導體] /wiki/P%E5%9E%8B%E5%8D%8A

## 作業：接下來定義一個爬蟲函數，這個函數的主要工作為：
### (1) 爬取當前關鍵字的解釋，並存入檔案(因為文章內容太多會佔滿整個頁面，所以存程檔案，方便後續檢視)
### (2) 萃取出當前關鍵字所引用的外部連結，當作新的查詢關鍵字
### (3) 把第(2)擷取到的關鍵字當作新的關鍵字，回到第(1)步，爬取新的關鍵字解釋。

In [9]:
import os
import time
import random

def WikiArticle(key_word_link, key_word, recursive):
    
    if (recursive <= max_recursive_depth):
        print("遞迴層[%d] - %s (%s)" % (recursive, key_word_link, key_word))
        
        # 模擬封包的標頭
        headers = {
            'authority': 'zh.wikipedia.org',
            'method': 'GET',
            'path': '/wiki/' + key_word_link,
            'scheme': 'https',
            'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3',
            'accept-encoding': 'gzip, deflate, br',
            'accept-language': 'zh-TW,zh;q=0.9,en-US;q=0.8,en;q=0.7,zh-CN;q=0.6',
            'cookie': 'GeoIP=TW:TPE:Taipei:25.05:121.53:v4; TBLkisOn=0; mwPhp7Seed=8b8; WMF-Last-Access-Global=04-Jun-2019; WMF-Last-Access=04-Jun-2019',
            'dnt': '1',
            'if-modified-since': 'Tue, 04 Jun 2019 12:03:22 GMT',
            'referer': 'https://zh.wikipedia.org/wiki/Wikipedia:%E9%A6%96%E9%A1%B5',
            'upgrade-insecure-requests': '1',
            'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36'
        }    

        url = 'https://zh.wikipedia.org' + key_word_link  # 組合關鍵字查詢URL

        try:
            resp = requests.get(url, headers=headers)
            resp.encoding = 'utf-8'

            html = BeautifulSoup(resp.text, "lxml")
            content = html.find(name='div', attrs={'id':'mw-content-text'}).find_all(name='p')
            
            #
            # Part 1: 請參考範例1，爬取當前關鍵字的文章內容。
            #         因為內容太多，我們把它寫入檔案，並以關鍵字作為檔案名稱，以便稍後查閱內容。
            #         請先建立一個名為"WikiArticle"的資料夾，爬取到的文章內容會放在這個資料夾底下。
            #

            # Create directory
            dirName = './WikiArticle'
            fileName = dirName + '/' + key_word + '.txt'
            
            fileName = './WikiArticle/'+key_word+'.txt'

            if not os.path.exists(dirName):
                # Create target Directory
                os.mkdir(dirName)
                print("Directory " , dirName ,  " Created ") 

            f = open(fileName, "w", encoding='utf-8')

            for paragraph in content:
                f.write(paragraph.text)

            f.close()
            
            #
            # Part 2: 請參考範例2，萃取出本篇文章中所延伸引用的外部連結，並儲存在external_link_dict
            #

            external_link_dict = dict({})

            for ext_link in content:
                a_tag = ext_link.find_all('a', href=re.compile("^(/wiki/)((?!;)\S)*$"))
                if len(a_tag) > 0:
                    for link_string in a_tag:
                        external_link_dict.update({link_string.text : link_string["href"] })
            
            #
            # Part 3: 將Part 2所收集的外部連結，當作新的關鍵字，繼續迭代深入爬蟲
            #
            if (len(external_link_dict) > 0):

                recursive = recursive + 1  # 遞迴深度加1

                for k, v in external_link_dict.items():
#                     print(k, v)
                    WikiArticle(v, k, recursive)  # 再次呼叫同樣的函數，執行同樣的流程
#                     time.sleep(3)
    
            
        except requests.exceptions.ConnectionError:
            requests.status_code = "Connection refused"
        
            

### 執行前個步驟定義好的爬蟲主程式

In [10]:
# 定義爬取的遞迴深度。深度不要訂太深，否則會爬很久。
max_recursive_depth = 1

WikiArticle(root_keyword_link, input_keyword, 0)

遞迴層[0] - /wiki/%E5%8D%8A%E5%B0%8E%E9%AB%94 (半導體)
遞迴層[1] - /wiki/%E7%B5%95%E7%B7%A3%E9%AB%94 (絕緣體)
遞迴層[1] - /wiki/%E5%B0%8E%E9%AB%94 (導體)
遞迴層[1] - /wiki/%E8%AE%A1%E7%AE%97%E6%9C%BA (電腦)
遞迴層[1] - /wiki/%E7%A7%BB%E5%8A%A8%E7%94%B5%E8%AF%9D (行動電話)
遞迴層[1] - /wiki/%E7%9F%BD (矽)
遞迴層[1] - /wiki/%E9%8D%BA (鍺)
遞迴層[1] - /wiki/%E7%A0%B7%E5%8C%96%E9%8E%B5 (砷化鎵)
遞迴層[1] - /wiki/%E5%AF%BC%E5%B8%A6 (導帶)
遞迴層[1] - /wiki/%E5%83%B9%E5%B8%B6 (價帶)
遞迴層[1] - /wiki/%E8%83%BD%E9%9A%99 (能隙)
遞迴層[1] - /wiki/%E9%9B%BB%E5%AD%90%E4%BC%8F%E7%89%B9 (電子伏特)
遞迴層[1] - /wiki/%E9%9B%BB%E5%AD%90 (電子)
遞迴層[1] - /wiki/%E9%9B%BB%E6%B4%9E (電洞)
遞迴層[1] - /wiki/%E9%93%9C (銅線)
遞迴層[1] - /wiki/%E7%94%B5%E6%B5%81 (電流)
遞迴層[1] - /wiki/%E9%9B%BB%E5%A0%B4 (電場)
遞迴層[1] - /wiki/%E7%94%B5%E7%A6%BB (電離)
遞迴層[1] - /wiki/%E5%8E%9F%E5%AD%90 (原子)
遞迴層[1] - /wiki/%E5%8E%9F%E5%AD%90%E6%A0%B8 (原子核)
遞迴層[1] - /wiki/%E7%A1%BC%E6%97%8F%E5%85%83%E7%B4%A0 (IIIA)
遞迴層[1] - /wiki/%E6%B0%AE%E6%97%8F%E5%85%83%E7%B4%A0 (VA族元素)
遞迴層[1] - /wiki/%E8%87%AA%E7%94%B1%E9%9B%B