# Wikipedia爬蟲練習
## 範例：練習是從Wikipedia中爬取文章。先定義一個搜尋的關鍵字，擷取該關鍵字詞的文章。

In [34]:

import re   #import 正則表示=re 
from bs4 import BeautifulSoup
import requests
import os

### 先定義一個我們想搜尋的字詞，並將它轉換成UTF-8編碼後的URL

In [8]:
keyword="編譯器"
utf8_url=repr(keyword.encode('UTF-8')).upper() 
utf8_url = utf8_url.replace("\\X", "%") 
print("%s: %s" % (keyword, utf8_url[2:-1:1]))
root_keyword_link = '/wiki/' + utf8_url[2:-1:1]
print(root_keyword_link)

編譯器: %E7%B7%A8%E8%AD%AF%E5%99%A8
/wiki/%E7%B7%A8%E8%AD%AF%E5%99%A8


### 範例1：送出關鍵字請求後，爬取該關鍵字的文章內容

In [10]:
url = 'https://zh.wikipedia.org' + root_keyword_link
resp = requests.get(url)
resp.encoding = 'utf-8'

html = BeautifulSoup(resp.text, "lxml")
content = html.find(name='div', attrs={'id':'mw-content-text'}).find_all(name='p')
for paragraph in content:
    print(paragraph.get_text())

編譯器（compiler）是一種電腦程式，它會將某種程式語言寫成的原始碼（原始語言）轉換成另一種程式語言（目標語言）。

它主要的目的是將便于人编写、阅读、维护的高级计算机语言所寫作的原始碼程式，翻译为计算机能解读、运行的低阶机器语言的程序，也就是執行檔。编译器将原始程序（source program）作为输入，翻译产生使用目标语言（target language）的等价程序。源代码一般为高阶语言（High-level language），如Pascal、C、C++、C# 、Java等，而目标语言则是汇编语言或目标机器的目标代码（Object code），有时也称作机器代码（Machine code）。

一个现代编译器的主要工作流程如下：

源代码（source code）→ 预处理器（preprocessor）→ 编译器（compiler）→ 汇编程序（assembler）→ 目标代码（object code）→ 链接器（linker）→ 執行檔（executables），最後打包好的檔案就可以給電腦去判讀執行了。

早期的计算机软件都是用汇编语言直接编写的，这种状况持续了数年。当人们发现为不同类型的中央处理器（CPU）编写可重用软件的开销要明显高于编写编译器时，人们发明了高级编程语言。由于早期的计算机的内存很少，当大家实现编译器时，遇到了许多技术难题。

大约在20世纪50年代末期，与机器无关的编程语言被首次提出。随后，人们开发了几种实验性质的编译器。第一个编译器是由美國女性電腦科學家葛麗絲·霍普（Grace Murray Hopper）于1952年为A-0 系統编写的。但是1957年由任職於IBM的美國電腦科學家约翰·巴科斯（John Warner Backus）领导的FORTRAN則是第一個被實作出具備完整功能的编译器。1960年，COBOL成为一种较早的能在多种架构下被编译的语言。

高级语言在许多领域流行起来。由于新的编程语言支持的功能越来越多，计算机的架构越来越复杂，这使得编译器也越来越复杂。

早期的编译器是用汇编语言编写的。首个能编译自己源程序的编译器是在1962年由麻省理工学院的Hart和Levin制作的。从20世纪70年代起，实现能编译自己源程序的编译器变得越来越可行，不过还是用Pascal和C语言来实现编译器更加流行。制作某种语言的第一个能

### 範例2：從爬取的文章內容中，擷取出有外部連結的關鍵字。這些關鍵字在文章中是以藍色字體顯示，會連到外部的網頁，並解釋其內容。

In [14]:
for link in content:
    a_tag=link.find_all('a',href=re.compile("^(/wiki/)((?!;)\S)*$"))
    if len(link)>0:
        for link_string in a_tag:
            a_link=link_string['href']
            a_keyword=link_string.get_text()
            print("外部連結: [%s] %s" % (a_keyword, a_link))

外部連結: [電腦程式] /wiki/%E9%9B%BB%E8%85%A6%E7%A8%8B%E5%BC%8F
外部連結: [原始碼] /wiki/%E5%8E%9F%E5%A7%8B%E7%A2%BC
外部連結: [原始碼] /wiki/%E5%8E%9F%E5%A7%8B%E7%A2%BC
外部連結: [執行檔] /wiki/%E5%9F%B7%E8%A1%8C%E6%AA%94
外部連結: [源代码] /wiki/%E6%BA%90%E4%BB%A3%E7%A0%81
外部連結: [机器代码] /wiki/%E6%9C%BA%E5%99%A8%E4%BB%A3%E7%A0%81
外部連結: [源代码] /wiki/%E6%BA%90%E4%BB%A3%E7%A0%81
外部連結: [预处理器] /wiki/%E9%A2%84%E5%A4%84%E7%90%86%E5%99%A8
外部連結: [编译器] /wiki/%E7%BC%96%E8%AF%91%E5%99%A8
外部連結: [汇编程序] /wiki/%E6%B1%87%E7%BC%96%E7%A8%8B%E5%BA%8F
外部連結: [目标代码] /wiki/%E7%9B%AE%E6%A0%87%E4%BB%A3%E7%A0%81
外部連結: [链接器] /wiki/%E9%93%BE%E6%8E%A5%E5%99%A8
外部連結: [執行檔] /wiki/%E5%9F%B7%E8%A1%8C%E6%AA%94
外部連結: [汇编语言] /wiki/%E6%B1%87%E7%BC%96%E8%AF%AD%E8%A8%80
外部連結: [中央处理器] /wiki/%E4%B8%AD%E5%A4%AE%E5%A4%84%E7%90%86%E5%99%A8
外部連結: [内存] /wiki/%E5%86%85%E5%AD%98
外部連結: [葛麗絲·霍普] /wiki/%E8%91%9B%E9%BA%97%E7%B5%B2%C2%B7%E9%9C%8D%E6%99%AE
外部連結: [A-0 系統] /wiki/A-0_%E7%B3%BB%E7%B5%B1
外部連結: [IBM] /wiki/IBM
外部連結: [约翰·巴科斯] /wiki/%E7%B4%84%E7%BF%B0%C2%B7%E5%B7%B4%

## 作業：接下來定義一個爬蟲函數，這個函數的主要工作為：
### (1) 爬取當前關鍵字的解釋，並存入檔案(因為文章內容太多會佔滿整個頁面，所以存程檔案，方便後續檢視)
### (2) 萃取出當前關鍵字所引用的外部連結，當作新的查詢關鍵字
### (3) 把第(2)擷取到的關鍵字當作新的關鍵字，回到第(1)步，爬取新的關鍵字解釋。

In [80]:
def WikiArticle(key_word_link, key_word, recursive):
    if(recursive <= max_recursive_depth):
         print("遞迴層[%d] - %s (%s)" % (recursive, key_word_link, key_word))
         url='https://zh.wikipedia.org' + key_word_link
         resp=requests.get(url,headers=headers)
         resp.encoding='utf-8'
         html=BeautifulSoup(resp.text,"lxml")
         content=html.find(name='div',attrs={'id':'mw-content-text'})

         file_name = key_word.replace('/',"-")
         with open(f'./WikiArticle/{file_name}.html','w+',encoding='utf-8') as f:
            f.write(resp.text)
         
         external_link_dict = dict({})
         for link in content:
            a_list = link.find_all('a',href=re.compile('^(/wiki/)(\S)*$'))
            for a in a_list:
                external_link_dict[a.get_text()] = a['href']
                print("外部連結: [%s] %s" % (a_keyword, a_link))
         if (len(external_link_dict) > 0):
            
            recursive = recursive + 1  # 遞迴深度加1
            
            for k, v in external_link_dict.items():
                WikiArticle(key_word= k,key_word_link= v, recursive=recursive)

### 執行前個步驟定義好的爬蟲主程式

In [81]:
path = "C:\\Users\\User\\Documents\\GitHub\\2nd-PyCrawlerMarathon\\homework\\Day016\\WikiArticle"
if not os.path.isdir(path):
   os.mkdir(path)
max_recursive_depth=2
WikiArticle(root_keyword_link,keyword,0)

/%E8%99%9A%E6%8B%9F%E6%9C%BA
外部連結: [虚拟机] /wiki/%E8%99%9A%E6%8B%9F%E6%9C%BA
外部連結: [虚拟机] /wiki/%E8%99%9A%E6%8B%9F%E6%9C%BA
外部連結: [虚拟机] /wiki/%E8%99%9A%E6%8B%9F%E6%9C%BA
外部連結: [虚拟机] /wiki/%E8%99%9A%E6%8B%9F%E6%9C%BA
外部連結: [虚拟机] /wiki/%E8%99%9A%E6%8B%9F%E6%9C%BA
外部連結: [虚拟机] /wiki/%E8%99%9A%E6%8B%9F%E6%9C%BA
外部連結: [虚拟机] /wiki/%E8%99%9A%E6%8B%9F%E6%9C%BA
外部連結: [虚拟机] /wiki/%E8%99%9A%E6%8B%9F%E6%9C%BA
外部連結: [虚拟机] /wiki/%E8%99%9A%E6%8B%9F%E6%9C%BA
外部連結: [虚拟机] /wiki/%E8%99%9A%E6%8B%9F%E6%9C%BA
外部連結: [虚拟机] /wiki/%E8%99%9A%E6%8B%9F%E6%9C%BA
外部連結: [虚拟机] /wiki/%E8%99%9A%E6%8B%9F%E6%9C%BA
外部連結: [虚拟机] /wiki/%E8%99%9A%E6%8B%9F%E6%9C%BA
外部連結: [虚拟机] /wiki/%E8%99%9A%E6%8B%9F%E6%9C%BA
外部連結: [虚拟机] /wiki/%E8%99%9A%E6%8B%9F%E6%9C%BA
外部連結: [虚拟机] /wiki/%E8%99%9A%E6%8B%9F%E6%9C%BA
外部連結: [虚拟机] /wiki/%E8%99%9A%E6%8B%9F%E6%9C%BA
外部連結: [虚拟机] /wiki/%E8%99%9A%E6%8B%9F%E6%9C%BA
外部連結: [虚拟机] /wiki/%E8%99%9A%E6%8B%9F%E6%9C%BA
外部連結: [虚拟机] /wiki/%E8%99%9A%E6%8B%9F%E6%9C%BA
外部連結: [虚拟机] /wiki/%E8%99%9A%E6%8B%9F%E6%9C%BA
外部連結:

AttributeError: 'NavigableString' object has no attribute 'find_all'