## Reference

[1.] [Python 使用 Beautiful Soup 抓取與解析網頁資料，開發網路爬蟲教學](https://blog.gtwang.org/programming/python-beautiful-soup-module-scrape-web-pages-tutorial/)

[2.] [Beautiful Soup Documentation](https://www.crummy.com/software/BeautifulSoup/bs4/doc/)

[3.] [python 3 筆記 - 利用 urllib 來存取網頁](http://beanobody.blogspot.com/2015/12/python-3-urllib.html)
***

[Beautiful Soup](https://www.crummy.com/software/BeautifulSoup/) 是一個 Python 的函式庫模組，可以讓開發者僅須撰寫非常少量的程式碼，就可以快速解析網頁 HTML 碼，從中翠取出使用者有興趣的資料、去蕪存菁，降低網路爬蟲程式的開發門檻、加快程式撰寫速度。

***


## Beautiful Soup 基本用法

Beautiful Soup 的運作方式就是讀取 HTML 原始碼，自動進行解析並產生一個 BeautifulSoup 物件，此物件中包含了整個 HTML 文件的結構樹，有了這個結構樹之後，就可以輕鬆找出任何有興趣的資料了。


***

以下是一個簡單的小程式，示範如何使用 **Beautiful Soup** 模組解析原始的 **HTML** 程式碼

# 下載 Google 搜尋結果
 - 這個範例我們要開發一個可以**自動送出關鍵字**到 Google 進行搜尋
 - 並將搜尋結果抓回來的爬蟲程式，基本的開發概念都相同
 - 只不過 Google 的網頁會因為瀏覽器（User-Agent）不同而產生不同的結果
 - 所以在觀察程式碼的時候，最好是使用 Beautiful Soup 的 prettify 把抓回來的 HTML 原始碼排版後印出來，這樣看會比較準確。

*** 

 - Google 搜尋引擎網址是 https://www.google.com.tw/search
 - 而關鍵字則是透過 ```q``` 這個參數送給它
 - ```hl``` 指定要搜尋的語言，```q``` 就是你要搜尋的關鍵字。
 - 這個規則只要稍微觀察一下瀏覽器所顯示的網址即可推論出來
 - 有了這個規則之後，就可以用 requests 與 BeautifulSoup 先把 Google 搜尋結果的 HTML 原始碼抓下來看看。

接著再設計一下萃取資料的規則，這裡(GTWANG)使用一個自己設計的 CSS 的選擇器：

```
div.g > h3.r > a[href^="/url"]
```

 - 它可以抓出 class 為 g 的 ```<div>```
     - 底下緊接著 class 為 r 的 ```<h3>```
        - 底下又接著網址為 /url 開頭的超連結。
        
        
設計好資料萃取的規則後，就可以把整個程式來了，以下是完整的 Google 搜尋爬蟲程式：

In [3]:
import requests
from bs4 import BeautifulSoup

# Google search URL
google_url = 'https://www.google.com.tw/search'

# query parameter
my_params = {'q': '我們與惡的距離'} # 用 dictionary 來表示

# download Google search result
res = requests.get(google_url, params = my_params)

In [4]:
# check the download is complete?

if res.status_code == requests.codes.ok:
    
    # by BeautifulSoup parser the HTML result
    soup = BeautifulSoup(res.text, 'html.parser')
    
    
    # 觀察 HTML 原始碼
    # print(soup.prettify())
    
    # 以 CSS 的選擇器來抓取 Google 的搜尋結果    
    item = soup.select('div.g > h3.r > a[href^="/url"]')
    
    for i in item:
        # title
        print("Title: "+ i.title)
         
        # url 
        print("URL " + i.get('href'))
        
        # separation line
        print("\n" + "-"*60 + "\n")

In [5]:
 soup = BeautifulSoup(res.text, 'html.parser')


### example-1，試著存取網頁

 - 呈現請求後，結果出現一堆看不懂的資料

In [6]:
import urllib.request; #用來建立請求
import urllib.parse;

x = urllib.request.urlopen('https://www.google.com');
print(x.read()); 

b'<!doctype html><html itemscope="" itemtype="http://schema.org/WebPage" lang="zh-TW"><head><meta content="text/html; charset=UTF-8" http-equiv="Content-Type"><meta content="/images/branding/googleg/1x/googleg_standard_color_128dp.png" itemprop="image"><title>Google</title><script nonce="sG2BhCmdf3vLNwS/CHCQ1Q==">(function(){window.google={kEI:\'HqqZXdGOBbyNr7wPwbmdcA\',kEXPI:\'0,1353747,4438,666,558,730,224,510,19,227,819,3152,218,159,207,1017,53,172,1165,671,2,124,10,713,319,19,539,114,556,220,57,1131123,1197759,329508,1294,12383,4855,32691,15248,867,12163,12923,3598,363,3320,5505,2436,5948,1119,2,205,373,728,2431,1362,4323,4968,773,2251,4743,3118,6196,1719,1808,1976,9264,1689,5297,2016,38,920,873,1217,2975,2736,3067,2,626,3239,5191,2875,2884,20,318,234,884,904,101,2024,1,150,1,217,2778,520,399,992,509,776,8,2796,218,671,78,601,11,14,1279,2212,202,37,287,4,711,541,842,322,193,1466,8,48,820,2620,818,109,151,52,1137,2,2063,606,1839,184,595,922,780,502,1445,242,206,299,219,98,112,44,100

### example-2，試著用參數來進行查詢

In [7]:
url = 'http://pythonprogramming.net';
values = {'s':'basic',
          'submit':'search'}; #參數及參數值

data = urllib.parse.urlencode(values); #解析並轉為url編碼格式

data = data.encode('utf-8'); #將所有網址用utf8解碼

req = urllib.request.Request(url, data); #建立請求

resp = urllib.request.urlopen(req); #開啟網頁

respData = resp.read();

print(respData);

b'<html>\n\t<head>\n\n\t\t<!--\n\t\tpalette:\n\t\tdark blue: #003F72\n\t\tyellow: #FFD166\n\t\tsalmon: #EF476F\n\t\toffwhite: #e7d7d7\n\t\tLight Blue: #118AB2\n\t\tLight green: #7DDF64\n\t\t-->\n\n\t\t<meta name="viewport" content = "width=device-width, initial-scale=1.0">\n\t\t<title>Python Programming Tutorials</title>\n\n\t\t<meta name="description" content="Python Programming tutorials from beginner to advanced on a massive variety of topics. All video and text tutorials are free.">\n\n\t\t<link rel="shortcut icon" href="/static/favicon.ico">\n\t\t<link rel="stylesheet" href="/static/css/materialize.min.css">\n        <link href="https://fonts.googleapis.com/icon?family=Material+Icons" rel="stylesheet">\n        <meta name="google-site-verification" content="3fLok05gk5gGtWd_VSXbSSSH27F2kr1QqcxYz9vYq2k" />\n        <link rel="stylesheet" type="text/css" href="/static/css/bootstrap.css">\n\n\n\t\t  <!-- Compiled and minified CSS -->\n\n\t\t<!-- Compiled and minified JavaScript -->\n\

### example-3，試著存取google，以關鍵字python來查詢

```出現 example-3 HTTP Error 403: Forbidden```

In [8]:
try:  
    url = 'https://www.google.com.tw/search?q=python' ;
    x = urllib.request.urlopen(url);  
    print('example-3', x.read());
except Exception as e:
    print('example-3', str(e));

example-3 HTTP Error 403: Forbidden


### example-4 試著變更 headers 的資訊來存取google網頁的資訊

In [9]:
try:  
    url = 'https://www.google.com.tw/search?q=python';
    #url = 'https://www.google.com.tw/#q=python'; #雖然在google網址上看到搜尋時是這個方式，但是實際操作起來是不成功的  
    headers = {};
    headers['User-Agent'] = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_6) AppleWebKit/537.36 (KHTML, like Gecko)';
    #headers['User-Agent'] = 'Mozilla/5.0 (Windows NT 6.3; rv:36.0) Gecko/20100101 Firefox/36.0';
    
    req = urllib.request.Request(url, headers=headers);
    
    resp = urllib.request.urlopen(req);
    
    respData = str(resp.read().decode('utf-8')); #將所得的資料解碼
    
    saveFile = open('withHeaders.txt','w', encoding='utf8');
    
    saveFile.write(str(respData));
    
    saveFile.close();

except Exception as e:
    
    print(str(e));