## Reference

[1.] [Python 使用 Beautiful Soup 抓取與解析網頁資料，開發網路爬蟲教學](https://blog.gtwang.org/programming/python-beautiful-soup-module-scrape-web-pages-tutorial/)

[2.] [Beautiful Soup Documentation](https://www.crummy.com/software/BeautifulSoup/bs4/doc/)

[3.] [python 3 筆記 - 利用 urllib 來存取網頁](http://beanobody.blogspot.com/2015/12/python-3-urllib.html)
***

[Beautiful Soup](https://www.crummy.com/software/BeautifulSoup/) 是一個 Python 的函式庫模組，可以讓開發者僅須撰寫非常少量的程式碼，就可以快速解析網頁 HTML 碼，從中翠取出使用者有興趣的資料、去蕪存菁，降低網路爬蟲程式的開發門檻、加快程式撰寫速度。

***


## Beautiful Soup 基本用法

Beautiful Soup 的運作方式就是讀取 HTML 原始碼，自動進行解析並產生一個 BeautifulSoup 物件，此物件中包含了整個 HTML 文件的結構樹，有了這個結構樹之後，就可以輕鬆找出任何有興趣的資料了。


***

以下是一個簡單的小程式，示範如何使用 **Beautiful Soup** 模組解析原始的 **HTML** 程式碼

***
# 下載 Yahoo 頭條新聞
 - **Beautiful Soup 本身只是一個 HTML 解析工具**

 - **它並不負責下載網頁**
 
 - 所以通常我們在開發爬蟲程式時，會搭配 **requests** 模組一同使用。

 - 我們通常都會先用**瀏覽器的開發人員工具**
   - 觀察一下目標網頁的 HTML 結構
   - 找出我們有興趣的資料所在位置
   - 並設計好萃取資料的規則。
 
 - 在這個範例中，我們打算開發一個爬蟲程式，可從 Yahoo 的首頁把頭條新聞的標題與網址抓下來

以 Yahoo 頭條新聞來說，我們可以發現網頁中的頭條新聞超連結都有 **story-title** 這個 CSS 的 class，所以我們只要找出網頁中所有符合此條件的標籤，就可以把頭條新聞的資訊抓出來了。

以下是使用 requests 模組從 Yahoo 下載首頁的 HTML 資料後，以 Beautiful Soup 翠取出頭條新聞標題的指令稿：

In [48]:
import requests
from bs4 import BeautifulSoup

# download Yahoo homepage
res = requests.get("https://tw.yahoo.com/")

程式執行之後，就會輸出 Yahoo 首頁頭條新聞的標題與網址：

In [47]:
# check the download is ok?

if res.status_code == requests.codes.ok:
    # By BeautifulSoup parser HTML code
    soup = BeautifulSoup(res.text, 'html.parser')
    
    
    # By CSS's class catch every category of title news
    storis = soup.find_all('a', class_ = 'story-title')
    
    
    for s in storis:
        # news title
        print("Title: " + s.text)
        
        # news url
        print("URL: " + s.get('href'))
        
        print("\n" +"-" * 60+"\n")

Title: 970萬沒了 竟還拿房子貸800萬
URL: https://tw.news.yahoo.com/%E6%8A%95%E8%B3%87%E9%9D%88%E9%AA%A8%E5%A1%94%E8%80%81%E8%BE%B2%E9%81%AD%E8%A9%90970%E8%90%AC-%E8%AD%A6%E9%80%AE3%E5%AB%8C-045121835.html

------------------------------------------------------------

Title: 郭辦：讓郭台銘3字從國民黨消失
URL: https://tw.news.yahoo.com/%E4%B8%8D%E6%BB%BF%E7%8B%82%E8%A2%AB%E6%B6%88%E8%B2%BB-%E9%83%AD%E8%BE%A6%E5%97%86-%E8%AE%93-%E9%83%AD%E5%8F%B0%E9%8A%98-3%E5%AD%97%E5%BE%9E%E5%9C%8B%E6%B0%91%E9%BB%A8%E6%B6%88%E5%A4%B1-144039670.html

------------------------------------------------------------

Title: 睡夢中遭爆頭 中國城一夜4死
URL: https://tw.news.yahoo.com/%E6%B5%81%E6%B5%AA%E6%BC%A2%E7%9D%A1%E5%A4%A2%E4%B8%AD%E9%81%AD%E7%88%86%E9%A0%AD-%E7%B4%90%E7%B4%84%E4%B8%AD%E5%9C%8B%E5%9F%8E-%E5%A4%9C%E6%AD%BB%E5%9B%9B%E4%BA%BA-042553667.html

------------------------------------------------------------

Title: 私人飛機上 總裁性侵女兒同學
URL: https://tw.news.yahoo.com/%E7%A7%81%E4%BA%BA%E9%A3%9B%E6%A9%9F%E6%94%B9%E8%87%AA%E9%A7%95-%E5%AF%8C%E8

# 下載 Google 搜尋結果
 - 這個範例我們要開發一個可以**自動送出關鍵字**到 Google 進行搜尋
 - 並將搜尋結果抓回來的爬蟲程式，基本的開發概念都相同
 - 只不過 Google 的網頁會因為瀏覽器（User-Agent）不同而產生不同的結果
 - 所以在觀察程式碼的時候，最好是使用 Beautiful Soup 的 prettify 把抓回來的 HTML 原始碼排版後印出來，這樣看會比較準確。

*** 

 - Google 搜尋引擎網址是 https://www.google.com.tw/search
 - 而關鍵字則是透過 ```q``` 這個參數送給它
 - ```hl``` 指定要搜尋的語言，```q``` 就是你要搜尋的關鍵字。
 - 這個規則只要稍微觀察一下瀏覽器所顯示的網址即可推論出來
 - 有了這個規則之後，就可以用 requests 與 BeautifulSoup 先把 Google 搜尋結果的 HTML 原始碼抓下來看看。

接著再設計一下萃取資料的規則，這裡(GTWANG)使用一個自己設計的 CSS 的選擇器：

```
div.g > h3.r > a[href^="/url"]
```

 - 它可以抓出 class 為 g 的 ```<div>```
     - 底下緊接著 class 為 r 的 ```<h3>```
        - 底下又接著網址為 /url 開頭的超連結。
        
        
設計好資料萃取的規則後，就可以把整個程式來了，以下是完整的 Google 搜尋爬蟲程式：

In [78]:
import requests
from bs4 import BeautifulSoup
from urllib import quote
import urlparse

# Google search URL
google_url = 'https://www.google.com.tw/search'

# query parameter
my_params = {'q': '我們與惡的距離'} # 用 dictionary 來表示

# download Google search result
res = requests.get(google_url, params = my_params)

ImportError: cannot import name 'quote' from 'urllib' (/Users/chibaryowei/anaconda3/lib/python3.7/urllib/__init__.py)

In [53]:
# check the download is complete?

if res.status_code == requests.codes.ok:
    
    # by BeautifulSoup parser the HTML result
    soup = BeautifulSoup(res.text, 'html.parser')
    
    
    # 觀察 HTML 原始碼
    # print(soup.prettify())
    
    # 以 CSS 的選擇器來抓取 Google 的搜尋結果    
    item = soup.select('div.g > h3.r > a[href^="/url"]')
    
    for i in item:
        # title
        print("Title: "+ i.title)
         
        # url 
        print("URL " + i.get('href'))
        
        # separation line
        print("\n" + "-"*60 + "\n")

In [61]:
 soup = BeautifulSoup(res.text, 'html.parser')

In [82]:
# check the download is complete?

if res.status_code == requests.codes.ok:
    
    # by BeautifulSoup parser the HTML result
    soup = BeautifulSoup(res.text, 'html.parser')
    
    
    # 觀察 HTML 原始碼
    # print(soup.prettify())
    
    # 以 CSS 的選擇器來抓取 Google 的搜尋結果    
    item = soup.find_all('div', {'class':'g'})
    
    for i in item:
        # title
        print("Title: "+ i.title)
         
        # url 
        print("URL " + i.get('href'))
        
        # separation line
        print("\n" + "-"*60 + "\n")


### example-1，試著存取網頁

 - 呈現請求後，結果出現一堆看不懂的資料

In [84]:
import urllib.request; #用來建立請求
import urllib.parse;

x = urllib.request.urlopen('https://www.google.com');
print(x.read()); 

b'<!doctype html><html itemscope="" itemtype="http://schema.org/WebPage" lang="zh-TW"><head><meta content="text/html; charset=UTF-8" http-equiv="Content-Type"><meta content="/images/branding/googleg/1x/googleg_standard_color_128dp.png" itemprop="image"><title>Google</title><script nonce="d92g6Rq9AIdHsWN8rXwDOQ==">(function(){window.google={kEI:\'c6aZXef_CMmNr7wP97-pgAY\',kEXPI:\'0,1353746,5104,559,731,223,510,1065,3152,378,206,1017,53,172,1165,671,2,124,10,169,92,452,320,18,539,115,555,271,6,45,126,159,1130793,1197709,314,329244,1294,12383,4855,32692,15247,867,2236,9927,16521,369,3314,5505,2442,5942,1119,2,579,727,2431,1362,4323,4967,774,1289,967,2814,1931,3111,6196,1719,1808,1960,16,10953,5071,226,897,1119,38,920,873,1217,2975,2736,49,3012,2,631,3240,8066,2883,21,317,1119,904,2125,1,150,1,218,2777,520,399,992,1285,8,3763,601,11,14,1279,2212,202,323,5,1252,840,324,193,317,945,204,8,48,820,2620,818,260,52,1137,2,5,2058,606,1839,184,595,1182,520,1947,747,219,97,113,44,1009,95,326,1284,16

### example-2，試著用參數來進行查詢

In [87]:
url = 'http://pythonprogramming.net';
values = {'s':'basic',
          'submit':'search'}; #參數及參數值

data = urllib.parse.urlencode(values); #解析並轉為url編碼格式

data = data.encode('utf-8'); #將所有網址用utf8解碼

req = urllib.request.Request(url, data); #建立請求

resp = urllib.request.urlopen(req); #開啟網頁

respData = resp.read();

print(respData);

b'<html>\n\t<head>\n\n\t\t<!--\n\t\tpalette:\n\t\tdark blue: #003F72\n\t\tyellow: #FFD166\n\t\tsalmon: #EF476F\n\t\toffwhite: #e7d7d7\n\t\tLight Blue: #118AB2\n\t\tLight green: #7DDF64\n\t\t-->\n\n\t\t<meta name="viewport" content = "width=device-width, initial-scale=1.0">\n\t\t<title>Python Programming Tutorials</title>\n\n\t\t<meta name="description" content="Python Programming tutorials from beginner to advanced on a massive variety of topics. All video and text tutorials are free.">\n\n\t\t<link rel="shortcut icon" href="/static/favicon.ico">\n\t\t<link rel="stylesheet" href="/static/css/materialize.min.css">\n        <link href="https://fonts.googleapis.com/icon?family=Material+Icons" rel="stylesheet">\n        <meta name="google-site-verification" content="3fLok05gk5gGtWd_VSXbSSSH27F2kr1QqcxYz9vYq2k" />\n        <link rel="stylesheet" type="text/css" href="/static/css/bootstrap.css">\n\n\n\t\t  <!-- Compiled and minified CSS -->\n\n\t\t<!-- Compiled and minified JavaScript -->\n\

### example-3，試著存取google，以關鍵字python來查詢

```出現 example-3 HTTP Error 403: Forbidden```

In [88]:
try:  
    url = 'https://www.google.com.tw/search?q=python' ;
    x = urllib.request.urlopen(url);  
    print('example-3', x.read());
except Exception as e:
    print('example-3', str(e));

example-3 HTTP Error 403: Forbidden


### example-4 試著變更 headers 的資訊來存取google網頁的資訊

In [95]:
try:  
    url = 'https://www.google.com.tw/search?q=python';
    #url = 'https://www.google.com.tw/#q=python'; #雖然在google網址上看到搜尋時是這個方式，但是實際操作起來是不成功的  
    headers = {};
    headers['User-Agent'] = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_6) AppleWebKit/537.36 (KHTML, like Gecko)';
    #headers['User-Agent'] = 'Mozilla/5.0 (Windows NT 6.3; rv:36.0) Gecko/20100101 Firefox/36.0';
    
    req = urllib.request.Request(url, headers=headers);
    
    resp = urllib.request.urlopen(req);
    
    respData = str(resp.read().decode('utf-8')); #將所得的資料解碼
    
    saveFile = open('./dataset/withHeaders.txt','w', encoding='utf8');
    
    saveFile.write(str(respData));
    
    saveFile.close();

except Exception as e:
    
    print(str(e));