# Basic usage of beautifulsoup
https://buzzorange.com/techorange/2017/08/04/python-scraping/
## 用代碼寫一個網絡爬蟲 (web scraper) 來幫助我們自動從網站獲取股指信息，從而大大簡化數據提取過程。
## 採用 Python 進行網頁數據抓取，並採用簡單強大的 BeautifulSoup 庫完成分析。

In [1]:
import urllib3
from bs4 import BeautifulSoup

HTML 網頁的基本語法。

每一對 <tag> 標籤內包含網頁的一段代碼：

1. &lt;!DOCTYPE html>: HTML 文件必須以文件類型聲明開頭

2. HTML 文件包含在&lt;html> 和&lt;html/> 標籤之間

3. 元（meta）和腳本（script）聲明包含在&lt;head> 和&lt;/head> 標籤之間

4. 網站上可見的部分包含在&lt;body> 和&lt;/body> 標籤之間

5. &lt;h1> 和&lt;h6> 標籤之間的部分為網站標題

6. &lt;p> 標籤用於定義段落

其他有用的標籤還有：&lt;a> 是超鏈接的標籤，&lt;table> 是表格的標籤，&lt;tr> 是表格行的標籤，&lt;td> 是表格列的標籤。

並且，HTML 標籤常常帶有標識碼 (id) 或類 (class) 屬性，標識碼用來唯一的識別某個 HTML 標籤，並且標識碼的值在整個 HTML 文件中是唯一的。類屬性可以定義同類 HTML 標籤相同的樣式。我們可以利用標識碼和類來幫助我們定位想要的數據。

In [2]:
from urllib.request import urlopen

In [3]:
#quote_page = 'http://www.bloomberg.com/quote/SPX:IND'
quote_page = 'http://www.bloomberg.com/quote/CCMP:IND'

In [4]:
page = urlopen(quote_page).read().decode('utf-8')

In [5]:
print(page)

<!DOCTYPE html>
<html xmlns:og="http://ogp.me/ns#" data-view-uid="0"><head>
<base href='https://www.bloomberg.com/'><script src="https://assets.bwbx.io/markets/public/javascripts/ab_test-8b8aa7ea74.js" data-view-uid="0_5"></script> <meta charset="utf-8"> <title>CCMP Quote - NASDAQ Composite Index - Bloomberg Markets</title><meta http-equiv="X-UA-Compatible" content="IE=edge"><script type="text/javascript">!function(e,t){function u(){return t.getElementById("bb-nav")}function M(){return document.querySelector(".bb-unsupported-message__text")}function L(){var e=document.getElementById("bb_unsupported_custom_message");if(e)return JSON.parse(e.innerHTML).message}function o(){var o='body.bb-unsupported-browser .bb-nav-placeholder{height:auto}body.bb-unsupported-browser #bb-that,body.bb-unsupported-browser .bb-nav-root{display:none;height:auto}body.bb-unsupported-browser .bb-nav-root{display:block}.bb-unsupported-message{background-color:#000;padding:20px 0}@media screen and (max-width: 63.6

In [6]:
soup = BeautifulSoup(page, 'html.parser')

HTML 網頁的基本語法。

每一對 &lt;tag> 標籤內包含網頁的一段代碼：

1. <!DOCTYPE html>: HTML 文件必須以文件類型聲明開頭

2. HTML 文件包含在&lt;html> 和&lt;html/> 標籤之間

3. 元（meta）和腳本（script）聲明包含在&lt;head> 和&lt;/head> 標籤之間

4. 網站上可見的部分包含在&lt;body> 和&lt;/body> 標籤之間

5. &lt;h1> 和&lt;h6> 標籤之間的部分為網站標題

6. &lt;p> 標籤用於定義段落

其他有用的標籤還有：&lt;a> 是超鏈接的標籤，&lt;table> 是表格的標籤，&lt;tr> 是表格行的標籤，&lt;td> 是表格列的標籤。

並且，HTML 標籤常常帶有標識碼 (id) 或類 (class) 屬性，標識碼用來唯一的識別某個 HTML 標籤，並且標識碼的值在整個 HTML 文件中是唯一的。類屬性可以定義同類 HTML 標籤相同的樣式。我們可以利用標識碼和類來幫助我們定位想要的數據。

In [7]:
name_box = soup.find('h1', attrs={'class': 'name'})

In [8]:
name = name_box.text.strip()
print (name)
# strip() 函數用於去除前後空格

NASDAQ Composite Index


In [9]:
price_box = soup.find('div', attrs={'class':'price'})
price = price_box.text
print (price)

7,393.20


![](img/htmlsource.png)

In [10]:
import csv
from datetime import datetime

In [11]:
with open('index.csv', 'a') as csv_file:
    writer = csv.writer(csv_file)
    writer.writerow([name, price, datetime.now()])

In [12]:
quote_page = ['http://www.bloomberg.com/quote/SPX:IND', 'http://www.bloomberg.com/quote/CCMP:IND']

In [13]:
data = []
for pg in quote_page:
    page = urlopen(pg).read().decode('utf-8')
    soup = BeautifulSoup(page, 'html.parser')
    name_box = soup.find('h1', attrs={'class': 'name'})
    name = name_box.text.strip()
    print (name)
    # strip() 函數用於去除前後空格
    price_box = soup.find('div', attrs={'class':'price'})
    price = price_box.text
    data.append((name, price))

S&P 500 Index
NASDAQ Composite Index


In [14]:
with open('index.csv', 'a') as csv_file:
    writer = csv.writer(csv_file)
    for name, price in data:
        writer.writerow([name, price, datetime.now()])