# 網頁結構巡覽
* 父節點(parent)
* 子節點(children)
* 兄弟節點(siblings)

In [1]:
# 範例網頁表格中，有六堂課程，我們要先取得所有課程的售價，再除以課程數以計算均價。
# 其售價欄位在<td>內，且沒有特定的屬性，取得<table>區塊，接著依序往下<tbody>、<tr>等。

In [8]:
import requests
from bs4 import BeautifulSoup


In [12]:
resp = requests.get('http://jwlin.github.io/py-scraping-analysis-book/ch2/table/table.html')
soup = BeautifulSoup(resp.text, 'html.parser')

prices = [] #儲存上課價格的list 

#取得課程價格方法一, 使用index
rows = soup.find('table', 'table').tbody.find_all('tr')
for row in rows:
    price = row.find_all('td')[2].text #第3個<td> (index = 2)
    prices.append(int(price))

print(sum(prices)/len(price)) #課程均價

2735.0


In [17]:
#方法二 <a>的parent(<td>)的previous_sibling

prices = []

links = soup.find_all('a')
for link in links:
    price = link.parent.previous_sibling.text
    prices.append(int(price))


print(sum(prices)/len(price))

#next_sibling 下一個兄弟節點，這個屬性也會回傳最近的節點。

2735.0


### 取得每個課程的欄位資訊
* table 4欄6列，其中第四列有一個超連結及一張圖片。
* 希望把每一列資訊(課程名、對象、售價等)都印出來。

In [21]:
#定義每一列<tr>
#再取每一欄<td>
#find_all() 
row = soup.find('table', 'table').tbody.find_all('tr')
for row in rows:
    #方法一：find_all()
    tds = row.find_all('td')
    #方法二：找出row(<tr>)所有的直接下一層children
    tds = [td for td in row.children]
    
    #取得href屬性前先檢查其是否存在
    if 'href' in tds[3].a.attrs:
        href = tds[3].a['href']
    else:
        href = None
    print(tds[0].text, tds[1].text,
          tds[2].text, href, tds[3].a.img['src'])


初心者 - Python入門 初學者 1490 http://www.pycone.com img/python-logo.png
Python 網頁爬蟲入門實戰 有程式基礎的初學者 1890 http://www.pycone.com img/python-logo.png
Python 機器學習入門實戰 (預計) 有程式基礎的初學者 1890 http://www.pycone.com img/python-logo.png
Python 資料科學入門實戰 (預計) 有程式基礎的初學者 1890 http://www.pycone.com img/python-logo.png
Python 資料視覺化入門實戰 (預計) 有程式基礎的初學者 1890 http://www.pycone.com img/python-logo.png
Python 網站架設入門實戰 (預計) 有程式基礎的初學者 1890 None img/python-logo.png


In [22]:
    # 取得每一列所有欄位文字資訊: stripped_strings
    rows = soup.find('table', 'table').tbody.find_all('tr')
    for row in rows:
        print([s for s in row.stripped_strings])


['初心者 - Python入門', '初學者', '1490']
['Python 網頁爬蟲入門實戰', '有程式基礎的初學者', '1890']
['Python 機器學習入門實戰 (預計)', '有程式基礎的初學者', '1890']
['Python 資料科學入門實戰 (預計)', '有程式基礎的初學者', '1890']
['Python 資料視覺化入門實戰 (預計)', '有程式基礎的初學者', '1890']
['Python 網站架設入門實戰 (預計)', '有程式基礎的初學者', '1890']
