In [None]:
'''
helper functions:
'''

def show(cmdstr):
    print(cmdstr, '=', eval(cmdstr))
    
def newline(row=1):
    print('\n' * (row-1))
    
def markline(length=15, mark='-'):
    print(f"\n{mark * length}")

# requests 模組：讀取網站檔案

## 讀取網頁原始碼

In [None]:
'''
讀取網頁資料的主要方法有: get 與 post。
 get: 會將傳遞請求的參數，附加在網址的後面。又因為使用的是環境變數，所以能傳遞的資料相對較少。
post: 不會將傳遞請求的參數，附加在網址的後面。因為使用的是標準輸出入，所以能傳遞大量的資料。

回傳的內容其實就是: 所請求網頁的原始碼文字內容。
'''
import requests

url = 'https://www.ntut.edu.tw/index.php'
html = requests.get(url)  

# 檢查HTTP回應碼是否為 200 (或是使用 requests.code.ok)
if html.status_code == requests.codes.ok:  # 表示正確地讀回網頁資料。
    print(html.text)  # html.text 就是網頁的原始碼內容。
    

## 加上 URL 參數

In [None]:
import requests

# 將查詢參數定義為字典資料，並放入 GET 請求的參數中。
# 下列的程式寫法，相當於在網址列，下右列的指令: http://httpbin.org/get?key1=value1&key2=value2  <-- 瀏覽網址的內容。

payload = {'key1': 'value1', 'key2': 'value2'}  # 使用 dict 的格式。

# 網站: http://httpbin.org/get，可以回傳我們測試網頁請求時，所傳遞參數的內容。
html = requests.get("http://httpbin.org/get",
                     params=payload)  # 透過參數 params (for get)

# 或是直接將參數附加在網址的後面也 OK。
# html = requests.get("http://httpbin.org/get?key1=value1&key2=value2")

print(html.text)


## 發送POST請求

In [None]:
import requests

# 將查詢參數加入 POST 請求的參數中。
payload = {'key1': 'value1', 'key2': 'value2'}   # 使用 dict 的格式。

html = requests.post("http://httpbin.org/post",
                     data=payload)  # 透過參數 data (for post)
print(html.text)

# BeautifulSoup 模組：網頁解析

In [None]:
'''
如果需要安裝 BeautifulSoup 的話:
pip install -U BeautifulSoup4

如果需要安裝 lxml 的話:
pip install lxml
'''

[Beautiful Soup 4.12.0 documentation](https://www.crummy.com/software/BeautifulSoup/bs4/doc/#the-string-argument)

## 認識網頁的結構

## BeautifulSoup 常用的屬性

In [None]:
import requests
from bs4 import BeautifulSoup  # 載入 Beautifulsoup 的方法。

url = 'https://www.ntut.edu.tw/index.php'  # 國立臺北科技大學 網址
html = requests.get(url)
html.encoding = 'UTF-8'  # 設定爬取回來內容的編碼格式。

sp = BeautifulSoup(html.text, 'lxml')  # 爬取回來的資料。

'''
# 透過標簽名稱來找資料:
print(sp.title)
print(sp.title.text)
print(sp.h2)  # 只會回傳第一個找到的 h2 標簽(tag)。
print(sp.h2.text)
print(sp.h2['class'])
print(sp.p)
newline()
#'''

#'''
# 透過標簽名稱來找資料:
show('sp.title')        # 含 標簽(tag) 與其 圍住的文字內容。
show('sp.title.text')   # tag 圍住的文字內容。
show('sp.h2')           # 只會回傳第一個找到的 h2 標簽(tag)。
show('sp.h2.text')
show('sp.h2["class"]')  # 可以設定要找 h2 中定義的屬性。
show('sp.p')
#'''


## 找尋指定標籤的內容：find()、find_all()

In [None]:
html = '''
<html>
  <head><meta charset="UTF-8"><title>我是網頁標題</title></head>
  <body>
      <p id="p1">我是段落一</p>
      <p id="p2" class='red'>我是段落二</p>
  </body>
</html>
'''

In [None]:
from bs4 import BeautifulSoup

sp = BeautifulSoup(html, 'lxml')

print(sp.find('p'))
print(sp.find_all('p'))
markline()

print(sp.find('p', {'id':'p2', 'class':'red'}))
print(sp.find('p', {'id':'p2'}))
markline()

print(sp.find('p', {'class':'red'}))
markline()

show("sp.find('p', {'id':'p2'})")
show("sp.find('p', {'class':'red'})")
markline()

print(sp.find('p', id='p2', class_= 'red'))

In [None]:
# 一個網頁內容，但存在字串中:
page = r'''
<!doctype html>
<html>
  <head>
    <meta charset="UTF-8">
    <title>我是網頁的標題</title>
    <style>
        img {
            height: 250px;
        }
    </style>
  </head>
  <body>
    <h2>底下是一個表格，內容是</h2>
    <table>
        <tr>
          <th> <img src='.\images2Move\alarmclock256.jpg' height=150 /> </th>
          <th> <img src='.\images2Move\birds.jpg' height=150 /> </th>
          <th> <img src='.\images2Move\Brick_wall.jpg' height=150 /> </th>
          <th> <img src='.\images2Move\Conan-4.jpg' height=150 /> </th>
          <th> <img src='.\images2Move\CountryKitchen.jpg' height=150 /> </th>
        </tr>
        <tr>
          <th> <img src='.\images2Move\Porsche 911 GT3 R Hybrid-1.jpg' height=150 /> </th>
          <th> <img src='.\images2Move\rock-wall.jpg' height=150 /> </th>
          <th> <img src='.\images2Move\RunningHorse.jpg' height=150 /> </th>
          <th> <img src='.\images2Move\SantaFe-2015.jpg' height=150 /> </th>
          <th> <img src='.\images2Move\Apple-1.jpg' height=150 /> </th>
        </tr>
        <tr>
          <th> <img src='.\images2Move\Apple-2.jpg' height=150 /> </th>
          <th> <img src='.\images2Move\德國 ZEPPELIN 齊柏林經典機械腕錶 ( ZN-7636-1 ).jpg' height=150 /> </th>
          <th> <img src='.\images2Move\碧潭夜景.jpg' height=150 /> </th>
        </tr>
    </table>
</html>
'''

In [None]:
from bs4 import BeautifulSoup

sp = BeautifulSoup(page, 'lxml')

ths = sp.find('th')  # will find the first th
print(ths)
markline()
# ths = sp.find_all('th')  # will find all the th
# ths = sp.select('th')  # same as above, will find all the th 

print( type(ths) )
print( list(ths) )

# print(sp.style)
# print(sp.table)

# sp.select('img')  # return all the tags of img
# sp.select('img')[0]['src']  # 取出第一個元素中的 src 屬性內容。
# sp.select('img')[0]['height']  # 取出第一個元素中的 height 屬性內容。
# sp.select('img')[0]  # 取出第一個元素。


In [None]:
"""
標籤名稱: 文字      <-- 原先瀏覽器的標簽 或 自訂標簽。
類別定義: .類別名稱 <-- 同類型的設定。
     id: #id名稱   <-- 量身訂製。
"""

page = '''
<html>
  <head>
      <meta charset="UTF-8"><title>我是網頁標題</title>
      <style>
          #p1 {
              font-size: 1.2em;
          }
          #p2 {
              font-size: 1.5em;
          }
          .red {
              color: red;
          }
      </style>  
  </head>
  <body>
      <p id="p1">我是段落一</p>
      <p id="p2" class='red'>
      我是段落二     
      </p>
  </body>
</html>
'''
from bs4 import BeautifulSoup

sp = BeautifulSoup(page, 'lxml')
# sp.select('.red')[0].text
# sp.select('p#p1')[0].text



## 利用CSS選擇器找尋內容：select()

In [None]:
'''
CSS 的內容會定義在 style 的標簽中。
1) 一般的文字內容表示標簽的名稱。
2) class(類別)名稱前會加上一個句點(.)，相同 class 可以被很多個標簽引用。
3) id名稱前會加上一個(#)，同時，理論上 id 的定義是獨一無二的。
'''

from bs4 import BeautifulSoup

sp = BeautifulSoup(page, 'lxml')

'''
# 透過 select 找到的內容，通通存在 list 中:
print(sp.select('title'))
print(sp.select('p'))
print(sp.select('#p1'))
print(sp.select('.red'))
markline()
#'''

# another method to show the result:
show("sp.select('title')")
show("sp.select('p')")
show("sp.select('#p1')")
show("sp.select('.red')")

# type(sp.select('p')[0])

## *取得標籤的屬性內容*

In [None]:
html = '''
<html>
  <head><meta charset="UTF-8"><title>我是網頁標題</title></head>
  <body>
      <img src="http://www.ehappy.tw/python.png">
      <a href="http://www.e-happy.com.tw">超連結</a>
  </body>
</html>
'''

In [None]:
from bs4 import BeautifulSoup

sp = BeautifulSoup(html, 'lxml')

# 透過 select 找到的內容，通通存在 list 中:
print(sp.select('img')[0].get('src'))  # 使用 get 的方式。
print(sp.select('a')[0].get('href'))

print(sp.select('img')[0]['src'])  # 透過 文字索引 的方式。
print(sp.select('a')[0]['href'])
markline()

show("sp.select('img')[0].get('src')")
show("sp.select('a')[0].get('href')")

show("sp.select('img')[0]['src']")
show("sp.select('a')[0]['href']")

# 使用正規表達式

In [None]:
page = """
<div class="content">
    E-Mail：<a href="mailto:mail@test.com.tw">
      mail</a><br>
    E-Mail2：<a href="mailto:mail2@test.com.tw">
      mail2</a><br>
    <ul class="price">定價：360元 </ul>
    <img src="http://test.com.tw/p1.jpg">
    <img src="http://test.com.tw/p2.png">
    電話：(04)-76543210、0937-123456
</div>
"""

In [None]:
import re

pattern=r'[a-zA-Z0-9_.+-]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+'
emails = re.findall(pattern, page)

for email in emails:  #顯示 email
    print(email)
newline()

price = re.findall(r'(\d+)元', page)[0].split('元')[0]  #價格
print(price)  #顯示定價金額
newline()

imglist = re.findall(r'[http://]+[a-zA-Z0-9-/.]+\.[jpg|png]+', page)    
for img in imglist:  #
    print(img)  #顯示圖片網址
newline()


phonelist = re.findall(r'\(?\d{2,4}\)?\-\d{6,8}', page)
for phone in phonelist:
    print(phone)  #顯示電話號碼 

In [None]:
'''
For exercise
'''
import requests
from bs4 import BeautifulSoup
import re

url = "https://stats.moe.gov.tw/bookcase/"  # 教育部電子書櫃連結。

html = requests.get(url)
# print(html.text)

sp = BeautifulSoup(html.text, 'lxml')

# imgs = sp.select('img.datalistImg')  # 尋找 img tag，且該 img 引用類別(class) datalistImg。
# print(imgs)

# anchors = sp.select('a', class_="tooltip")  # 尋找 a tag，且該 img 引用類別(class) tooltip。

# result = ""
# for img in imgs:  
#     result += str(img)
    
# with open('see.html', "w") as fp:
#     fp.write(result)