# httpbin.org
- **requests 與 response 的測試工具**
> 可對 httpbin.org 發送 Get 或 Post 請求行為，它在接收後會以 json 格式回傳請求的資料
>> - args (參數)
>> - headers (標頭資料)
>> - origin (來源IP位址)
>> - url (請求網址): 將URL參數及值合併在網址後面

In [1]:
# Get請求：利用瀏覽器輸入指定網址，當指定的web server接收到要求並回應內容（顯示網頁內容於瀏覽器）


import requests                                               # 導入requests模組

payload = {"key1":"value1", "key2":"value2"}                  # 將查詢參數定義為字典資料型態

r = requests.get("http://httpbin.org/get", params = payload)  # 加入Get請求中，且須將URL參數內容設定為 "params參數"

print(r.text)                                                 # 列印網頁原始碼資料

{
  "args": {
    "key1": "value1", 
    "key2": "value2"
  }, 
  "headers": {
    "Accept": "*/*", 
    "Accept-Encoding": "gzip, deflate", 
    "Host": "httpbin.org", 
    "User-Agent": "python-requests/2.25.1", 
    "X-Amzn-Trace-Id": "Root=1-6004ae69-6aab1960654afea56d8d9581"
  }, 
  "origin": "36.233.83.183", 
  "url": "http://httpbin.org/get?key1=value1&key2=value2"
}



In [2]:
# Post請求：只要網頁中有讓使用者填入資料的表單，均需要用Post請求來進行傳送

import requests                                               # 導入requests模組

payload = {"key1":"value1", "key2":"value2"}                  # 將傳遞參數定義為字典資料型態

r = requests.post("http://httpbin.org/post", data = payload)  # 加入Post請求中，且須將傳遞參數內容設定為 "data參數"

print(r.text)                                                 # 列印網頁原始碼資料

{
  "args": {}, 
  "data": "", 
  "files": {}, 
  "form": {
    "key1": "value1", 
    "key2": "value2"
  }, 
  "headers": {
    "Accept": "*/*", 
    "Accept-Encoding": "gzip, deflate", 
    "Content-Length": "23", 
    "Content-Type": "application/x-www-form-urlencoded", 
    "Host": "httpbin.org", 
    "User-Agent": "python-requests/2.25.1", 
    "X-Amzn-Trace-Id": "Root=1-6004ae69-371dab5f18f9436f1060f378"
  }, 
  "json": null, 
  "origin": "36.233.83.183", 
  "url": "http://httpbin.org/post"
}



# 網路爬蟲 (Web Crawler｜Spider｜Spiderbot｜Crawler)
- **請求網頁內容**


In [3]:
import requests                            # 導入requests模組
url = "http://www.ehappy.tw/demo.htm"      # 將目標網址指定給變數(url)

r = requests.get(url)                      # 發送Get請求，並指派給新建立的response物件(r)

r.encoding = "UTF-8"                       # 設定response物件的encoding編碼屬性以避免亂碼，常見的是 UTF-8 或 Big5

if r.status_code == requests.codes.ok:     # 檢查 HTTP回應碼是否為 200(requests.code.ok)
    print(r.text)                          # 列印網頁原始碼資料

<!doctype html>
<html>
  <head>
    <meta charset="UTF-8">
    <title>Hello</title>
  </head>
  <body>
    <p>Hello World!</p>
  </body>
</html>


In [4]:
import requests                            # 導入requests模組
url = "http://www.ehappy.tw/demo.htm"      # 將目標網址指定給變數(url)

r = requests.get(url)                      # 發送Get請求，並指派給新建立的response物件(r)

r.encoding = "UTF-8"                       # 設定response物件的encoding編碼屬性以避免亂碼，常見的是 UTF-8 或 Big5

if r.status_code == requests.codes.ok:     # 檢查 HTTP回應碼是否為 200(requests.code.ok)
    print(r.content)                       # 列印網站二進位檔案資料

b'<!doctype html>\n<html>\n  <head>\n    <meta charset="UTF-8">\n    <title>Hello</title>\n  </head>\n  <body>\n    <p>Hello World!</p>\n  </body>\n</html>'


In [5]:
import requests                            # 導入requests模組
url = "http://www.ehappy.tw/demo.htm"      # 將目標網址指定給變數(url)

r = requests.get(url)                      # 發送Get請求，並指派給新建立的response物件(r)

r.encoding = "UTF-8"                       # 設定response物件的encoding編碼屬性以避免亂碼，常見的是 UTF-8 或 Big5

if r.status_code == requests.codes.ok:     # 檢查 HTTP回應碼是否為 200(requests.code.ok)
    print(r.status_code)                   # 列印 HTTP狀態碼
    print(r)

200
<Response [200]>


- **自訂 HTTP Headers 偽裝瀏覽器操作**

In [6]:
import requests                            # 導入requests模組

train = "https://www.thsrc.com.tw"         # 將台灣高鐵首頁指定給變數(train)


# 自訂HTTP Headers，可至 https://httpbin.org/get 查詢本機 User-Agent並複製貼上
headers = {
    "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_6) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/14.0.2 Safari/605.1.15", 
}

r = requests.get(train, headers = headers) # 將自訂HTTP Headers加人Get請求中，並指派給新建立的response物件(r)

print(r.status_code)                       # 列印 HTTP狀態碼，若為200表示正確讀取；若未加自訂HTTP Headers則程式會無法正確執行
print(r)

200
<Response [200]>


# 網頁抓取 (Web Scraper｜Web harvesting｜Web data extraction)
- **抓取所需資料 + 儲存資料**

In [7]:
import requests                                          # 導入requests模組
from bs4 import BeautifulSoup                            # 自beautifulsoup4模組導入BeautifulSoup函式

test = requests.get("http://ehappy.tw/bsdemo1.htm")      # 將目標網址指定給變數(url)

test.encoding = "UTF-8"                                  # 設定response物件的encoding編碼屬性以避免亂碼，常見的是 UTF-8 或 Big5

sp = BeautifulSoup(test.text, "lxml")                    # 利用lxml解析器去解析reguests模組取得的網頁原始碼，並指派給新建立的BeautifulSoup物件(sp)

print(sp.title)                                          # 列印網頁的標題(含HTML的標籤tag)
print(sp.title.text)                                     # 列印網頁的標題
print(sp.h1)                                             # 列印標註的標題(含HTML的標籤tag)
print(sp.h1.text)                                        # 列印標註的標題
print(sp.p)                                              # 列印文件段落(含HTML的標籤tag)
print(sp.p.text)                                         # 列印文件段落
print(sp.img)                                            # 列印圖片(含HTML的標籤tag)
print(sp.img.text)                                       # 列印圖片
print(sp.a)                                              # 列印超連結名稱(含HTML的標籤tag)
print(sp.a.text)                                         # 列印超連結名稱

<title>我是網頁標題</title>
我是網頁標題
<h1 class="large">我是標題</h1>
我是標題
<p>我是段落</p>
我是段落
<img alt="我是圖片" src="https://www.w3.org/html/logo/downloads/HTML5_Logo_256.png"/>

<a href="http://www.e-happy.com.tw">我是超連結</a>
我是超連結


In [8]:
import requests
from bs4 import BeautifulSoup

test = requests.get("http://ehappy.tw/bsdemo1.htm")

test.encoding = "UTF-8"

sp = BeautifulSoup(test.text, "html.parser")             # 利用Python內建解析器去解析reguests模組取得的網頁原始碼，並指派給新建立的BeautifulSoup物件(sp)

print(sp.title)                                          # 列印網頁的標題(含HTML的標籤tag)
print(sp.title.text)                                     # 列印網頁的標題
print(sp.h1)                                             # 列印標註的標題(含HTML的標籤tag)
print(sp.h1.text)                                        # 列印標註的標題
print(sp.p)                                              # 列印文件段落(含HTML的標籤tag)
print(sp.p.text)                                         # 列印文件段落
print(sp.img)                                            # 列印圖片(含HTML的標籤tag)
print(sp.img.text)                                       # 列印圖片
print(sp.a)                                              # 列印超連結名稱(含HTML的標籤tag)
print(sp.a.text)                                         # 列印超連結名稱

<title>我是網頁標題</title>
我是網頁標題
<h1 class="large">我是標題</h1>
我是標題
<p>我是段落</p>
我是段落
<img alt="我是圖片" src="https://www.w3.org/html/logo/downloads/HTML5_Logo_256.png"/>

<a href="http://www.e-happy.com.tw">我是超連結</a>
我是超連結
