# httpbin
`httpbin` 是一個提供多種 HTTP 測試功能的開源服務，通常用來測試 HTTP 請求。它提供許多端點，能讓使用者查看伺服器如何處理請求，例如 GET、POST、PUT、DELETE 等方法的處理，並可以檢查 Headers、Cookies、參數、認證等資訊。

- **用途**：主要用來測試 HTTP 客戶端和學習 HTTP 協議的細節，尤其適合剛接觸 API 測試的初學者。
- **常見端點**：
  - `/get`：回傳所接收的 GET 請求內容，用來檢查 GET 請求的 URL 和參數。
  - `/post`：回傳 POST 請求的內容，用來測試數據在 POST 請求中的傳遞。
  - `/headers`：回傳請求的 Headers，讓使用者確認請求頭的正確性。
  - `/status/{code}`：模擬不同的 HTTP 狀態碼，讓使用者測試不同的錯誤情況，例如 404 或 500。
  - `/delay/{n}`：延遲 `n` 秒再回應，模擬網路延遲。
  
舉例來說，發送一個 GET 請求到 `httpbin.org/get`，伺服器會回應一個 JSON 結構，包含我們所發送的 URL、查詢參數、Header 等資訊，這讓我們可以輕鬆確認請求是否正確發送。
___


# GET 
GET 請求的資料通常附加在 URL 後面，以查詢字串 (Query String) 的形式傳遞。
這樣的傳遞方式會將資料直接顯示在 URL 中，適合用於傳遞非敏感、簡短的資料。

In [None]:
import requests

url = r"https://httpbin.org/get" # /get

# 用字典設定請求登入網頁的參數
form_data = {
    "gender":"M",
    "page":1
}

r = requests.get(url, params=form_data) # 設定表單資料
print(type(r))
print(r.url)

<class 'requests.models.Response'>
https://httpbin.org/get?gender=M&page=1


# POST 
POST 請求會將資料放在請求的主體（Body）中，而不是在 URL 中。
這樣的方式可以隱藏資料，不會直接顯示在 URL 中，適合傳遞大量或敏感的資料，通常用於提交表單資料，因為它可以傳遞更複雜和大容量的資料。

In [None]:
url = r"https://httpbin.org/post"
r = requests.post(url, data=form_data) # POST請求
print(r.url) # 不會顯示 form data
print(r.text)

https://httpbin.org/post
{
  "args": {}, 
  "data": "", 
  "files": {}, 
  "form": {
    "gender": "M", 
    "page": "1"
  }, 
  "headers": {
    "Accept": "*/*", 
    "Accept-Encoding": "gzip, deflate, br", 
    "Content-Length": "15", 
    "Content-Type": "application/x-www-form-urlencoded", 
    "Host": "httpbin.org", 
    "User-Agent": "python-requests/2.32.3", 
    "X-Amzn-Trace-Id": "Root=1-672c32d6-26923f94640e1eba57ac9eeb"
  }, 
  "json": null, 
  "origin": "223.136.210.113", 
  "url": "https://httpbin.org/post"
}



In [21]:
url = r"https://httpbin.org/post"
# 傳入 json 格式
r = requests.post(url, json=form_data) # json 參數會自動將字典轉成 Json
print(r.text)

{
  "args": {}, 
  "data": "{\"gender\": \"M\", \"page\": 1}", 
  "files": {}, 
  "form": {}, 
  "headers": {
    "Accept": "*/*", 
    "Accept-Encoding": "gzip, deflate, br", 
    "Content-Length": "26", 
    "Content-Type": "application/json", 
    "Host": "httpbin.org", 
    "User-Agent": "python-requests/2.32.3", 
    "X-Amzn-Trace-Id": "Root=1-672c3313-079e5dd149f8140c63b19b36"
  }, 
  "json": {
    "gender": "M", 
    "page": 1
  }, 
  "origin": "223.136.210.113", 
  "url": "https://httpbin.org/post"
}



# header

In [None]:
url = r"https://httpbin.org/post"
headers = {
    "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/130.0.0.0 Safari/537.36"
}

r = requests.post(url, json=form_data, headers=headers) # Response object
print(type(r))
print(r.url)
print(r.request.headers) # 發送請求時的標頭
print(r.headers) # 伺服器回應的標頭

<class 'requests.models.Response'>
https://httpbin.org/
{'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/130.0.0.0 Safari/537.36', 'Accept-Encoding': 'gzip, deflate, br', 'Accept': '*/*', 'Connection': 'keep-alive', 'Content-Length': '26', 'Content-Type': 'application/json'}
{'Date': 'Thu, 07 Nov 2024 02:46:03 GMT', 'Content-Type': 'text/html', 'Content-Length': '178', 'Connection': 'keep-alive', 'Server': 'gunicorn/19.9.0', 'Allow': 'GET, HEAD, OPTIONS', 'Access-Control-Allow-Origin': '*', 'Access-Control-Allow-Credentials': 'true'}
405 METHOD NOT ALLOWED
ISO-8859-1


In [None]:
url = r"https://httpbin.org/html"
r = requests.get(url)

# Encoding
print(r.encoding)
 
print(r.text)

utf-8
<!DOCTYPE html>
<html>
  <head>
  </head>
  <body>
      <h1>Herman Melville - Moby-Dick</h1>

      <div>
        <p>
          Availing himself of the mild, summer-cool weather that now reigned in these latitudes, and in preparation for the peculiarly active pursuits shortly to be anticipated, Perth, the begrimed, blistered old blacksmith, had not removed his portable forge to the hold again, after concluding his contributory work for Ahab's leg, but still retained it on deck, fast lashed to ringbolts by the foremast; being now almost incessantly invoked by the headsmen, and harpooneers, and bowsmen to do some little job for them; altering, or repairing, or new shaping their various weapons and boat furniture. Often he would be surrounded by an eager circle, all waiting to be served; holding boat-spades, pike-heads, harpoons, and lances, and jealously watching his every sooty movement, as he toiled. Nevertheless, this old man's was a patient hammer wielded by a patient arm. No 

In [None]:
url = r"https://httpbin.org/get"
r = requests.get(url)

# 伺服器正常回應時 200 與 ok
print(r.status_code ,r.reason) 

# 伺服器回傳的資料格式
print(r.headers.get("content-type"))

# 若伺服器回傳內容為 json, 可以將 json 轉 Python 物件
print(r.json()) 

200 OK
application/json
{'args': {}, 'headers': {'Accept': '*/*', 'Accept-Encoding': 'gzip, deflate, br', 'Host': 'httpbin.org', 'User-Agent': 'python-requests/2.32.3', 'X-Amzn-Trace-Id': 'Root=1-672c33d2-0f16e5955faae3de3644a02f'}, 'origin': '223.136.210.113', 'url': 'https://httpbin.org/get'}


In [26]:
url = r"https://httpbin.org/image/jpeg"
r = requests.get(url)


# 如果下載的是影音、圖片，則會獲得二進位格式內容，可以用 content 取得內容
img = r.content
path = 'test.jpg'
with open(path, "wb") as f:
    f.write(img)

# Cookie
Cookie 是由網站存放在用戶瀏覽器中的小型數據檔案，用於記錄用戶的特定資訊。這些資訊通常包含用戶的會話ID、偏好設定、追蹤資訊等，主要目的在於提升網站使用體驗和便於伺服器辨識用戶。

### Cookie 的主要用途
1. **身份驗證**：Cookie 可以存儲用戶的登入資訊，當用戶再次訪問網站時，伺服器可以通過 Cookie 辨識身份，避免重複登入。
   
2. **追蹤與分析**：Cookie 可以儲存用戶的瀏覽行為（例如點擊記錄、訪問時間），幫助網站進行流量分析和使用者行為分析，以優化網站內容。

3. **個性化體驗**：Cookie 能記住用戶的偏好，例如語言設定、字體大小等。這樣，用戶下次訪問時，網站會根據這些偏好自動設定介面。

### Cookie 的特性
- **有效期**：Cookie 可以設置有效期。會話性 Cookie（Session Cookie）會在瀏覽器關閉後自動刪除，而持久性 Cookie（Persistent Cookie）則會根據設定的有效期持續存在。
  
- **作用域**：Cookie 通常僅能在其所屬的域名或子域名中使用，防止跨站共享 Cookie（以保護用戶隱私）。

- **安全性**：一些 Cookie 可以設置為「HttpOnly」和「Secure」。HttpOnly Cookie 僅能在伺服器端訪問，無法通過 JavaScript 調用；Secure Cookie 則只能在 HTTPS 連線下傳輸，以增強安全性。

### Cookie 的限制
- **儲存大小**：每個 Cookie 的大小通常限制在 4 KB 左右，且每個域名下的 Cookie 數量有限。
  
- **隱私問題**：由於 Cookie 可以用來追蹤用戶行為，隱私問題受到關注。許多瀏覽器提供管理 Cookie 的功能，並允許用戶選擇拒絕或刪除特定 Cookie。



In [27]:
# 在 Python requests libary，Cookie 通常以字典形式表示。
url = r"https://httpbin.org/cookies"
cookies = {"key1":"value1"}
r = requests.get(url, cookies=cookies)
print(r.text)


{
  "cookies": {
    "key1": "value1"
  }
}



# Proxy
在網路爬蟲，**代理 IP** 是指使用一個中介的 IP 位址來發送請求，而非直接使用真實 IP 位址。代理 IP 能夠幫助爬蟲隱藏其來源，繞過 IP 封鎖，並模擬不同的用戶來進行高頻次或大量的數據請求。

### 為什麼使用代理 IP？
1. **避免 IP 被封鎖**：當我們在短時間內對某個網站發送大量請求時，網站的防爬蟲機制可能會識別並封鎖我們的 IP 位址。使用代理 IP 可以分散請求來源，減少被封鎖的風險。
  
2. **提高隱私性**：代理 IP 可以隱藏真實 IP 位址，增強爬蟲的隱私性。特別是當我們不希望被目標網站識別真實來源時，代理 IP 會顯得非常有用。

3. **繞過地區限制**：有些網站只允許特定地區的 IP 位址訪問內容。透過使用不同地區的代理 IP，可以獲取不同地區的內容或繞過區域性限制。

4. **模擬不同用戶**：對於一些設置限制的網站，使用代理 IP 可以模擬多個用戶的瀏覽行為，例如隨機代理 IP 讓請求來源看起來更自然。

### 如何在 Python 中設置代理 IP？
在 Python 的 `requests` 庫中，可以透過 `proxies` 參數來設置代理 IP。`proxies` 參數接收一個字典，指定 `http` 或 `https` 協議所使用的代理 IP 位址。


In [None]:
# 範例，從 free proxy IP list
proxies = {
    "http":"http://203.83.182.86:8080"
}

r = requests.get(url, proxies=proxies)