# class2.ipynb
## `requests`示範
* 載入`requests`函式庫
* 將要要求的網頁`www.google.com`放在`url`變數中
* 使用`requests.get(url)對網頁發出http的get請求
* 印出結果

In [None]:
import requests
url = 'https://www.google.com' # 先將欲發出 GET 請求的網址先存在 url
res = requests.get(url) # 對 url 發出 GET 請求，並將 Response 包成回傳物件存在 res
print(type(res), res) # Output: <class 'requests.models.Response'> <Response [200]>

## 附帶參數的`requests`範例
GET 是十分直觀的請求，不過有時候會攜帶參數。GET 請求攜帶參數會直接放在網址(url)，位於 ? 後，若有多個則以 & 分隔。以 `https://www.google.com/search?q=IThome&oq=IThome`為例，有兩個參數以 &分隔，第一個參數，參數名稱為 q ，參數值為 IThome ，第二個參數，參數名稱為 oq ，參數值為 IThome 。

* 直接放在網址
* 使用`params=params`參數



In [None]:
import requests
# 方法一
url1 = 'https://www.google.com/search?q=IThome&oq=IThome'
res = requests.get(url1)
print(res.url, res)  #Output: https://www.google.com/search?q=IThome&oq=IThome <Response [200]>

# 方法二

url2 = 'https://www.google.com/search'
params = {'q':'IThome','oq':'IThome'}
requests.get(url2, params=params) #Output: https://www.google.com/search?q=IThome&oq=IThome <Response [200]>

## Post範例


In [None]:
import requests
import json #JSON 非 python 原生型態但為內建，因此直接引入即可

# 使用字典傳入 POST 參數
data = {'account':'testOwO', 'password':'testOwO'}
url = 'https://zh.wikipedia.org/'
print(requests.post(url, data=data)) #Output: <Response [200]>

#使用 JSON 傳入 POST 參數
data = json.dumps(data)
url = 'https://zh.wikipedia.org/'
print(requests.post(url, data=data)) #Output: <Response [200]>

## `requests`的其它參數
* Requests Headers

用 Requests函式庫傳入 Requests Headers。有些網頁會擋 User-Agent，若沒出現它允許的 User-Agent 就會拒絕存取，繞過方法十分簡單，複製 手動存取成功的 User-Agent，之後加到爬蟲的 Requests Headers 中即可。

In [None]:
import requests
url = 'https://www.must.edu.tw'
User_Agent = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/93.0.4577.82 Safari/537.36'
headers = {
	'User-Agent' : User_Agent
}
print(requests.get(url, headers=headers).status_code) #Output: 200

* Proxy IP的使用
Requests函式庫可傳入 proxy IP 做網路代理服務，讀者可以去網路上的免費 proxy list，像是 https://geonode.com/free-proxy-list

In [None]:
import requests
url = 'https://snake-game-backend.herokuapp.com/Alldatas'
proxies = {'http' : 'http://62.33.207.202:80','https' : 'https://101.255.120.222:8080'}
print(requests.get(url, proxies=proxies).status_code) #Output: 200

* 關掉憑證驗證

如欲爬取的網站憑證失效等因素導致 https 失效(not secure)，這時用 requests 會因為安全性無法爬取。Requests 可以將憑證驗證關閉，讓 Requests 成功爬取。

In [None]:
import requests
r = requests.get('https://www.google.com', verify = False)
print(r.status_code) #Output: 200

* Timeout

Request 傳出後，到有回傳傳入如果超過給定 timeout 時間，會拋出一個例外。

In [None]:
import requests
r = requests.get('https://www.google.com', timeout=0.00000001)

## `request`的其它範例

In [None]:
import requests

# 1. 發送GET請求並獲取網頁內容
response = requests.get('https://www.google.com')
print(response.text)
# 使用requests庫發送GET請求，並通過response物件獲取網頁的內容。列印出網頁的HTML內容。


In [None]:
# 2. 發送POST請求並傳遞參數
payload = {'key1': 'value1', 'key2': 'value2'}
response = requests.post('https://www.google.com', data=payload)
print(response.text)
# 使用requests庫發送POST請求，並傳遞參數payload。列印出回應的內容。

In [None]:
# 3. 添加請求標頭資訊
headers = {'User-Agent': 'Mozilla/5.0'}
response = requests.get('https://www.google.com', headers=headers)
print(response.text)
# 使用requests函式庫發送GET請求，並在請求標頭中添加自訂的User-Agent。列印出網頁的內容。


In [None]:
# 4. 設置超時時間
timeout = 5
response = requests.get('https://www.google.com', timeout=timeout)
print(response.text)
# 使用requests庫發送GET請求，並設置超時時間為5秒。列印出網頁的內容。

In [None]:
# 5. 下載檔案
url = 'https://www.google.com/images/logo.png'
response = requests.get(url)
with open('logo.png', 'wb') as file:
    file.write(response.content)
# 使用requests庫發送GET請求，並將回應的內容保存為檔。這裡以下載Google的Logo為例。

In [None]:
# 6. 處理異常
try:
    response = requests.get('https://www.google.com')
    response.raise_for_status()
except requests.exceptions.HTTPError as err:
    print('HTTP Error:', err)
except requests.exceptions.ConnectionError as err:
    print('Connection Error:', err)
except requests.exceptions.RequestException as err:
    print('Error:', err)
# 使用requests庫發送GET請求，並處理可能出現的異常情況。分別捕獲HTTPError、ConnectionError和其他異常。


In [None]:
# 7. 獲取回應狀態碼
response = requests.get('https://www.google.com')
print(response.status_code)
# 使用requests庫發送GET請求，並獲取回應的狀態碼。列印出狀態碼。

In [None]:
# 8. 獲取回應頭資訊
response = requests.get('https://www.google.com')
print(response.headers)
# 使用requests庫發送GET請求，並獲取回應的頭資訊。列印出頭資訊。


In [None]:
# 9. 獲取請求的URL
response = requests.get('https://www.google.com')
print(response.url)
# 使用requests庫發送GET請求，並獲取請求的URL。列印出URL。


In [None]:
# 10. 設置認證
auth = ('username', 'password')
response = requests.get('https://www.google.com', auth=auth)
print(response.text)
# 使用requests


In [None]:
import requests
url1 = 'https://www.google.com/search?q=ithome'
res = requests.get(url1)
print(res.text)