## Application Program Interface
* 什麼是API
    * 使用API通過輸入與輸出與其他軟體通信，就像函數一樣。  
* 什麼是API library  
    * ex.panda套件就是一種API，幫助我們與其他軟體溝通來處理數據
      ![image.png](attachment:da690677-9e9f-4788-9b1b-561c58def850.png)
      ```dict_={'a':[11,21,31],'b':[12,22,32]}```  
      **# 以DataFrame構造函數創建Pandas object, 用API來說即是一個實例(instance)**  
      ```df = pd.DataFrame(dict_)```  
      字典中的數據被傳遞給Pandas API，接著運用dataframe與API通信，當調用方法函式時，API將依照相對應的任務進行計算，例如，調用mean()時，API將計算平均值，並返回結果。
* REST API
    * **RE**presentational, **S**tate, **T**ransfer API(表述性狀態轉移)
    * 為另一種API類型，允許你通過互聯網進行通信，從而利用其優點，存取更多資源、人工智慧...等
    * 在 REST API 中，程序被稱為客戶端，API 通過互聯網與你調用的 Web 服務通信。
    * Request and Response
    * 關鍵概念和術語：
        * 客戶端(Client)：你或你的代碼，發送請求。
        * 資源(Resource)：你互動的 Web 服務。
        * 端點(endpoint)：客戶端找到服務的 URL 或地址。
        * requests：客戶端想要執行的操作，通過 HTTP 消息發送。
        * response：從 Web 服務返回給客戶端的數據或結果。
          ![image.png](attachment:c0d38f99-b090-4191-9932-6cc699f61076.png)
          你或你的代碼視為Client，Web服務被稱為資源(Resource)，Client透過endpoint找到服務。  
       Client向Resource發送requests，esource向Client發送Response  
          ![image.png](attachment:0a43dacc-8166-438f-97f5-11169410bcb4.png)
        * HTTP 方法：一種通過互聯網傳輸數據的方式（GET、POST、PUT、DELETE 等），通過發送請求，我們告訴 REST API 該做什麼。請求通常通過 HTTP 消息進行通信。這些 HTTP 消息通常包含一個 JSON 文件，其中包含我們希望服務執行的操作指令。該操作通過互聯網傳輸到 Web 服務。服務執行操作後，會以相同方式通過 HTTP 消息返回響應，其中的信息通常也以 JSON 文件形式返回。這些信息傳輸回客戶端。
          ![image.png](attachment:0af55b65-1375-4eba-af70-e72b1d2e3adc.png)
          The service performs the operation.
          ![image.png](attachment:6e842cff-1af6-4b4f-8180-b12e09ba72dd.png)
          The web service returns a response via an HTTP message, where the information is usually returned via a JSON file. This information is transmitted back to the client.
          ![image.png](attachment:aa11b326-52d0-4ccd-8ef9-d802707ce19e.png)
          


     * REST API 的工作原理:
        * 請求：客戶端使用 HTTP 消息向資源發送請求。
        * 請求負載：此消息通常包含一個 JSON 文件，說明要執行的操作。
        * 執行：Web 服務執行請求的操作。
        * 響應：Web 服務通過 HTTP 消息發回響應，通常包含結果的 JSON 文件。
        * 數據傳輸：此響應傳回客戶端。
      


### PyCoinGecko for CoinGecko API
* 加密貨幣數據非常適合使用 API，因為它不斷更新，對加密貨幣交易至關重要。
* 使用PyCoinGecko收集數據  
  <code>
  !pip install pycoingrcko
  from pycoingecko import CoinGeckoAPI
  </code>

  **#創建一個Client object**
  <code>
  cg = CoinGeckoAPI()
  </code>
  
  **#使用一個函數來請求數據**  ,這個函式將獲取過去30天內以美元計算的bitcoin數據。  
  <code>
  bitcoin_data = cg.get_coin_market_chart_by_id(id = 'bitcoin', vs_currency = 'used', days=30)
  </code>

## HTTP Protocol
當您（客戶端）使用網頁時，您的瀏覽器會向托管該頁面的伺服器發送 HTTP 請求。預設情況下，伺服器會嘗試查找所需的資源 “index.html”。如果您的請求成功，伺服器將通過 HTTP 回應將對象發送給客戶端；這包括資源類型、資源長度和其他資訊。下方的表格表示存儲在 Web 伺服器中的資源列表。

## Uniform Resource Locator:URL
* URL是在網路上查找資源最常用的方式。
* Overview:
    * Scheme:協議, ex: http://
    * Internet address or Base URL:作用於查找位置, ex. www.ibm.com
    * Route:網路服務器上的位置, ex. /image/IDSNlogo.png
    * 綜合可得到：http://www.ibm.com/image/IDSNlogo.png

## Request and Response
* Request Message  
  第一列中的是get方法，為一種HTTP方法，他目前正在請求名為index.html的文件。  
  第二列為Request標頭，通過HTTP請求傳遞更多訊息。  
  在get方法中Request Header為空。  
  第三列為Request Body，有些請求會有正文。  
  ![image.png](attachment:227d1c93-60b4-49ba-88be-2588c28cee45.png)
* Response Message  
  Response起始行包含版本號跟描述性短語，ex.下圖中，HTTP/1.0 狀態碼 (200) 表示成功，描述性短語 “OK”。  
  Response標頭包含信息。  
  最後則是包含請求件的Response正文，在下圖中為HTML文檔
  ![image.png](attachment:10229630-1e95-4ab0-8a0f-7eab8683f2b0.png)
* Status Code:  
  前綴表示類別，例如100是訊息回應(information response)，100表示到目前為止一切正常。200表示成功回應，例如，200 請求成功；400中的任何內容都是壞消息，例如，401為請求未經授權；500代表服務器錯誤，例如501代表未實現。
  ![image.png](attachment:0000c7af-7718-4848-9320-45e94a7843c0.png)

## HTTP Methods
* 當發出HTTP請求時，會發送HTTP方法，這告訴服務器要執行什麼操作。
  ![image.png](attachment:0543f86d-6bad-42f9-a359-b0ae5bfec64b.png)

## HTTP Using the Requests Library in Python
# Requests in Python
* request 是一個python庫，允許你發送HTTP/1.1 request。
  ex. 下例中通過get()方法向www.ibm.com發出GET請求





In [1]:
import requests
url='https://www.ibm.com/'
r = requests.get(url)

r = response object，它包含有關請求的信息  
使用`status_code`屬性查看狀態碼  
使用`request.headers`查看請求標頭
使用`request.body`查看請求正文
使用`headers`查看response header

In [5]:
# 查看狀態碼
r.status_code

200

# 查看請求標頭
r.request.headers

In [9]:
# 查看請求正文
r.request.body
# Get請求沒有正文，因此沒有得到任何東西:None

In [11]:
# 查看回應標頭
header = r.headers
header

{'Content-Security-Policy': 'upgrade-insecure-requests', 'x-frame-options': 'SAMEORIGIN', 'Last-Modified': 'Fri, 28 Jun 2024 05:38:01 GMT', 'ETag': '"16990-61beca69c8c00-gzip"', 'Accept-Ranges': 'bytes', 'Content-Type': 'text/html;charset=utf-8', 'X-Content-Type-Options': 'nosniff', 'Cache-Control': 'max-age=600', 'Expires': 'Fri, 28 Jun 2024 05:57:56 GMT', 'X-Akamai-Transformed': '9 12611 0 pmb=mTOE,2', 'Content-Encoding': 'gzip', 'Date': 'Fri, 28 Jun 2024 05:47:56 GMT', 'Content-Length': '12805', 'Connection': 'keep-alive', 'Vary': 'Accept-Encoding', 'Strict-Transport-Security': 'max-age=31536000'}

In [12]:
# 使用密鑰日期獲取請求發送的日期
header['date']

'Fri, 28 Jun 2024 05:47:56 GMT'

In [14]:
# 表示數據類型
header['Content-Type']

'text/html;charset=utf-8'

In [15]:
# 檢查編碼
r.encoding

'utf-8'

In [16]:
# 因為檔案類型為text/html，可以使用文本屬性在正文中顯示HTML,查看前100個字符
r.text[0:100]

'\n<!DOCTYPE HTML>\n<html lang="en-us">\n<head>\r\n    \r\n    \r\n    \r\n    \r\n    \r\n    \r\n    \r\n    <meta cha'

# Get requests with URL parameters
向服務器發送GET請求，在路由器中有Base URL，附加/get，表明想執行GET請求。  
![image.png](attachment:f30b4099-866c-4f20-b40f-dd211eed635a.png)

# Query string
請求get後，獲取查詢字串符，這是URL的統一資源，他會向網路服務器發送其他信息。  
查詢的開頭是?接著是一系列參數和值對，第一個參數名稱是Name,值是Joseph; 第二個參數名稱是ID,值是123，值對由&分隔。
![image.png](attachment:50efe0bf-edf3-42b3-9a15-0f8f60854414.png)


In [21]:
url_get = 'http://httpbin.org/get'
# 使用字典，創建Query字符串
payload = {"name":"Joseph","ID":"123"}
# 將Query字符串傳給get()函數的參數的參數
r = requests.get(url_get,params=payload)

# 印出URL查看名稱和值
print("r.url:", r.url)
# 印出請求正文，但因為信息是通過URL發送的，因此正文的值為None
print("r.request.body:", r.request.body)
# 印出狀態碼
print("r.status_code:", r.status_code)
# 印出response文本
print("r.text:",r.text)
# 查看內容類型
print("Content-Type:",r.headers['Content-Type'])

r.url: http://httpbin.org/get?name=Joseph&ID=123
r.request.body: None
r.status_code: 200
r.text: {
  "args": {
    "ID": "123", 
    "name": "Joseph"
  }, 
  "headers": {
    "Accept": "*/*", 
    "Accept-Encoding": "gzip, deflate, br, zstd", 
    "Content-Length": "0", 
    "Host": "httpbin.org", 
    "User-Agent": "python-requests/2.31.0", 
    "X-Amzn-Trace-Id": "Root=1-667e56e2-70e2c61926fb43e3712ea115"
  }, 
  "origin": "36.237.32.16", 
  "url": "http://httpbin.org/get?name=Joseph&ID=123"
}

Content-Type: application/json


In [22]:
# 因為Content-Type在JOSN中，使用json()方法對其進行格式化，返回一個python字典
r.json()

{'args': {'ID': '123', 'name': 'Joseph'},
 'headers': {'Accept': '*/*',
  'Accept-Encoding': 'gzip, deflate, br, zstd',
  'Content-Length': '0',
  'Host': 'httpbin.org',
  'User-Agent': 'python-requests/2.31.0',
  'X-Amzn-Trace-Id': 'Root=1-667e56e2-70e2c61926fb43e3712ea115'},
 'origin': '36.237.32.16',
 'url': 'http://httpbin.org/get?name=Joseph&ID=123'}

In [23]:
# 密鑰'args'具有查詢字符串的名稱和值
r.json()['args']

{'ID': '123', 'name': 'Joseph'}

# Post requests
和GET請求一樣，POST請求用於向服務器發送數據，但POST請求在請求正文中發送數據，而不是URL。

此端點將期望數據，這是一種配置HTTP請求向伺服器發送數據的便捷方式。我們有一個有效載荷字典。要發送POST請求，我們使用post()函數。將變量payload傳遞給參數data。比較GET和POST請求的響應對象的屬性url，我們看到POST請求的URL中沒有名稱或值對。我們可以比較POST和GET請求的主體。我們只看到POST請求有主體，我們可以查看鍵form來獲取有效載荷。

In [28]:
# 為了在URL中發送POST Request，將路由器改為POST
url_post = 'http://httpbin.org/post'
# 使用字典，創建Query字符串
payload = {"name":"Joseph","ID":"123"}
# 將Query字符串傳給post()函數的參數data
r_post = requests.post(url_get,data=payload)

# # 印出URL查看名稱和值
# print("r_post.url:", r_post.url)
# # 印出請求正文，但因為信息是通過URL發送的，因此正文的值為None
# print("r_post.request.body:", r_post.request.body)
# # 印出狀態碼
# print("r_post.status_code:", r_post.status_code)
# # 印出response文本
# print("r_post.text:",r_post.text)
# # 查看內容類型
# print("Content-Type:",url_post.headers['Content-Type'])

#### 比較POST、GET

In [33]:
print("Post request body:", r_post.request.body)
print("Get request body:", r.request.body)

Post request body: name=Joseph&ID=123
Get request body: None


In [34]:
print("Post request URL:", r_post.url)
print("Get request URL:",r.url)

Post request URL: http://httpbin.org/get
Get request URL: http://httpbin.org/get?name=Joseph&ID=123


In [36]:
# 查看密鑰表單來獲取有效載荷
r_post.json()['form']

JSONDecodeError: Expecting value: line 1 column 1 (char 0)

## Web Scraping and HTML Basics
### HTML 結構
超文本標記語言（HTML）是網頁的基礎。理解其結構對於網頁抓取非常重要。
* <code style='color:red'>&lthtml&gt</code> 是 HTML 頁面的根元素。
* <code style='color:red'>&lthead&gt</code> 包含有關 HTML 頁面的元信息。
* <code style='color:red'>&ltbody&gt</code> 顯示網頁上的內容，通常是感興趣的數據。
* <code style='color:red'>&lth3&gt</code> 標籤是三級標題，使文本更大且加粗，通常用於顯示玩家姓名。
* <code style='color:red'>&ltp&gt</code> 標籤代表段落，包含玩家薪水信息。
  ![image.png](attachment:f89e23b6-51ea-4229-a6af-9dedc84a4166.png)![image.png](attachment:69cc9d58-34f5-47dc-9ef1-dc44ebe16379.png)

### HTML 標籤的組成
HTML 標籤定義了網頁內容的結構，並且可以包含屬性。

* HTML 標籤由開始標籤和結束標籤組成。
* 標籤有名稱，例如 <code style='color:red'>&lta&gt</code> 是錨點標籤。
* 標籤可以包含屬性，屬性由屬性名稱和屬性值組成，提供給標籤額外的信息。

### HTML 文件樹
您可以將 HTML 文件視為樹狀結構，其中標籤作為節點。

* 標籤可以包含字符串和其他標籤，這些標籤是該標籤的子節點。  
* 位於同一父標籤內的標籤被視為兄弟節點。  
* 例如，<code style='color:red'>&lthtml&gt</code> 標籤包含 <code style='color:red'>&lthead&gt</code> 和 <code style='color:red'>&ltbody&gt</code> 標籤，使它們成為 <code style='color:red'>&lthtml&gt</code> 的後代，但同時也是 <code style='color:red'>&lthtml&gt</code> 的子節點。 <code style='color:red'>&lthead&gt</code> 和 <code style='color:red'>&ltbody&gt</code> 是兄弟節點。
  ![image.png](attachment:a71a9153-f6eb-437d-a6a7-09fe24b621b3.png)![image.png](attachment:f2ab477f-d559-48bf-a9a1-6a641224acae.png)

### HTML tables
HTML 表格對於呈現結構化數據非常重要。

* 使用 <code style='color:red'>&lttable&gt</code> 標籤定義 HTML 表格。
* 每一行使用 <code style='color:red'>&lttr&gt</code> 標籤定義。
* 第一行通常使用表頭標籤，通常為 <code style='color:red'>&ltth&gt</code>。
* 表格中的每個單元格由 <code style='color:red'>&lttd&gt</code> 標籤表示，定義一行中的個別單元格。
  ![image.png](attachment:9081e616-161e-4d41-81ab-35ce0f934714.png)![image.png](attachment:db1dc47b-0a85-405a-b3b1-86af7bbd99a6.png)

### 網頁爬蟲(Web scraping)
網頁爬蟲涉及使用 Python 從網頁提取信息。這可以節省時間並自動化數據收集。

#### 所需工具
網頁爬蟲需要 Python 代碼和兩個基本模組：Requests 和 Beautiful Soup。確保這兩個模組已安裝在您的 Python 環境中。)

In [38]:
# Import Beautiful Soup to parse the web page content
from bs4 import BeautifulSoup

#### 抓取和解析 HTML
要開始進行網頁爬蟲，首先需要抓取網頁的 HTML 內容，然後使用 Beautiful Soup 進行解析。以下是一個逐步的示例：

In [39]:
import requests
from bs4 import BeautifulSoup
# Specify the URL of the webpage you want to scrape
url = 'https://en.wikipedia.org/wiki/IBM'
# Send an HTTP GET request to the webpage
response = requests.get(url)
# Store the HTML content in a variable
html_content = response.text
# Create a BeautifulSoup object to parse the HTML
soup = BeautifulSoup(html_content, 'html.parser')
# Display a snippet of the HTML content
print(html_content[:500])

<!DOCTYPE html>
<html class="client-nojs vector-feature-language-in-header-enabled vector-feature-language-in-main-page-header-disabled vector-feature-sticky-header-disabled vector-feature-page-tools-pinned-disabled vector-feature-toc-pinned-clientpref-1 vector-feature-main-menu-pinned-disabled vector-feature-limited-width-clientpref-1 vector-feature-limited-width-content-enabled vector-feature-custom-font-size-clientpref-1 vector-feature-appearance-enabled vector-feature-appearance-pinned-clien


#### 導航 HTML 結構
BeautifulSoup 將 HTML 內容表示為類似樹狀結構，方便導航。您可以使用 find_all 等方法過濾和提取特定的 HTML 元素。例如，要找到所有的錨標籤 <code style='color:red'>&lta&gt</code> 並打印它們的文本內容，可以這樣做：

In [41]:
# Find all <a> tags (anchor tags) in the HTML
links = soup.find_all('a')
# Iterate through the list of links and print their text
for link in links:
    print(link.text)

Jump to content
Main page
Contents
Current events
Random article
About Wikipedia
Contact us
Donate
Help
Learn to edit
Community portal
Recent changes
Upload file








Search

Create account
Log in
 Create account
 Log in
learn more
Contributions
Talk

(Top)



1
History




2
Corporate affairs




2.1
Business trends




2.2
Headquarters and offices




3
Products and services




4
Research




5
Brand and reputation




6
People and culture




6.1
Employees




6.1.1
IBM alumni




6.2
Board and shareholders




7
See also




8
Notes




9
References




10
Further reading




11
External links


Afrikaans
Alemannisch
العربية
Asturianu
Azərbaycanca
تۆرکجه
বাংলা
閩南語 / Bân-lâm-gú
Башҡортса
Беларуская
Беларуская (тарашкевіца)
Български
Bosanski
Català
Чӑвашла
Čeština
Dansk
Deutsch
Eesti
Ελληνικά
Español
Esperanto
Euskara
فارسی
Français
Gaeilge
Galego
Gĩkũyũ
한국어
Հայերեն
हिन्दी
Hrvatski
Ido
Bahasa Indonesia
Interlingue
Íslenska
Italiano
עברית
Jawa
ಕನ್ನಡ
ქართული
Қазақша
Kiswahili
Kurd

#### 自定義數據提取
網頁抓取允許您導航 HTML 結構並根據需要提取特定信息。這個過程可能涉及找到特定的標籤、屬性或文本內容。

##### 使用 BeautifulSoup 進行 HTML 解析
Beautiful Soup 是一個強大的工具，可以幫助您導航和提取網頁的特定部分。它允許您根據標籤、屬性或文本查找元素，使您更容易提取所需的信息。

##### 使用 Pandas 的 read_html 提取表格
Pandas 是一個 Python 庫，提供了一個名為 read_html 的函數，可以自動從網站的表格中提取數據並以適合分析的格式呈現。這就像從網頁上提取一個表格並將其導入電子表格進行進一步分析。