## 載入函式庫
    利用import來載入 pandas 函式庫
    import pandas as pd , 其中 as pd 為保持程式碼簡潔，會利用「pd」簡寫來代替pandas全名

In [None]:
import numpy as np
import pandas as pd
pd.set_option("display.max_rows", 200)
pd.set_option("display.max_columns", 100)

## 建立資料表 （DataFrame）
df為DataFrame簡寫，名稱可自行定義

透過 pd 的read_json()函式，指定 OpenData平臺提供之URL/API存取資料路徑來取得[PM2.5](https://opendata.epa.gov.tw/Data/Contents/AQI)資料

空氣品質指標(AQI)的空氣品質監測小時值(一般污染物,每日更新)為一個 82 列（rows） × 24 欄（columns）的資料表

輸出df可看出讀取的資料樣貌。

In [None]:
url_pm2 = 'http://opendata.epa.gov.tw/webapi/Data/REWIQA/?$orderby=SiteName&$skip=0&$top=1000&format=csv'
df = pd.read_csv(url_pm2)
df

## 資料表資訊
    使用 df.info() 可以看到該資料表的資訊
    可以顯示有哪些columns、大小和資料類型等等

In [None]:
df.info()

In [None]:
df.isnull() 


In [None]:
# Pandas尋找空值的位置，並列出空值位置
for columname in df.columns:
      if df[columname].count() != len(df):
        loc = df[columname][df[columname].isnull().values==True].index.tolist()
        print('行名："{}", 第{}列位置有缺失值'.format(columname,loc))
        print("\n")


## 資料表大小
使用 df.shap 可以看到該資料表大小

In [None]:
df.shape

## 資料選擇
    df["欄位名稱"] -- 選取某一欄所有資料
    df["欄位名稱"] [start：stop] 只要選擇某幾筆資料（某幾列）

In [None]:
df["SiteName"]

In [None]:
df["SiteName"][1:4] 

在上面這一行程式碼內會先挑出SiteName這個column內所有資料

[0:4]則是我們之前在python語法內所提過的list sclice，會挑出間隔1和4之間的資料。

         0     1      2     3       4  
       二林   三重   三義   土城    士林
     0      1     2      3      4      5


## 選擇多項資料：
    選擇多項資料也非常得簡單，只需要把要選擇的資料用list的資料格式就可以了
    df[["欄位名稱1", "欄位名稱1"]]
    df[["欄位名稱1", "欄位名稱1"]][start:stop] 只要選擇某幾筆資料（某幾列）

In [None]:
df[["SiteName","Status", "PM2.5_AVG"]] #選擇 SiteName，Status，PM2.5_AVG

In [None]:
df[["SiteName","Status", "PM2.5_AVG"]][1:4]

資料篩選
找出空氣品質良好的測站，我們可以用status來判斷

In [None]:
df["Status"] == "良好"

上面的結果可以看到若是空氣品質良好的測站則顯示True否則為False，接著我們以這個當作過濾器

In [None]:
fliter = (df["Status"] == "良好")
df[fliter]

In [None]:
df[fliter]["SiteName"]  # 選取某一欄

In [None]:
df[fliter][["County","SiteName"]]  # 選取某些欄