## 載入函式庫
    利用import來載入 pandas 函式庫
    import pandas as pd , 其中 as pd 為保持程式碼簡潔，會利用「pd」簡寫來代替pandas全名

In [1]:
import pandas as pd

## 建立資料表 （DataFrame）
df為DataFrame簡寫，名稱可自行定義

透過 pd 的read_json()函式，指定 OpenData平臺提供之URL/API存取資料路徑來取得[PM2.5](https://opendata.epa.gov.tw/Data/Contents/AQI)資料

空氣品質指標(AQI)的空氣品質監測小時值(一般污染物,每日更新)為一個 82 列（rows） × 24 欄（columns）的資料表

輸出df可看出讀取的資料樣貌。

In [2]:
url_pm2.5 = 'http://opendata.epa.gov.tw/webapi/Data/REWIQA/?$orderby=SiteName&$skip=0&$top=1000&format=json'
df = pd.read_json(url_pm2.5)
df

Unnamed: 0,SiteName,County,AQI,Pollutant,Status,SO2,CO,CO_8hr,O3,O3_8hr,...,NO,WindSpeed,WindDirec,PublishTime,PM2.5_AVG,PM10_AVG,SO2_AVG,Longitude,Latitude,SiteId
0,二林,彰化縣,20,,良好,3,0.23,0.3,14,8,...,1.2,1.8,54,2020-05-20 08:00,6,19,3,120.409653,23.925175,35
1,三重,新北市,65,細懸浮微粒,普通,3.2,1.82,0.8,-,,...,54,,,2020-05-20 08:00,21,33,3,121.493806,25.072611,67
2,三義,苗栗縣,17,,良好,1.7,0.23,0.2,19,18,...,1.9,0.4,17,2020-05-20 08:00,4,13,2,120.758833,24.382942,27
3,土城,新北市,36,,良好,2.1,0.68,0.4,11,18,...,23,0.7,335,2020-05-20 08:00,11,29,1,121.451861,24.982528,5
4,士林,臺北市,58,細懸浮微粒,普通,1.9,0.58,0.4,26,29,...,6,2.9,96,2020-05-20 08:00,19,31,3,121.515389,25.105417,11
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
77,頭份,苗栗縣,24,,良好,1.5,0.39,0.3,15,11,...,3.8,1.2,108,2020-05-20 08:00,7,20,2,120.898572,24.696969,25
78,龍潭,桃園市,27,,良好,0.7,0.41,0.3,9.3,19,...,9.4,1.2,53,2020-05-20 08:00,8,22,2,121.216350,24.863869,21
79,豐原,臺中市,19,,良好,0.8,0.54,0.3,13,20,...,4,1.5,200,2020-05-20 08:00,4,13,1,120.741711,24.256586,28
80,關山,臺東縣,34,,良好,,-,,,37,...,,,,2020-05-20 08:00,6,5,,121.161933,23.045083,80


## 資料表資訊
    使用 df.info() 可以看到該資料表的資訊
    可以顯示有哪些columns、大小和資料類型等等

In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 82 entries, 0 to 81
Data columns (total 24 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   SiteName     82 non-null     object 
 1   County       82 non-null     object 
 2   AQI          82 non-null     object 
 3   Pollutant    82 non-null     object 
 4   Status       82 non-null     object 
 5   SO2          82 non-null     object 
 6   CO           82 non-null     object 
 7   CO_8hr       82 non-null     object 
 8   O3           82 non-null     object 
 9   O3_8hr       82 non-null     object 
 10  PM10         82 non-null     object 
 11  PM2.5        82 non-null     object 
 12  NO2          82 non-null     object 
 13  NOx          82 non-null     object 
 14  NO           82 non-null     object 
 15  WindSpeed    82 non-null     object 
 16  WindDirec    82 non-null     object 
 17  PublishTime  82 non-null     object 
 18  PM2.5_AVG    82 non-null     object 
 19  PM10_AVG  

## 資料表大小
使用 df.shap 可以看到該資料表大小

In [5]:
df.shape

(82, 24)

## 資料選擇
    df["欄位名稱"] -- 選取某一欄所有資料
    df["欄位名稱"] [start：stop] 只要選擇某幾筆資料（某幾列）

In [6]:
df["SiteName"]

0     二林
1     三重
2     三義
3     土城
4     士林
      ..
77    頭份
78    龍潭
79    豐原
80    關山
81    觀音
Name: SiteName, Length: 82, dtype: object

In [7]:
df["SiteName"][1:4] 

1    三重
2    三義
3    土城
Name: SiteName, dtype: object

在上面這一行程式碼內會先挑出SiteName這個column內所有資料

[0:4]則是我們之前在python語法內所提過的list sclice，會挑出間隔1和4之間的資料。

         0     1      2     3       4  
       二林   三重   三義   土城    士林
     0      1     2      3      4      5


## 選擇多項資料：
    選擇多項資料也非常得簡單，只需要把要選擇的資料用list的資料格式就可以了
    df[["欄位名稱1", "欄位名稱1"]]
    df[["欄位名稱1", "欄位名稱1"]][start:stop] 只要選擇某幾筆資料（某幾列）

In [8]:
df[["SiteName","Status", "PM2.5_AVG"]] // 選擇 SiteName，Status，PM2.5_AVG

Unnamed: 0,SiteName,Status,PM2.5_AVG
0,二林,良好,6
1,三重,普通,21
2,三義,良好,4
3,土城,良好,11
4,士林,普通,19
...,...,...,...
77,頭份,良好,7
78,龍潭,良好,8
79,豐原,良好,4
80,關山,良好,6


In [10]:
df[["SiteName","Status", "PM2.5_AVG"]][1:4]

Unnamed: 0,SiteName,Status,PM2.5_AVG
1,三重,普通,21
2,三義,良好,4
3,土城,良好,11


資料篩選
找出空氣品質良好的測站，我們可以用status來判斷

In [11]:
df["Status"] == "良好"

0      True
1     False
2      True
3      True
4     False
      ...  
77     True
78     True
79     True
80     True
81    False
Name: Status, Length: 82, dtype: bool

上面的結果可以看到若是空氣品質良好的測站則顯示True否則為False，接著我們以這個當作過濾器

In [15]:
fliter = (df["Status"] == "良好")
df[fliter]

Unnamed: 0,SiteName,County,AQI,Pollutant,Status,SO2,CO,CO_8hr,O3,O3_8hr,...,NO,WindSpeed,WindDirec,PublishTime,PM2.5_AVG,PM10_AVG,SO2_AVG,Longitude,Latitude,SiteId
0,二林,彰化縣,20,,良好,3,0.23,0.3,14,8,...,1.2,1.8,54,2020-05-20 08:00,6,19,3,120.409653,23.925175,35
2,三義,苗栗縣,17,,良好,1.7,0.23,0.2,19,18,...,1.9,0.4,17,2020-05-20 08:00,4,13,2,120.758833,24.382942,27
3,土城,新北市,36,,良好,2.1,0.68,0.4,11,18,...,23,0.7,335,2020-05-20 08:00,11,29,1,121.451861,24.982528,5
6,大里,臺中市,22,,良好,2.8,0.61,0.4,8,12,...,8.9,1.1,270,2020-05-20 08:00,7,17,3,120.677689,24.099611,30
8,大寮,高雄市,41,,良好,2.4,0.3,0.4,11,8,...,7.2,1.3,128,2020-05-20 08:00,13,32,7,120.425081,22.565747,51
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
76,橋頭,高雄市,23,,良好,2,0.63,0.3,5.9,14,...,12,2.3,99,2020-05-20 08:00,5,20,1,120.305689,22.757506,48
77,頭份,苗栗縣,24,,良好,1.5,0.39,0.3,15,11,...,3.8,1.2,108,2020-05-20 08:00,7,20,2,120.898572,24.696969,25
78,龍潭,桃園市,27,,良好,0.7,0.41,0.3,9.3,19,...,9.4,1.2,53,2020-05-20 08:00,8,22,2,121.216350,24.863869,21
79,豐原,臺中市,19,,良好,0.8,0.54,0.3,13,20,...,4,1.5,200,2020-05-20 08:00,4,13,1,120.741711,24.256586,28


In [25]:
df[fliter]["SiteName"]  # 選取某一欄

0     二林
2     三義
3     土城
6     大里
8     大寮
      ..
76    橋頭
77    頭份
78    龍潭
79    豐原
80    關山
Name: SiteName, Length: 66, dtype: object

In [22]:
df[fliter][["County","SiteName"]]  # 選取某些欄

Unnamed: 0,County,SiteName
0,彰化縣,二林
2,苗栗縣,三義
3,新北市,土城
6,臺中市,大里
8,高雄市,大寮
...,...,...
76,高雄市,橋頭
77,苗栗縣,頭份
78,桃園市,龍潭
79,臺中市,豐原
