## 載入函式庫
    利用import來載入 pandas 函式庫
    import pandas as pd , 其中 as pd 為保持程式碼簡潔，會利用「pd」簡寫來代替pandas全名

In [39]:
import numpy as np
import pandas as pd
pd.set_option("display.max_rows", 200)
pd.set_option("display.max_columns", 100)

## 建立資料表 （DataFrame）
df為DataFrame簡寫，名稱可自行定義

透過 pd 的read_json()函式，指定 OpenData平臺提供之URL/API存取資料路徑來取得[PM2.5](https://opendata.epa.gov.tw/Data/Contents/AQI)資料

空氣品質指標(AQI)的空氣品質監測小時值(一般污染物,每日更新)為一個 82 列（rows） × 24 欄（columns）的資料表

輸出df可看出讀取的資料樣貌。

In [30]:
url_pm2 = 'http://opendata.epa.gov.tw/webapi/Data/REWIQA/?$orderby=SiteName&$skip=0&$top=1000&format=csv'
df = pd.read_csv(url_pm2)
df

Unnamed: 0,SiteName,County,AQI,Pollutant,Status,SO2,CO,CO_8hr,O3,O3_8hr,...,NO,WindSpeed,WindDirec,PublishTime,PM2.5_AVG,PM10_AVG,SO2_AVG,Longitude,Latitude,SiteId
0,二林,彰化縣,28.0,,良好,1.7,0.18,0.2,41,30.0,...,0.8,3.2,235.0,2020-05-20 14:00,5.0,16.0,3.0,120.409653,23.925175,35
1,三重,新北市,54.0,細懸浮微粒,普通,2.2,1.19,1.3,-,,...,34.0,,,2020-05-20 14:00,17.0,23.0,3.0,121.493806,25.072611,67
2,三義,苗栗縣,30.0,,良好,2.6,0.27,0.2,55,32.0,...,1.2,0.4,333.0,2020-05-20 14:00,5.0,12.0,2.0,120.758833,24.382942,27
3,土城,新北市,37.0,,良好,1.5,0.38,0.5,44,33.0,...,1.9,0.9,0.6,2020-05-20 14:00,11.0,22.0,1.0,121.451861,24.982528,5
4,士林,臺北市,39.0,,良好,1.2,0.28,0.4,51,42.0,...,1.7,2.5,94.0,2020-05-20 14:00,12.0,19.0,2.0,121.515389,25.105417,11
5,大同,臺北市,45.0,,良好,2.3,0.56,1.0,-,,...,12.0,,,2020-05-20 14:00,14.0,25.0,3.0,121.513311,25.0632,16
6,大里,臺中市,33.0,,良好,2.2,0.2,0.4,48,36.0,...,1.2,2.4,229.0,2020-05-20 14:00,6.0,15.0,3.0,120.677689,24.099611,30
7,大園,桃園市,49.0,,良好,2.9,0.28,0.5,48,30.0,...,4.0,3.5,76.0,2020-05-20 14:00,15.0,30.0,4.0,121.201811,25.060344,18
8,大寮,高雄市,35.0,,良好,,,0.2,,20.0,...,,3.2,104.0,2020-05-20 14:00,11.0,28.0,7.0,120.425081,22.565747,51
9,小港,高雄市,31.0,,良好,5.5,0.42,0.3,23,24.0,...,6.2,0.4,97.0,2020-05-20 14:00,9.0,34.0,3.0,120.337736,22.565833,58


## 資料表資訊
    使用 df.info() 可以看到該資料表的資訊
    可以顯示有哪些columns、大小和資料類型等等

In [9]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 82 entries, 0 to 81
Data columns (total 24 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   SiteName     82 non-null     object 
 1   County       82 non-null     object 
 2   AQI          81 non-null     float64
 3   Pollutant    10 non-null     object 
 4   Status       82 non-null     object 
 5   SO2          77 non-null     float64
 6   CO           79 non-null     object 
 7   CO_8hr       81 non-null     float64
 8   O3           76 non-null     object 
 9   O3_8hr       79 non-null     float64
 10  PM10         79 non-null     float64
 11  PM2.5        79 non-null     object 
 12  NO2          77 non-null     float64
 13  NOx          77 non-null     float64
 14  NO           77 non-null     float64
 15  WindSpeed    76 non-null     float64
 16  WindDirec    76 non-null     float64
 17  PublishTime  82 non-null     object 
 18  PM2.5_AVG    81 non-null     float64
 19  PM10_AVG  

In [49]:
df.isnull() 


Unnamed: 0,SiteName,County,AQI,Pollutant,Status,SO2,CO,CO_8hr,O3,O3_8hr,PM10,PM2.5,NO2,NOx,NO,WindSpeed,WindDirec,PublishTime,PM2.5_AVG,PM10_AVG,SO2_AVG,Longitude,Latitude,SiteId
0,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False,True,True,False,False,False,False,False,False,False
2,False,False,False,True,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False
3,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
4,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
5,False,False,False,True,False,False,False,False,False,True,False,False,False,False,False,True,True,False,False,False,False,False,False,False
6,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
7,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
8,False,False,False,True,False,True,True,False,True,False,False,False,True,True,True,False,False,False,False,False,False,False,False,False
9,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False


In [43]:
# Pandas尋找空值的位置，並列出空值位置
for columname in df.columns:
      if df[columname].count() != len(df):
        loc = df[columname][df[columname].isnull().values==True].index.tolist()
        print('行名："{}", 第{}列位置有缺失值'.format(columname,loc))
        print("\n")


行名："AQI", 第[80]列位置有缺失值


行名："Pollutant", 第[0, 2, 3, 4, 5, 6, 7, 8, 9, 10, 12, 13, 14, 15, 16, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 34, 35, 36, 37, 38, 39, 40, 41, 42, 44, 46, 47, 48, 49, 50, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80]列位置有缺失值


行名："SO2", 第[8, 57, 78, 80, 81]列位置有缺失值


行名："CO", 第[8, 57, 78, 81]列位置有缺失值


行名："CO_8hr", 第[78, 80]列位置有缺失值


行名："O3", 第[8, 78, 80, 81]列位置有缺失值


行名："O3_8hr", 第[1, 5, 78, 80]列位置有缺失值


行名："PM10", 第[21, 57, 78, 80, 81]列位置有缺失值


行名："PM2.5", 第[2, 11, 19, 57, 78, 80, 81]列位置有缺失值


行名："NO2", 第[8, 21, 57, 78, 80, 81]列位置有缺失值


行名："NOx", 第[8, 21, 57, 78, 80, 81]列位置有缺失值


行名："NO", 第[8, 21, 57, 78, 80, 81]列位置有缺失值


行名："WindSpeed", 第[1, 5, 48, 55, 78, 80]列位置有缺失值


行名："WindDirec", 第[1, 5, 48, 55, 78, 80]列位置有缺失值


行名："PM2.5_AVG", 第[78, 80]列位置有缺失值


行名："PM10_AVG", 第[78, 80]列位置有缺失值


行名："SO2_AVG", 第[78, 80]列位置有缺失值




## 資料表大小
使用 df.shap 可以看到該資料表大小

In [None]:
df.shape

## 資料選擇
    df["欄位名稱"] -- 選取某一欄所有資料
    df["欄位名稱"] [start：stop] 只要選擇某幾筆資料（某幾列）

In [None]:
df["SiteName"]

In [None]:
df["SiteName"][1:4] 

在上面這一行程式碼內會先挑出SiteName這個column內所有資料

[0:4]則是我們之前在python語法內所提過的list sclice，會挑出間隔1和4之間的資料。

         0     1      2     3       4  
       二林   三重   三義   土城    士林
     0      1     2      3      4      5


## 選擇多項資料：
    選擇多項資料也非常得簡單，只需要把要選擇的資料用list的資料格式就可以了
    df[["欄位名稱1", "欄位名稱1"]]
    df[["欄位名稱1", "欄位名稱1"]][start:stop] 只要選擇某幾筆資料（某幾列）

In [None]:
df[["SiteName","Status", "PM2.5_AVG"]] // 選擇 SiteName，Status，PM2.5_AVG

In [None]:
df[["SiteName","Status", "PM2.5_AVG"]][1:4]

資料篩選
找出空氣品質良好的測站，我們可以用status來判斷

In [None]:
df["Status"] == "良好"

上面的結果可以看到若是空氣品質良好的測站則顯示True否則為False，接著我們以這個當作過濾器

In [None]:
fliter = (df["Status"] == "良好")
df[fliter]

In [None]:
df[fliter]["SiteName"]  # 選取某一欄

In [None]:
df[fliter][["County","SiteName"]]  # 選取某些欄