# Pandas由入門到進階

## 宣告資料

Pandas常用的資料類型有：
1. Series：一維陣列的資料，列(index)為資料儲存順序
2. DataFrame：二維的資料陣列，由列(index)及欄(column)組合而成

Pandas模組匯入

```
import pandas as pd
```

### Series 一維資料

```
se = pd.Series(串列)
```

In [15]:
# 宣告
import pandas as pd

# 一維資料 Series
price = [100, 50, 120, 80, 30]
se = pd.Series(price)
se
# 取得索引及值
se.index
se.values

array([100,  50, 120,  80,  30], dtype=int64)

In [16]:
# 取得數值資料的統計資訊
se.describe()

count      5.000000
mean      76.000000
std       36.469165
min       30.000000
25%       50.000000
50%       80.000000
75%      100.000000
max      120.000000
dtype: float64

In [17]:
# 統計：加總、最小值、最大值、平均值、中位數

print(se.sum())
print(se.min())
print(se.max())
print(se.mean())
print(se.median())

380
30
120
76.0
80.0


In [30]:
# 取值 loc(用索引名稱),iloc(用索引值)
print(f'loc:{se.loc[0]}')
print(f'loc:{se.loc[1]}')
print(f'iloc:{se.iloc[0]}')
print(f'iloc:{se.iloc[1]}')

loc:100
loc:50
iloc:100
iloc:50


In [31]:
fruits = ['Apple', 'Banana', 'Cherry', 'Orange', 'Tomato']
prices = [100, 50, 120, 80, 30]

se2 = pd.Series(price, index = fruits)
print(se2)

Apple     100
Banana     50
Cherry    120
Orange     80
Tomato     30
dtype: int64


In [32]:
print(se2.iloc[0])
print(se2.loc['Apple'])

print(se2.iloc[3])
print(se2.loc['Orange'])

100
100
80
80


### DataFrame 二維資料

```
df = pd.DataFrame(字典)
```

範例資料:

```
{
  "姓名":["林小明", "陳聰明", "黃美麗", "張小娟", "廖小誠"],
  "國文":[65,92,78,83,70],
  "英文":[90,72,76,93,56],
  "數學":[81,85,91,89,77],
  "社會":[79,53,47,94,80]
}
```

In [35]:
# 定義資料
import pandas as pd
df = pd.DataFrame({
  "姓名":["林小明", "陳聰明", "黃美麗", "張小娟", "廖小誠"],
  "國文":[65,92,78,83,70],
  "英文":[90,72,76,93,56],
  "數學":[81,85,91,89,77],
  "社會":[79,53,47,94,80]
})
print(df)
df

    姓名  國文  英文  數學  社會
0  林小明  65  90  81  79
1  陳聰明  92  72  85  53
2  黃美麗  78  76  91  47
3  張小娟  83  93  89  94
4  廖小誠  70  56  77  80


Unnamed: 0,姓名,國文,英文,數學,社會
0,林小明,65,90,81,79
1,陳聰明,92,72,85,53
2,黃美麗,78,76,91,47
3,張小娟,83,93,89,94
4,廖小誠,70,56,77,80


In [41]:
# 顯示 index , columns
print(df.index)
print('-' * 70)
print(df.columns)
print('-' * 70)
# 取得所有的值
print(df.values)

RangeIndex(start=0, stop=5, step=1)
----------------------------------------------------------------------
Index(['姓名', '國文', '英文', '數學', '社會'], dtype='object')
----------------------------------------------------------------------
[['林小明' 65 90 81 79]
 ['陳聰明' 92 72 85 53]
 ['黃美麗' 78 76 91 47]
 ['張小娟' 83 93 89 94]
 ['廖小誠' 70 56 77 80]]


In [56]:
# 資料資訊 shape (row, column), describe(), info()
print(df.shape)
print('-' * 70)
print(df.describe())
print('-' * 70)
print(df.info())
print('-' * 70)
print(df)
df

(5, 5)
----------------------------------------------------------------------
              國文         英文         數學         社會
count   5.000000   5.000000   5.000000   5.000000
mean   77.600000  77.400000  84.600000  70.600000
std    10.644247  14.926487   5.727128  19.831793
min    65.000000  56.000000  77.000000  47.000000
25%    70.000000  72.000000  81.000000  53.000000
50%    78.000000  76.000000  85.000000  79.000000
75%    83.000000  90.000000  89.000000  80.000000
max    92.000000  93.000000  91.000000  94.000000
----------------------------------------------------------------------
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 5 columns):
姓名    5 non-null object
國文    5 non-null int64
英文    5 non-null int64
數學    5 non-null int64
社會    5 non-null int64
dtypes: int64(4), object(1)
memory usage: 328.0+ bytes
None
----------------------------------------------------------------------
    姓名  國文  英文  數學  社會
0  林小明  65  90  81  79
1  陳聰明  

Unnamed: 0,姓名,國文,英文,數學,社會
0,林小明,65,90,81,79
1,陳聰明,92,72,85,53
2,黃美麗,78,76,91,47
3,張小娟,83,93,89,94
4,廖小誠,70,56,77,80


In [55]:
## 取得列資料 索引, iloc, loc
print(df.iloc[1])
print('-' * 70)
print(df.iloc[4])
print('-' * 70)
print(df.loc[2])
print('-' * 70)
print(df.values[3])

姓名    陳聰明
國文     92
英文     72
數學     85
社會     53
Name: 1, dtype: object
----------------------------------------------------------------------
姓名    廖小誠
國文     70
英文     56
數學     77
社會     80
Name: 4, dtype: object
----------------------------------------------------------------------
姓名    黃美麗
國文     78
英文     76
數學     91
社會     47
Name: 2, dtype: object
----------------------------------------------------------------------
['張小娟' 83 93 89 94]


In [57]:
df

Unnamed: 0,姓名,國文,英文,數學,社會
0,林小明,65,90,81,79
1,陳聰明,92,72,85,53
2,黃美麗,78,76,91,47
3,張小娟,83,93,89,94
4,廖小誠,70,56,77,80


In [66]:
# 取得欄資料(單欄, 多欄)
print(df['姓名'])
print('-' * 70)
print(df['國文'])
print('-' * 70)
print(df[['國文','英文', '數學']])
print('-' * 70)
df[['姓名', '社會']]

0    林小明
1    陳聰明
2    黃美麗
3    張小娟
4    廖小誠
Name: 姓名, dtype: object
----------------------------------------------------------------------
0    65
1    92
2    78
3    83
4    70
Name: 國文, dtype: int64
----------------------------------------------------------------------
   國文  英文  數學
0  65  90  81
1  92  72  85
2  78  76  91
3  83  93  89
4  70  56  77
----------------------------------------------------------------------
   國文  英文  數學
0  65  90  81
1  92  72  85
2  78  76  91
3  83  93  89
4  70  56  77
----------------------------------------------------------------------


Unnamed: 0,姓名,社會
0,林小明,79
1,陳聰明,53
2,黃美麗,47
3,張小娟,94
4,廖小誠,80


In [68]:
df

Unnamed: 0,姓名,國文,英文,數學,社會
0,林小明,65,90,81,79
1,陳聰明,92,72,85,53
2,黃美麗,78,76,91,47
3,張小娟,83,93,89,94
4,廖小誠,70,56,77,80


In [74]:
# 取得指定欄列的資料(儲存格)
print(df.values[2])
print('-' * 70)
print(df.values[2, 3])
print('-' * 70)
print(df.iloc[2][3])
print('-' * 70)
print(df.loc[2]['數學'])
print('+' * 70)
# 張小娟的社會成績
print(df.values[3])
print('-' * 70)
print(df.values[3, 4])
print('-' * 70)
print(df.iloc[3][4])
print('-' * 70)
print(df.loc[3]['社會'])

['黃美麗' 78 76 91 47]
----------------------------------------------------------------------
91
----------------------------------------------------------------------
91
----------------------------------------------------------------------
91
++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
['張小娟' 83 93 89 94]
----------------------------------------------------------------------
94
----------------------------------------------------------------------
94
----------------------------------------------------------------------
94


In [75]:
# 取前幾名, 後幾名
print(df.head(3))
print('-' * 70)
print(df.tail(3))

    姓名  國文  英文  數學  社會
0  林小明  65  90  81  79
1  陳聰明  92  72  85  53
2  黃美麗  78  76  91  47
----------------------------------------------------------------------
    姓名  國文  英文  數學  社會
2  黃美麗  78  76  91  47
3  張小娟  83  93  89  94
4  廖小誠  70  56  77  80


In [76]:
df

Unnamed: 0,姓名,國文,英文,數學,社會
0,林小明,65,90,81,79
1,陳聰明,92,72,85,53
2,黃美麗,78,76,91,47
3,張小娟,83,93,89,94
4,廖小誠,70,56,77,80


In [90]:
# 篩選
print(df['姓名'] == '陳聰明')

print('-' * 70)

condition = df['姓名'] == '陳聰明'
print(df[condition])

print('-' * 70)

condition = df['英文'] > 80
print(df[condition])

print('-' * 70)

condition = (df['國文'] > 80) &  (df['英文'] > 80)
print(df[condition])

print('-' * 70)

condition = (df['國文'] > 80) |  (df['英文'] > 80)
print(df[condition])

0    False
1     True
2    False
3    False
4    False
Name: 姓名, dtype: bool
----------------------------------------------------------------------
    姓名  國文  英文  數學  社會
1  陳聰明  92  72  85  53
----------------------------------------------------------------------
    姓名  國文  英文  數學  社會
0  林小明  65  90  81  79
3  張小娟  83  93  89  94
----------------------------------------------------------------------
    姓名  國文  英文  數學  社會
3  張小娟  83  93  89  94
----------------------------------------------------------------------
    姓名  國文  英文  數學  社會
0  林小明  65  90  81  79
1  陳聰明  92  72  85  53
3  張小娟  83  93  89  94


In [27]:
# 設定某一欄為索引


In [28]:
# 黃美麗的數學成績


## 讀取資料

Pandas可以讀取本地或是網路上「表格式」的資料，如CSV、Excel、json、html，方法有：
1. read_csv()
2. read_excel()
3. read_json()
4. read_html()

## 專題:AQI空氣品質查詢

In [98]:
import pandas as pd
url = 'https://data.moenv.gov.tw/api/v2/aqx_p_432?api_key=e8dd42e6-9b8b-43f8-991e-b3dee723a52d&limit=1000&sort=ImportDate%20desc&format=CSV'

df = pd.read_csv(url)
df

Unnamed: 0,sitename,county,aqi,pollutant,status,so2,co,o3,o3_8hr,pm10,...,wind_speed,wind_direc,publishtime,co_8hr,pm2.5_avg,pm10_avg,so2_avg,longitude,latitude,siteid
0,基隆,基隆市,43,,良好,1.3,0.31,50.2,46.2,16.0,...,1,92,2024/04/25 17:00:00,0.2,7.0,12,1,121.760056,25.129167,1
1,汐止,新北市,33,,良好,1.4,0.38,31.2,36.9,19.0,...,1.4,43,2024/04/25 17:00:00,0.3,10.2,17,1,121.640810,25.066240,2
2,萬里,新北市,64,臭氧八小時,普通,1.1,0.31,64.9,59.7,45.0,...,2.7,50,2024/04/25 17:00:00,0.2,7.7,22,1,121.689881,25.179667,3
3,新店,新北市,52,細懸浮微粒,普通,0.9,0.50,44.8,36.5,30.0,...,0.7,143,2024/04/25 17:00:00,0.4,16.1,22,0,121.537778,24.977222,4
4,土城,新北市,54,細懸浮微粒,普通,1.8,0.47,42.3,40.0,34.0,...,0.3,141,2024/04/25 17:00:00,0.5,16.8,23,1,121.451861,24.982528,5
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
80,臺南(麻豆),臺南市,49,,良好,0.7,0.50,23.6,26.1,16.0,...,0.2,125,2024/04/25 17:00:00,0.3,15.2,21,0,120.245831,23.179047,203
81,屏東(琉球),屏東縣,45,,良好,0.3,0.23,46.3,49.7,13.0,...,3.1,333,2024/04/25 17:00:00,0.2,9.4,13,0,120.377220,22.352220,204
82,新北(樹林),新北市,45,,良好,1.1,0.46,31.5,22.8,31.0,...,0,1,2024/04/25 17:00:00,0.5,14.0,26,0,121.383528,24.949028,311
83,大甲（日南國小）,臺中市,45,,良好,0.9,0.34,50.8,49.9,37.0,...,1.6,46,2024/04/25 17:00:00,0.3,13.1,21,0,120.655254,24.390175,312


In [101]:
df2 = df[['sitename', 'county', 'aqi', 'status']]
df2

Unnamed: 0,sitename,county,aqi,status
0,基隆,基隆市,43,良好
1,汐止,新北市,33,良好
2,萬里,新北市,64,普通
3,新店,新北市,52,普通
4,土城,新北市,54,普通
...,...,...,...,...
80,臺南(麻豆),臺南市,49,良好
81,屏東(琉球),屏東縣,45,良好
82,新北(樹林),新北市,45,良好
83,大甲（日南國小）,臺中市,45,良好


In [110]:
# 查詢空氣品質的互動程式
target = input('請輸入要查詢的縣市')
condition = df2['county'] == target.replace('台', '臺')
print(df2[condition])
df2[condition]

請輸入要查詢的縣市台北市
   sitename county  aqi status
10       士林    臺北市   43     良好
11       中山    臺北市   39     良好
12       萬華    臺北市   47     良好
13       古亭    臺北市   47     良好
14       松山    臺北市   53     普通
15       大同    臺北市   60     普通
62       陽明    臺北市   43     良好


Unnamed: 0,sitename,county,aqi,status
10,士林,臺北市,43,良好
11,中山,臺北市,39,良好
12,萬華,臺北市,47,良好
13,古亭,臺北市,47,良好
14,松山,臺北市,53,普通
15,大同,臺北市,60,普通
62,陽明,臺北市,43,良好


In [107]:
condition = df2['status'] != '良好'
print(df2[condition])
df2[condition]

   sitename county  aqi    status
2        萬里    新北市   64        普通
3        新店    新北市   52        普通
4        土城    新北市   54        普通
14       松山    臺北市   53        普通
15       大同    臺北市   60        普通
33       線西    彰化縣   59        普通
34       二林    彰化縣   68        普通
35       南投    南投縣   51        普通
36       斗六    雲林縣   54        普通
37       崙背    雲林縣   62        普通
40       臺西    雲林縣   52        普通
42       新營    臺南市   51        普通
52       楠梓    高雄市   53        普通
65       三重    新北市   52        普通
66       中壢    桃園市   56        普通
67       竹山    南投縣   62        普通
68       永和    新北市   55        普通
71       馬祖    連江縣   64        普通
72       金門    金門縣  103  對敏感族群不健康
73       馬公    澎湖縣   84        普通
75       麥寮    雲林縣   62        普通
76      富貴角    新北市   87        普通
77       大城    彰化縣   54        普通
78   彰化（員林）    彰化縣   58        普通


Unnamed: 0,sitename,county,aqi,status
2,萬里,新北市,64,普通
3,新店,新北市,52,普通
4,土城,新北市,54,普通
14,松山,臺北市,53,普通
15,大同,臺北市,60,普通
33,線西,彰化縣,59,普通
34,二林,彰化縣,68,普通
35,南投,南投縣,51,普通
36,斗六,雲林縣,54,普通
37,崙背,雲林縣,62,普通


## 專題:中央氣象局地震測報中心

https://scweb.cwa.gov.tw/

https://scweb.cwa.gov.tw/zh-tw/earthquake/data

In [119]:
import pandas as pd
df = pd.read_csv('20240425.csv', header=1)
df.columns

Index(['編號', '地震時間', '經度', '緯度', '規模', '深度', '位置'], dtype='object')

In [124]:
condition = df['規模'] >= 5
df[condition]

Unnamed: 0,編號,地震時間,經度,緯度,規模,深度,位置
19,340,2024-04-25 02:12:17,122.362,24.0335,5.5,24.1,花蓮縣政府東方 75.7 公里 (位於臺灣東部海域)(臺灣東部海域)
20,339,2024-04-25 02:11:53,122.338,23.9128,5.6,18.5,花蓮縣政府東方 73.5 公里 (位於臺灣東部海域)(臺灣東部海域)
109,318,2024-04-23 10:21:00,121.548,23.8543,5.4,9.1,花蓮縣政府南南西方 16.8 公里 (位於花蓮縣壽豐鄉)(花蓮縣壽豐鄉)
117,317,2024-04-23 09:45:46,121.565,23.8118,5.4,8.5,花蓮縣政府南南西方 20.6 公里 (位於花蓮縣壽豐鄉)(花蓮縣壽豐鄉)
151,310,2024-04-23 08:11:02,121.605,23.9070,5.1,9.0,花蓮縣政府南方 9.4 公里 (位於花蓮縣近海)(花蓮縣近海)
...,...,...,...,...,...,...,...
1308,021,2024-04-03 08:11:26,121.659,24.1003,6.5,5.5,花蓮縣政府北北東方 12.7 公里 (位於花蓮縣近海)(花蓮縣近海)
1312,小區域有感地震,2024-04-03 08:02:23,121.659,24.1727,5.0,33.3,花蓮縣政府北北東方 20.5 公里 (位於花蓮縣近海)(花蓮縣近海)
1313,小區域有感地震,2024-04-03 08:01:51,121.601,23.9920,5.0,39.7,花蓮縣政府西方 2.0 公里 (位於花蓮縣花蓮市)(花蓮縣花蓮市)
1314,020,2024-04-03 08:00:18,121.670,23.8712,5.3,25.4,花蓮縣政府南南東方 14.2 公里 (位於花蓮縣近海)(花蓮縣近海)


## 專題:大專校院校別學生數統計


https://depart.moe.edu.tw/ed4500/News_Content.aspx?n=5A930C32CC6C3818&sms=91B3AAE8C6388B96&s=8AF80DB14ADF7370

In [144]:
import pandas as pd
url = 'https://stats.moe.gov.tw/files/detail/110/110_student.csv'

df = pd.read_csv(url)
df2 = df[['學校名稱', '日間∕進修別', '等級別', '總計', '男生計', '女生計', '縣市名稱']]
condition = df2['學校名稱'] == '國立臺北科技大學'
print(df2[condition]['總計'].sum())
print(df2[condition]['男生計'].sum())
print(df2[condition]['女生計'].sum())


13621
9968
3653


In [149]:
df2.groupby('學校名稱')['總計'].sum().sort_values(ascending=False).head(10)

學校名稱
國立臺灣大學      32923
國立高雄科技大學    27902
輔仁大學        25760
淡江大學        24534
中國文化大學      24503
國立成功大學      22406
逢甲大學        21393
國立陽明交通大學    20412
銘傳大學        18970
正修科技大學      17568
Name: 總計, dtype: int64