# Ch04 Pandas 基礎操作

# 安裝 pandas
若有語法不了解的地方，可以參考以下連結:
- [API reference](https://pandas.pydata.org/docs/reference/index.html)
- [Pandas Tutorial](https://www.w3schools.com/python/pandas/default.asp)
- [Pandas 教程](https://www.runoob.com/pandas/pandas-tutorial.html)

In [2]:
# 安裝套件
!pip install pandas

Defaulting to user installation because normal site-packages is not writeable


In [1]:
import numpy as np
import pandas as pd

In [4]:
pd.__version__

'1.5.0'

In [6]:
'''建立「2020 ~ 2023」年「臺北、臺中、高雄」某月平均溫度 的 dataframe'''

# 建立欄位
years = range(2020, 2024)

# 臺北、臺中、高雄 某個月的平均溫度
taipei = pd.Series([20, 21, 19, 21], index = years)
taichung = pd.Series([25, 26, 27, 28], index = years)
kaohsiung = pd.Series([30, 29, 31, 32], index = years)

# 建立 dataframe (axis=0 是上下合併，axis=1 是左右合併)
df = pd.concat([taipei, taichung, kaohsiung], axis=1)

# 設定欄位
df.columns = ['taipei', 'taichung', 'kaohsiung']; df

Unnamed: 0,taipei,taichung,kaohsiung
2020,20,25,30
2021,21,26,29
2022,19,27,31
2023,21,28,32


## DataFrame 屬性描述 

In [5]:
# 基本資訊 (資料型態, 空缺值數量, 表頭欄位..)
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 2020 to 2023
Data columns (total 3 columns):
 #   Column     Non-Null Count  Dtype
---  ------     --------------  -----
 0   taipei     4 non-null      int64
 1   taichung   4 non-null      int64
 2   kaohsiung  4 non-null      int64
dtypes: int64(3)
memory usage: 228.0 bytes


In [12]:
# 統計資訊 (descriptive statistics)
df.describe()

Unnamed: 0,taipei,taichung,kaohsiung
count,4.0,4.0,4.0
mean,20.25,26.5,30.5
std,0.957427,1.290994,1.290994
min,19.0,25.0,29.0
25%,19.75,25.75,29.75
50%,20.5,26.5,30.5
75%,21.0,27.25,31.25
max,21.0,28.0,32.0


In [15]:
# head 預設顯示前 5 row，可手動改值
df.head(2)

Unnamed: 0,taipei,taichung,kaohsiung
2020,20,25,30
2021,21,26,29


In [16]:
# 同 head，tail 亦可改顯示筆數
df.tail(2)

Unnamed: 0,taipei,taichung,kaohsiung
2022,19,27,31
2023,21,28,32


In [10]:
# show columns names
df.columns

pandas.core.indexes.base.Index

In [19]:
# show index names
df.index

RangeIndex(start=2020, stop=2024, step=1)

In [23]:
# 取 dataFrame values (return an array)
df.values

array([[20, 25, 30],
       [21, 26, 29],
       [19, 27, 31],
       [21, 28, 32]])

In [22]:
# transposing dataFrame
df.T

Unnamed: 0,2020,2021,2022,2023
taipei,20,21,19,21
taichung,25,26,27,28
kaohsiung,30,29,31,32


## 直接索引 (indexing)
直接使用 `df[index 或 key]`，來取得對應的行或列的資料。

In [24]:
df

Unnamed: 0,taipei,taichung,kaohsiung
2020,20,25,30
2021,21,26,29
2022,19,27,31
2023,21,28,32


In [26]:
df["taipei"]

2020    20
2021    21
2022    19
2023    21
Name: taipei, dtype: int64

In [27]:
df[["taipei","taichung"]]

Unnamed: 0,taipei,taichung
2020,20,25
2021,21,26
2022,19,27
2023,21,28


In [28]:
# 抓第0筆資料
df[:1]

Unnamed: 0,taipei,taichung,kaohsiung
2020,20,25,30


In [29]:
# 抓前三筆資料
df[:3]

Unnamed: 0,taipei,taichung,kaohsiung
2020,20,25,30
2021,21,26,29
2022,19,27,31


In [30]:
# 利用切片器取 -1 抓最後一筆資料
df[-1:]

Unnamed: 0,taipei,taichung,kaohsiung
2023,21,28,32


## 索引參照屬性 切片器(slicing)
<!-- - df.**at**: 使用 index (key) 和 columns **名稱** 來「取得或設定」單一元素內容或陣列內容。
- df.**iat**: 使用 index (key) 和 columns **編號** 來「取得或設定」單一元素內容。
- df.**loc**: 使用 index (key) 或 columns **名稱** 來「取得或設定」整個 row 或 columns 的資料或陣列內容。
- df.**iloc**: 使用 index (key) 或 columns **編號** 來「取得或設定」整個 row 或 columns 的資料。

i.e. -->
* 點抓：
    * `.at[]`: 用 key 與 header 名抓
    * `.iat[]`: 用座標抓 (同 matrix 取值法) <br>
    _i: index_
* 點、群抓兩用：
    * `.loc[]`: key、header 名抓單/多項
    * `.iloc[]`: 座標 (或 slice 法) 抓單/多項

In [35]:
df

Unnamed: 0,taipei,taichung,kaohsiung
2020,20,25,30
2021,21,26,29
2022,19,27,31
2023,21,28,32


In [37]:
# 使用 at: 取得 row 是 2020 且 column 是 taipei 的值
df.at[2020, 'taipei'] # 一步抓到值，效能較高
# 等價於 df['taipei'][2020] # 先抓 taipei 再取 2020，兩步抓到值 (效能較低)

np.int64(20)

In [39]:
'''
index 是 zero-based
i = index

'''
print(df)
df.iat[1, 1]

      taipei  taichung  kaohsiung
2020      20        25         30
2021      21        26         29
2022      19        27         31
2023      21        28         32


np.int64(26)

In [40]:
# 使用 loc: 取得 row 是 2021 的資料
'''
只有指定 2021，所以回傳 series 型態
'''
print(df)
df.loc[2021,]


      taipei  taichung  kaohsiung
2020      20        25         30
2021      21        26         29
2022      19        27         31
2023      21        28         32


taipei       21
taichung     26
kaohsiung    29
Name: 2021, dtype: int64

In [41]:
# 使用 iloc: 取得 row 是 0 的資料
'''
只有指定 [0]，所以回傳 series
'''
df.iloc[0]

taipei       20
taichung     25
kaohsiung    30
Name: 2020, dtype: int64

In [42]:
# 使用 loc: 取得 row 是 2020 和 2023 的資料
'''
指定兩個 row，column 沒給 => 視為全選
loc 預設為 row 的 key or index
'''
df.loc[[2020, 2023]]

Unnamed: 0,taipei,taichung,kaohsiung
2020,20,25,30
2023,21,28,32


In [43]:
# 使用 loc: 取得 row 是 2021 到 2023、column 是 taichung 到 kaohsiung 的資料
'''
沒有 slicing 有關 end 需要減 1 的問題
'''

df.loc[2021:2023, ["taichung","kaohsiung"]]

Unnamed: 0,taichung,kaohsiung
2021,26,29
2022,27,31
2023,28,32


In [45]:
# masking + fancy index
# 取 taipei 為 21 度，對應的台中、高雄 rows
df.loc[df['taipei'] == 21, ['taichung', 'kaohsiung']]

Unnamed: 0,taichung,kaohsiung
2021,26,29
2023,28,32


## 條件篩選器(Filter)

In [46]:
# 取得 taipei 溫度大於 20 的資料
'''
類似在 df 索引位置進行邏輯判斷
'''
# 由 df[sth] 產相同大小的 mask，以之為 filter 濾出想要的值
df[ df['taipei'] > 20 ]

Unnamed: 0,taipei,taichung,kaohsiung
2021,21,26,29
2023,21,28,32


In [47]:
# 取得 taipei 溫度大於 20、高雄溫度大於 30 的資料
'''
判斷陳述句，要用括號包起來

&: and
|: or
'''
df[ (df['taipei'] > 20) & (df['kaohsiung'] > 30) ]

Unnamed: 0,taipei,taichung,kaohsiung
2023,21,28,32
