In [None]:
import numpy as np
import pandas as pd

# 索引參照屬性
- df.**at**: 使用 index (key) 和 columns **名稱** 來「取得或設定」單一元素內容或陣列內容。
- df.**iat**: 使用 index (key) 和 columns **編號** 來「取得或設定」單一元素內容。
- df.**loc**: 使用 index (key) 或 columns **名稱** 來「取得或設定」整個 row 或 columns 的資料或陣列內容。
- df.**iloc**: 使用 index (key) 或 columns **編號** 來「取得或設定」整個 row 或 columns 的資料。

In [None]:
'''建立「2020 ~ 2023」年「臺北、臺中、高雄」某月平均溫度 的 dataframe'''

# 建立欄位
years = range(2020, 2024)

# 臺北、臺中、高雄 某個月的平均溫度
taipei = pd.Series([20, 21, 19, 21], index=years)
taichung = pd.Series([25, 26, 27, 28], index=years)
kaohsiung = pd.Series([30, 29, 31, 32], index=years)

# 建立 dataframe (axis=0 是上下合併，axis=1 是左右合併)
df = pd.concat([taipei, taichung, kaohsiung], axis=1)

# 設定欄位
df.columns = ['taipei', 'taichung', 'kaohsiung']; df

In [None]:
# 使用 at: 取得 row 是 2020 且 column 是 taipei 的值
df.at[2020, 'taipei']

In [None]:
# 使用 at: 取得 row 是 2023 且 column 是 kaohsiung 的值
df.at[2023, 'kaohsiung']

In [None]:
# 使用 iat: 取得 row 是 2, column 是 1 的值
'''
index 是 zero-based
'''
df.iat[2, 1]

In [None]:
# 使用 loc: 取得 row 是 2021 的資料
'''
只有指定 2021，所以回傳 series 型態
'''
df.loc[2021]

In [None]:
# 使用 loc: 取得 row 是 2020 和 2023 的資料
'''
指定兩個 row，資料將自帶 column，回傳 dataframe
'''
df.loc[ [2020, 2023] ]

In [None]:
# 使用 loc: 取得 row 是 2021 到 2023、column 是 taichung 到 kaohsiung 的資料
'''
沒有 slicing 有關 end 需要減 1 的問題
'''
df.loc[2021:2023, "taichung":"kaohsiung"]

In [None]:
# 使用 iloc: 取得 row 是 0 的資料
'''
只有指定 [0]，所以回傳 series
'''
df.iloc[0]

# 直接索引
不用使用 df.at\[\]、df.loc\[\] 等方式取得資料，直接使用 `df[index 或 key]`，來取得對應的行或列的資料。

In [None]:
# 取得 column 為 taipei 的資料
df['taipei']

In [None]:
# 取得 column 是 taipei、row 是 2022 的資料
df['taipei'][2022]

In [None]:
# 取得 column 是 taipei 和 taichung 的資料
df[ ['taipei', 'taichung'] ]

In [None]:
# 取得 row 索引編號 1 ~ 2 的資料
'''
透過 slicing 方式取得資料
'''
df[1:3]

In [None]:
# 取得 row 索引編號 3 之前的資料
'''
透過 slicing 方式取得資料
'''
df[:3]

In [None]:
# 取得 taipei 溫度大於 20 的資料
'''
類似在 df 索引位置進行邏輯判斷
'''
df[ df['taipei'] > 20 ]

In [None]:
# 取得 taipei 溫度大於 20、高雄溫度大於 30 的資料
'''
判斷陳述句，要用括號包起來

&: and
|: or
'''
df[ (df['taipei'] > 20) & (df['kaohsiung'] > 30) ]

# 四則運算
- add(): 加法
- sub(): 減法
- mul(): 乘法
- div(): 除法

`註: series 跟 dataframe 都可以用`

In [None]:
# 初始化
df1 = pd.DataFrame([
    {'a': 15, 'b': 15}, 
    {'a': 12, 'b': 18}]
)
df2 = pd.DataFrame([
    {'a': 15, 'b': 13}, 
    {'a': 11, 'b': 22}]
)

In [None]:
df1

In [None]:
df2

In [None]:
# 加法
df = df1.add(df2); df

In [None]:
# 減法
df = df1.sub(df2); df

In [None]:
# 乘法
df = df1.mul(df2); df

In [None]:
# 除法
df = df1.div(df2); df

# 邏輯運算方法
- **gt()**: 大於
- **lt()**: 小於
- **ge()**: 大於等於
- **le()**: 小於等於
- **eq()**: 等於
- **ne()**: 不等於

`註: series 跟 dataframe 都可以用`

In [None]:
# gt(): 大於
df = df1.gt(df2); df

In [None]:
# lt(): 小於
df = df1.lt(df2); df

In [None]:
# ge(): 大於等於
df = df1.ge(df2); df

In [None]:
# le(): 小於等於
df = df1.le(df2); df

In [None]:
# eq(): 等於
df = df1.eq(df2); df

In [None]:
# ne(): 不等於
df = df1.ne(df2); df

# Numpy 也可以用在 Pandas

In [None]:
# 把 df1 所有值平方
df = np.square(df1); df

# NaN 的處理
- df.**dropna()**: 將 NaN `刪除`，再回傳新的 series 或 dataframe 物件。
- df.**fillna()**: 將 NaN 由特定的 value `取代`，再回傳新的 series 或 dataframe 物件。
- df.**isna()**: 判斷是否為 NaN，如果`是`，就回傳 True，如果不是，就回傳 False。
- df.**notna()**: 判斷是否為 NaN，如果`不是`，就回傳 True，如果是，就回傳 False。
- df.**isnull()**: 跟 df.**isna()** 一樣。

In [None]:
# 初始化
df = pd.DataFrame([
    [1, 2, 3],
    [4, np.nan, 6],
    [7, 8, np.nan]
]); df

In [None]:
# isna(): 判斷是否為 NaN，如果是，就回傳 True，如果不是，就回傳 False。
'''
isna() 和 isnull() 是一樣的效果，
官方文件也看起來差不多，
主要原因是因為 pandas 的 dataframe 概念，
是基於 R 的 dataframe，
在 R 裡面，na 和 null 是不一樣的東西，
而 pandas 是基於 numpy，
numpy 沒有 na 也沒有 null，只有 nan，
所以 pandas
'''
df.isna()
# isnull()

In [None]:
# notna(): 判斷是否為 NaN，如果不是，就回傳 True，如果是，就回傳 False。
df.notna()

In [None]:
# 在 NaN 的位置上，補上 0
df_ = df.fillna(0); df_.astype('int32')

In [None]:
# dropna(): 刪除含 NaN 的 row (預設)
df_ = df.dropna(); df_

In [None]:
# dropna(axis='columns'): 刪除含 NaN 的 column
df_ = df.dropna(axis='columns'); df_

# 簡單的統計函數
- **cummax**(axis=None): 回傳指定軸所累積的最大值。
- **cummin**(axis=None): 回傳指定軸所累積的最小值。 
- **cumsum**(axis=None): 回傳指定軸所累積的總和。
- **max**(axis=None): 回傳指定軸的最大值。
- **min**(axis=None): 回傳指定軸的最小值。
- **sum**(axis=None): 回傳指定軸的總和。
- **mean**(axis=None): 回傳指定軸的平均數。
- **median**(axis=None): 回傳指定軸的中位數。
- **std**(axis=None): 回傳指定軸的標準差。

In [None]:
# 初始化
from random import randint
course = ['國文', '英文', '數學', '自然', '社會']
chinese = [randint(60, 100) for x in range(5)]
english = [randint(60, 100) for x in range(5)]
math = [randint(60, 100) for x in range(5)]
nature = [randint(60, 100) for x in range(5)]
society = [randint(60, 100) for x in range(5)]

df = pd.DataFrame(
    [chinese, english, math, nature, society], 
    columns=course, 
    index=range(1,6)
); df