In [1]:
import pandas as pd
import numpy as np

# 索引參照屬性
- df.**at**: 使用 index (key) 和 columns **名稱** 來「取得或設定」單一元素內容或陣列內容。
- df.**iat**: 使用 index (key) 和 columns **編號** 來「取得或設定」單一元素內容。
- df.**loc**: 使用 index (key) 或 columns **名稱** 來「取得或設定」整個 row 或 columns 的資料或陣列內容。
- df.**iloc**: 使用 index (key) 或 columns **編號** 來「取得或設定」整個 row 或 columns 的資料。

In [2]:
'''建立「2020 ~ 2023」年「臺北、臺中、高雄」某月平均溫度 的 dataframe'''

# 自訂索引
years = range(2020, 2024)

# 臺北、臺中、高雄 某個月的平均溫度
taipei = pd.Series([20, 21, 19, 21], index=years)
taichung = pd.Series([25, 26, 27, 28], index=years)
kaohsiung = pd.Series([30, 29, 31, 32], index=years)

# 建立 dataframe (axis=0 是上下合併，axis=1 是左右合併)
df = pd.concat([taipei, taichung, kaohsiung], axis=1)

# 設定欄位
df.columns = ['taipei', 'taichung', 'kaohsiung']; df

Unnamed: 0,taipei,taichung,kaohsiung
2020,20,25,30
2021,21,26,29
2022,19,27,31
2023,21,28,32


In [3]:
# 使用 at: 取得 row 是 2020 且 column 是 taipei 的值
df.at[2020, 'taipei']

20

In [4]:
# 使用 at: 取得 row 是 2023 且 column 是 kaohsiung 的值
df.at[2023, 'kaohsiung']

32

In [5]:
# 使用 iat: 取得 row 是 2, column 是 1 的值
'''
index 是 zero-based
'''
df.iat[2, 1]

27

In [6]:
# 使用 loc: 取得 row 是 2021 的資料
'''
只有指定 2021，所以回傳 series 型態
'''
df.loc[2021]

taipei       21
taichung     26
kaohsiung    29
Name: 2021, dtype: int64

In [7]:
# 使用 loc: 取得 row 是 2020 和 2023 的資料
'''
指定兩個 row，資料將自帶 column，回傳 dataframe
'''
df.loc[ [2020, 2023] ]

Unnamed: 0,taipei,taichung,kaohsiung
2020,20,25,30
2023,21,28,32


In [8]:
# 使用 loc: 取得 row 是 2021 到 2023、column 是 taichung 到 kaohsiung 的資料
'''
沒有 slicing 有關 end 需要減 1 的問題
'''
df.loc[2021:2023, "taichung":"kaohsiung"]

Unnamed: 0,taichung,kaohsiung
2021,26,29
2022,27,31
2023,28,32


In [9]:
# 使用 iloc: 取得 row 是 0 的資料
'''
只有指定 [0]，所以回傳 series
'''
df.iloc[0]

taipei       20
taichung     25
kaohsiung    30
Name: 2020, dtype: int64

# 直接索引
不用使用 df.at\[\]、df.loc\[\] 等方式取得資料，直接使用 `df[index 或 key]`，來取得對應的行或列的資料。

In [10]:
# 取得 column 為 taipei 的資料
df['taipei']

2020    20
2021    21
2022    19
2023    21
Name: taipei, dtype: int64

In [11]:
# 取得 column 是 taipei、row 是 2022 的資料
df['taipei'][2022]

19

In [12]:
# 取得 column 是 taipei 和 taichung 的資料
df[ ['taipei', 'taichung'] ]

Unnamed: 0,taipei,taichung
2020,20,25
2021,21,26
2022,19,27
2023,21,28


In [13]:
# 取得 row 索引編號 1 ~ 2 的資料
'''
透過 slicing 方式取得資料
'''
df[1:3]

Unnamed: 0,taipei,taichung,kaohsiung
2021,21,26,29
2022,19,27,31


In [14]:
# 取得 row 索引編號 3 之前的資料
'''
透過 slicing 方式取得資料
'''
df[:3]

Unnamed: 0,taipei,taichung,kaohsiung
2020,20,25,30
2021,21,26,29
2022,19,27,31


In [15]:
# 取得 taipei 溫度大於 20 的資料
'''
類似在 df 的 taipei 欄位當中，
將每一個值進行邏輯判斷，
符合條件的整筆資料，
才隨同 df 回傳回來
'''
df[ df['taipei'] > 20 ]

Unnamed: 0,taipei,taichung,kaohsiung
2021,21,26,29
2023,21,28,32


In [16]:
# 取得 taipei 溫度大於 20、高雄溫度大於 30 的資料
'''
多個判斷語法，要用括號包起來

&: and
|: or
'''
df[ (df['taipei'] > 20) & (df['kaohsiung'] > 30) ]

Unnamed: 0,taipei,taichung,kaohsiung
2023,21,28,32


# NaN 的處理
- df.**dropna()**: 將 NaN `刪除`，再回傳新的 series 或 dataframe 物件。
- df.**fillna()**: 將 NaN 由特定的 value `取代`，再回傳新的 series 或 dataframe 物件。
- df.**isna()**: 判斷是否為 NaN，如果`是`，就回傳 True，如果不是，就回傳 False。
- df.**isnull()**: 跟 df.**isna()** 一樣。

In [17]:
# 初始化
df = pd.DataFrame([
    [1, 2, 3],
    [4, np.nan, 6],
    [7, 8, np.nan]
]); df

Unnamed: 0,0,1,2
0,1,2.0,3.0
1,4,,6.0
2,7,8.0,


In [18]:
# isna(): 判斷是否為 NaN，如果是，就回傳 True，如果不是，就回傳 False。
'''
isna() 和 isnull() 是一樣的效果，
主要原因是因為 pandas 的 dataframe 概念，
是基於 R 的 dataframe，
在 R 裡面，na 和 null 是不一樣的東西，
而 pandas 是基於 numpy，
numpy 沒有 na 也沒有 null，只有 nan，
所以 pandas
'''
df.isna()

Unnamed: 0,0,1,2
0,False,False,False
1,False,True,False
2,False,False,True


In [19]:
# 在 NaN 的位置上，補上 0
df_ = df.fillna(0); df_.astype('int32')

Unnamed: 0,0,1,2
0,1,2,3
1,4,0,6
2,7,8,0


In [20]:
# dropna(): 刪除含 NaN 的 row (預設)
df_ = df.dropna(); df_

Unnamed: 0,0,1,2
0,1,2.0,3.0


In [21]:
# dropna(axis=1): 刪除含 NaN 的 column
df_ = df.dropna(axis=1); df_

Unnamed: 0,0
0,1
1,4
2,7


# 簡單的統計函數
- **max**(axis=None): 回傳指定軸的最大值。
- **min**(axis=None): 回傳指定軸的最小值。
- **sum**(axis=None): 回傳指定軸的總和。
- **mean**(axis=None): 回傳指定軸的平均數。
- **median**(axis=None): 回傳指定軸的中位數。
- **std**(axis=None): 回傳指定軸的標準差。

In [22]:
# 初始化
from random import randint

# dataframe 的 columns
courses = ['國文', '英文', '數學', '自然', '社會', '其它']

# 5 個學生的各科分數 (隨機產生)
s1 = [randint(60, 100) for x in range(6)]
s2 = [randint(60, 100) for x in range(6)]
s3 = [randint(60, 100) for x in range(6)]
s4 = [randint(60, 100) for x in range(6)]
s5 = [randint(60, 100) for x in range(6)]

grades = [
    s1, # 代表 s1 學生的 5 科成績
    s2, # 代表 s2 學生的 5 科成績
    s3, # 代表 s3 學生的 5 科成績
    s4, # 代表 s4 學生的 5 科成績
    s5  # 代表 s5 學生的 5 科成績
]

# 建立 dataframe
df = pd.DataFrame(
    grades,
    columns=courses,
    index=range(1,6)
); df

Unnamed: 0,國文,英文,數學,自然,社會,其它
1,88,68,100,81,92,78
2,85,69,60,72,65,94
3,66,76,75,74,61,87
4,90,66,61,79,80,83
5,85,83,97,62,65,85


In [23]:
# 補充: 刪除 column 的資料
'''
也可以刪除多個 columns:
df = df.drop(columns=['column_nameA', 'column_nameB'])
'''
df = df.drop('其它', axis=1); df

Unnamed: 0,國文,英文,數學,自然,社會
1,88,68,100,81,92
2,85,69,60,72,65
3,66,76,75,74,61
4,90,66,61,79,80
5,85,83,97,62,65


In [24]:
# 列出每一個學生的總分，另外新增一個欄位來放置它
total = [df.iloc[i].sum() for i in range(0, 5)]
df['總分'] = total; df

Unnamed: 0,國文,英文,數學,自然,社會,總分
1,88,68,100,81,92,429
2,85,69,60,72,65,351
3,66,76,75,74,61,352
4,90,66,61,79,80,376
5,85,83,97,62,65,392


In [25]:
# 列出各科平均分數 (包括總分的平均分數)
'''
df 的平均預設由上而下
df.mean(axis=0)
'''
avg = df.mean(); avg

國文     82.8
英文     72.4
數學     78.6
自然     73.6
社會     72.6
總分    380.0
dtype: float64

In [26]:
# 增加 index: 在 df 下方增加平均分數
df.loc['平均分數'] = avg; df

Unnamed: 0,國文,英文,數學,自然,社會,總分
1,88.0,68.0,100.0,81.0,92.0,429.0
2,85.0,69.0,60.0,72.0,65.0,351.0
3,66.0,76.0,75.0,74.0,61.0,352.0
4,90.0,66.0,61.0,79.0,80.0,376.0
5,85.0,83.0,97.0,62.0,65.0,392.0
平均分數,82.8,72.4,78.6,73.6,72.6,380.0


In [27]:
# 刪除 index: 刪除 平均分數 的 row
'''
也可以這樣寫:
df = df.drop(index=['平均分數'])
'''
df = df.drop('平均分數', axis=0); df

Unnamed: 0,國文,英文,數學,自然,社會,總分
1,88.0,68.0,100.0,81.0,92.0,429.0
2,85.0,69.0,60.0,72.0,65.0,351.0
3,66.0,76.0,75.0,74.0,61.0,352.0
4,90.0,66.0,61.0,79.0,80.0,376.0
5,85.0,83.0,97.0,62.0,65.0,392.0


In [28]:
# 排序: 將 dataframe 物件的 總分 欄位，從大排到小
df = df.sort_values(by='總分', ascending=False); df

Unnamed: 0,國文,英文,數學,自然,社會,總分
1,88.0,68.0,100.0,81.0,92.0,429.0
5,85.0,83.0,97.0,62.0,65.0,392.0
4,90.0,66.0,61.0,79.0,80.0,376.0
3,66.0,76.0,75.0,74.0,61.0,352.0
2,85.0,69.0,60.0,72.0,65.0,351.0


In [29]:
# 經過大到小的排序後，增加名次欄位
rank = range(1, 6)
df['名次'] = rank; df

Unnamed: 0,國文,英文,數學,自然,社會,總分,名次
1,88.0,68.0,100.0,81.0,92.0,429.0,1
5,85.0,83.0,97.0,62.0,65.0,392.0,2
4,90.0,66.0,61.0,79.0,80.0,376.0,3
3,66.0,76.0,75.0,74.0,61.0,352.0,4
2,85.0,69.0,60.0,72.0,65.0,351.0,5


In [30]:
# 依 index 從新排序
df = df.sort_index(ascending=True); df

Unnamed: 0,國文,英文,數學,自然,社會,總分,名次
1,88.0,68.0,100.0,81.0,92.0,429.0,1
2,85.0,69.0,60.0,72.0,65.0,351.0,5
3,66.0,76.0,75.0,74.0,61.0,352.0,4
4,90.0,66.0,61.0,79.0,80.0,376.0,3
5,85.0,83.0,97.0,62.0,65.0,392.0,2
