In [None]:
pip install pandas

In [2]:
import pandas as pd
import numpy as np

In [13]:
'''建立「2020 ~ 2023」年「臺北、臺中、高雄」某月平均溫度 的 dataframe'''


# 自訂索引
years = range(2020, 2024)

# 臺北、臺中、高雄 某個月的平均溫度
taipei = pd.Series([20, 21, 19, 21], index=years)
taichung = pd.Series([25, 26, 27, 28], index=years)
kaohsiung = pd.Series([30, 29, 31, 32], index=years)

# 建立 dataframe (axis=0 是上下合併，axis=1 是左右合併)
df = pd.concat([taipei, taichung, kaohsiung], axis=1)

# 設定欄位
df.columns = ['taipei', 'taichung', 'kaohsiung']; df

Unnamed: 0,taipei,taichung,kaohsiung
2020,20,25,30
2021,21,26,29
2022,19,27,31
2023,21,28,32


In [16]:
# 使用 at: 取得 row 是 2020 且 column 是 taipei 的值
df.at[2023, 'kaohsiung']

32

In [23]:
# 使用 iat: 取得 row 是 2, column 是 1 的值
df.iat[3, 2]

32

In [26]:
# 使用 loc: 取得 row 是 2021 的資料
df.loc[2022]

taipei       19
taichung     27
kaohsiung    31
Name: 2022, dtype: int64

In [29]:
# 使用 loc: 取得 row 是 2020 和 2023 的資料
df.loc[[2021, 2022]]

Unnamed: 0,taipei,taichung,kaohsiung
2021,21,26,29
2022,19,27,31


In [30]:
# 使用 loc: 取得 row 是 2021 到 2023、column 是 taichung 到 kaohsiung 的資料
df.loc[2021:2023,"taichung":"kaohsiung"]

Unnamed: 0,taichung,kaohsiung
2021,26,29
2022,27,31
2023,28,32


In [31]:
# 使用 iloc: 取得 row 是 0 的資料
df.iloc[0]

taipei       20
taichung     25
kaohsiung    30
Name: 2020, dtype: int64

In [46]:
df

Unnamed: 0,taipei,taichung,kaohsiung
2020,20,25,30
2021,21,26,29
2022,19,27,31
2023,21,28,32


In [33]:
# 取得 column 為 taipei 的資料
df['taipei']

2020    20
2021    21
2022    19
2023    21
Name: taipei, dtype: int64

In [35]:
df['taipei'][2022]

19

In [38]:
# 取得 column 是 taipei 和 taichung 的資料
df[ ['taipei', 'taichung'] ]

Unnamed: 0,taipei,taichung
2020,20,25
2021,21,26
2022,19,27
2023,21,28


In [40]:
# 取得 row 索引編號 1 ~ 2 的資料
df[0:3]

Unnamed: 0,taipei,taichung,kaohsiung
2020,20,25,30
2021,21,26,29
2022,19,27,31


In [42]:
# 取得 row 索引編號 3 之前的資料
df[:3]

Unnamed: 0,taipei,taichung,kaohsiung
2020,20,25,30
2021,21,26,29
2022,19,27,31


In [43]:
df

Unnamed: 0,taipei,taichung,kaohsiung
2020,20,25,30
2021,21,26,29
2022,19,27,31
2023,21,28,32


In [44]:
# 取得 taipei 溫度大於 20 的資料
df[ df['taipei'] > 20]

Unnamed: 0,taipei,taichung,kaohsiung
2021,21,26,29
2023,21,28,32


In [45]:
# 取得 taipei 溫度大於 20、高雄溫度大於 30 的資料
df[(df['taipei'] > 20) & (df['kaohsiung'] > 30) ]

Unnamed: 0,taipei,taichung,kaohsiung
2023,21,28,32


In [36]:
# 初始化
df = pd.DataFrame([
    [1, 2, 3],
    [4, np.nan, 6],
    [7, 8, np.nan]
]); df

Unnamed: 0,0,1,2
0,1,2.0,3.0
1,4,,6.0
2,7,8.0,


In [5]:
df.isna()

Unnamed: 0,0,1,2
0,False,False,False
1,False,True,False
2,False,False,True


In [40]:
# 在 NaN 的位置上，補上 0
df_ = df.fillna(df.mean(axis=1)); df_
# df_.astype('int32')

Unnamed: 0,0,1,2
0,1,2.0,3.0
1,4,5.0,6.0
2,7,8.0,7.5


In [11]:
# dropna(): 刪除含 NaN 的 row (預設)
df_ = df.dropna(axis=1)
df_

Unnamed: 0,0
0,1
1,4
2,7


In [3]:
# 初始化
from random import randint

courses = ['國文', '英文', '數學', '自然', '社會', '其它']

# 5 個學生的各科分數 (隨機產生)
s1 = [randint(60, 100)for x in range(6)]
s2 = [randint(60, 100)for x in range(6)]
s3 = [randint(60, 100)for x in range(6)]
s4 = [randint(60, 100)for x in range(6)]
s5 = [randint(60, 100)for x in range(6)]

grades = [
    s1,
    s2,
    s3,
    s4,
    s5
]

# 建立 dataframe
df = pd.DataFrame(grades,columns=courses, index=range(1, 6)); df

Unnamed: 0,國文,英文,數學,自然,社會,其它
1,69,97,61,79,68,96
2,81,83,62,85,83,68
3,84,77,61,62,85,87
4,62,66,100,61,92,94
5,75,94,65,71,91,90


In [4]:
# 補充: 刪除 column 的資料
df = df.drop('其它', axis=1); df

Unnamed: 0,國文,英文,數學,自然,社會
1,69,97,61,79,68
2,81,83,62,85,83
3,84,77,61,62,85
4,62,66,100,61,92
5,75,94,65,71,91


In [5]:
# 列出每一個學生的總分，另外新增一個欄位來放置它
total = [df.iloc[i].sum() for i in range(0,5)]
df['總分'] = total
df

Unnamed: 0,國文,英文,數學,自然,社會,總分
1,69,97,61,79,68,374
2,81,83,62,85,83,394
3,84,77,61,62,85,369
4,62,66,100,61,92,381
5,75,94,65,71,91,396


In [6]:
# 列出各科平均分數 (包括總分的平均分數)
avg = df.mean(); avg

國文     74.2
英文     83.4
數學     69.8
自然     71.6
社會     83.8
總分    382.8
dtype: float64

In [7]:
# 增加 index: 在 df 下方增加平均分數
df.loc['平均分數'] = avg; df

Unnamed: 0,國文,英文,數學,自然,社會,總分
1,69.0,97.0,61.0,79.0,68.0,374.0
2,81.0,83.0,62.0,85.0,83.0,394.0
3,84.0,77.0,61.0,62.0,85.0,369.0
4,62.0,66.0,100.0,61.0,92.0,381.0
5,75.0,94.0,65.0,71.0,91.0,396.0
平均分數,74.2,83.4,69.8,71.6,83.8,382.8


In [8]:
df = df.drop('平均分數', axis=0); df

Unnamed: 0,國文,英文,數學,自然,社會,總分
1,69.0,97.0,61.0,79.0,68.0,374.0
2,81.0,83.0,62.0,85.0,83.0,394.0
3,84.0,77.0,61.0,62.0,85.0,369.0
4,62.0,66.0,100.0,61.0,92.0,381.0
5,75.0,94.0,65.0,71.0,91.0,396.0


In [9]:
# 排序: 將 dataframe 物件的 總分 欄位，從大排到小
df = df.sort_values(by='總分', ascending=False); df

Unnamed: 0,國文,英文,數學,自然,社會,總分
5,75.0,94.0,65.0,71.0,91.0,396.0
2,81.0,83.0,62.0,85.0,83.0,394.0
4,62.0,66.0,100.0,61.0,92.0,381.0
1,69.0,97.0,61.0,79.0,68.0,374.0
3,84.0,77.0,61.0,62.0,85.0,369.0


In [10]:
# 經過大到小的排序後，增加名次欄位
rank = range(1, 6)
df['名次'] = rank; df

Unnamed: 0,國文,英文,數學,自然,社會,總分,名次
5,75.0,94.0,65.0,71.0,91.0,396.0,1
2,81.0,83.0,62.0,85.0,83.0,394.0,2
4,62.0,66.0,100.0,61.0,92.0,381.0,3
1,69.0,97.0,61.0,79.0,68.0,374.0,4
3,84.0,77.0,61.0,62.0,85.0,369.0,5


In [12]:
df = df.sort_index(ascending=True); df 

Unnamed: 0,國文,英文,數學,自然,社會,總分,名次
1,69.0,97.0,61.0,79.0,68.0,374.0,4
2,81.0,83.0,62.0,85.0,83.0,394.0,2
3,84.0,77.0,61.0,62.0,85.0,369.0,5
4,62.0,66.0,100.0,61.0,92.0,381.0,3
5,75.0,94.0,65.0,71.0,91.0,396.0,1
