# Ch05-1 Pandas DataFrame 資料處理

# 安裝 pandas
若有語法不了解的地方，可以參考以下連結:
- [API reference](https://pandas.pydata.org/docs/reference/index.html)
- [Pandas Tutorial](https://www.w3schools.com/python/pandas/default.asp)
- [Pandas 教程](https://www.runoob.com/pandas/pandas-tutorial.html)

In [3]:
# 安裝套件
!pip install pandas



In [4]:
import numpy as np
import pandas as pd
from pprint import pprint

In [5]:
pd.__version__

'2.2.3'

## 四則運算
- add(): 加法
- sub(): 減法
- mul(): 乘法
- div(): 除法
### 直接用 `+` `-` `*` `/` 即可
`註: series 跟 dataframe 都可以用`

In [6]:
# 初始化
df1 = pd.DataFrame([
    {'a': 15, 'b': 15}, 
    {'a': 12, 'b': 18}
])
df2 = pd.DataFrame([
    {'a': 15, 'b': 13}, 
    {'a': 11, 'b': 22}
])

In [7]:
df1

Unnamed: 0,a,b
0,15,15
1,12,18


In [8]:
df2

Unnamed: 0,a,b
0,15,13
1,11,22


In [9]:
# 加法
df1 + df2

Unnamed: 0,a,b
0,30,28
1,23,40


In [10]:
# 加法
df1.add(df2)

Unnamed: 0,a,b
0,30,28
1,23,40


In [11]:
# 減法
df1 - df2

Unnamed: 0,a,b
0,0,2
1,1,-4


In [12]:
# 減法
df1.sub(df2)

Unnamed: 0,a,b
0,0,2
1,1,-4


In [13]:
# 除法
df1/df2

Unnamed: 0,a,b
0,1.0,1.153846
1,1.090909,0.818182


In [14]:
# 除法
df1.divide(df2)

Unnamed: 0,a,b
0,1.0,1.153846
1,1.090909,0.818182


In [15]:
df1.div(df2)

Unnamed: 0,a,b
0,1.0,1.153846
1,1.090909,0.818182


In [16]:
# 乘法
# 注意這個是 同樣位置互乘
df1.mul(df2)

Unnamed: 0,a,b
0,225,195
1,132,396


In [17]:
df1 * df2

Unnamed: 0,a,b
0,225,195
1,132,396


In [18]:
df1.multiply(df2)

Unnamed: 0,a,b
0,225,195
1,132,396


# 邏輯運算方法
- **gt()**: 大於
- **lt()**: 小於
- **ge()**: 大於等於
- **le()**: 小於等於
- **eq()**: 等於
- **ne()**: 不等於

### 直接用 `>`、`<`、`==`、`>=`、`<=`、`!=` 即可

`註: series 跟 dataframe 都可以用`

In [19]:
df1

Unnamed: 0,a,b
0,15,15
1,12,18


In [20]:
df2

Unnamed: 0,a,b
0,15,13
1,11,22


In [21]:
# gt(): 大於
df = df1.gt(df2); df
# df = df1 > df2; df

Unnamed: 0,a,b
0,False,True
1,True,False


In [22]:
# lt(): 小於
df = df1.lt(df2); df

Unnamed: 0,a,b
0,False,False
1,False,True


In [23]:
# gt(): 大於
df = df1.gt(df2); df

Unnamed: 0,a,b
0,False,True
1,True,False


In [24]:
# le(): 小於等於
df = df1.le(df2); df

Unnamed: 0,a,b
0,True,False
1,False,True


In [25]:
# eq(): 等於
df = df1.eq(df2); df

Unnamed: 0,a,b
0,True,False
1,False,False


In [26]:
# ne(): 不等於
df = df1.ne(df2); df

Unnamed: 0,a,b
0,False,True
1,True,True


## 空缺值處理
- df.**dropna()**: 將 NaN `刪除`，再回傳新的 series 或 dataframe 物件。
- df.**fillna()**: 將 NaN 由特定的 value `取代`，再回傳新的 series 或 dataframe 物件。
- df.**isna()**: 判斷是否為 NaN，如果`是`，就回傳 True，如果不是，就回傳 False。
- df.**notna()**: 判斷是否為 NaN，如果`不是`，就回傳 True，如果是，就回傳 False。
- df.**isnull()**: 跟 df.**isna()** 一樣。

### df.isna(), df.isnull()

In [27]:
# 創建一個包含空缺值的示例 DataFrame
data = {'A': [1, 2, np.nan, 4, 5],
        'B': [6, np.nan, 8, np.nan, 10],
        'C': [100, np.nan, 3, 3, 11],
        'D': [2, 23, 44, 66, 77]}
df = pd.DataFrame(data); df

Unnamed: 0,A,B,C,D
0,1.0,6.0,100.0,2
1,2.0,,,23
2,,8.0,3.0,44
3,4.0,,3.0,66
4,5.0,10.0,11.0,77


In [46]:
# 判斷空缺值
df1 = df.copy()
df1.isna()

Unnamed: 0,A,B,C,D
0,False,False,False,False
1,False,True,True,False
2,True,False,False,False
3,False,True,False,False
4,False,False,False,False


In [29]:
# 統計空缺值
df1.isna().sum()

A    1
B    2
C    1
D    0
dtype: int64

In [30]:
# 判斷空缺值
df1.isnull()

Unnamed: 0,A,B,C,D
0,False,False,False,False
1,False,True,True,False
2,True,False,False,False
3,False,True,False,False
4,False,False,False,False


In [47]:
# 統計空缺值
df1.isnull().sum()

A    1
B    2
C    1
D    0
dtype: int64

### df.dropna()
有 NaN 的 row 都丟掉 <br>
_可加 `axis=0` 改丟 col_

In [49]:
df.dropna()
# 需用變數接，否則原 dataFrame 不會變

Unnamed: 0,A,B,C,D
0,1.0,6.0,100.0,2
4,5.0,10.0,11.0,77


In [50]:
# 丟棄有 NaN 的 col
df.dropna(axis=1)

Unnamed: 0,D
0,2
1,23
2,44
3,66
4,77


In [51]:
# 和 default 棄法相同 (default 就是棄 row)
df.dropna(axis=0)

Unnamed: 0,A,B,C,D
0,1.0,6.0,100.0,2
4,5.0,10.0,11.0,77


### df.fillna()

這個方法可用於填充空缺值，您可以通過指定一個固定值或者使用不同的填充策略（例如平均值、中位數等）。

In [52]:
# 用某值取代全部 null 者
df.fillna(10000)

Unnamed: 0,A,B,C,D
0,1.0,6.0,100.0,2
1,2.0,10000.0,10000.0,23
2,10000.0,8.0,3.0,44
3,4.0,10000.0,3.0,66
4,5.0,10.0,11.0,77


In [36]:
# 使用平均值填充空缺值
df.fillna(df.mean())

Unnamed: 0,A,B,C,D
0,1.0,6.0,100.0,2
1,2.0,8.0,29.25,23
2,3.0,8.0,3.0,44
3,4.0,8.0,3.0,66
4,5.0,10.0,11.0,77


### df.interpolate()
_內插法填 NaN 者 (前後兩者相加除二)_ <br>
這個方法可以根據數據的趨勢進行插值填充，適用於連續性數據。

In [37]:
# 根據數據的趨勢進行插值填充
df.interpolate()

Unnamed: 0,A,B,C,D
0,1.0,6.0,100.0,2
1,2.0,7.0,51.5,23
2,3.0,8.0,3.0,44
3,4.0,9.0,3.0,66
4,5.0,10.0,11.0,77


### df.replace()
這個方法可以用於將指定的空缺值替換為其他值

In [38]:
df.replace(np.nan, 202311)

Unnamed: 0,A,B,C,D
0,1.0,6.0,100.0,2
1,2.0,202311.0,202311.0,23
2,202311.0,8.0,3.0,44
3,4.0,202311.0,3.0,66
4,5.0,10.0,11.0,77


In [39]:
df.replace(3, 30000)

Unnamed: 0,A,B,C,D
0,1.0,6.0,100.0,2
1,2.0,,,23
2,,8.0,30000.0,44
3,4.0,,30000.0,66
4,5.0,10.0,11.0,77


### 自定義函數處理空缺值
使用自定義函數來處理空缺值，然後使用 apply() 函數應用它。

In [55]:
df_fill_func_na = df.copy()


# 定義一個自定義函數來處理空缺值
def fill_na_with_sum_x100(column):
    column_sum = column.sum() * 100
    return column.fillna(column_sum)

def fill_na_with_mean(column):
    column_mean = column.mean()
    return column.fillna(column_mean)

# 將 dataFrame 中的 'C' 取代掉，apply 可改全表
df_fill_func_na['C'] = df[["C"]].apply(fill_na_with_mean)
df_fill_func_na['A'] = df[["A"]].apply(fill_na_with_sum_x100)

df_fill_func_na


Unnamed: 0,A,B,C,D
0,1.0,6.0,100.0,2
1,2.0,,29.25,23
2,1200.0,8.0,3.0,44
3,4.0,,3.0,66
4,5.0,10.0,11.0,77


# 簡單的統計函數
- **cummax**(axis=None): 回傳指定軸所累計的最大值。
- **cummin**(axis=None): 回傳指定軸所累計的最小值。 
- **cumsum**(axis=None): 回傳指定軸所累計的總和。
- **max**(axis=None): 回傳指定軸的最大值。
- **min**(axis=None): 回傳指定軸的最小值。
- **sum**(axis=None): 回傳指定軸的總和。
- **mean**(axis=None): 回傳指定軸的平均數。
- **median**(axis=None): 回傳指定軸的中位數。
- **std**(axis=None): 回傳指定軸的標準差。

In [57]:
import pandas as pd
import numpy as np
from random import randint

course = ["國文", "英文", "數學", "自然", "社會", "操行", "等級"]

chinese = [randint(60, 100) for x in range(7)]
english = [randint(60, 100) for x in range(7)]
math = [randint(60, 100) for x in range(7)]
nature = [randint(60, 100) for x in range(7)]
society = [randint(60, 100) for x in range(7)]
grade = ["A", "A-", "A+", "B", "A", "A+", "A"]
level = [randint(0, 5) for x in range(7)]


data = {
    "國文" : chinese,
    "英文" : english,
    "數學" : math,
    "自然" : nature,
    "社會" : society,
    "操行" : grade,
    "等級" : level,
}

df_student = pd.DataFrame(data)

df_student


Unnamed: 0,國文,英文,數學,自然,社會,操行,等級
0,89,67,100,64,95,A,3
1,63,73,66,75,97,A-,3
2,78,74,79,100,72,A+,3
3,91,95,71,98,77,B,5
4,99,89,63,80,67,A,5
5,85,94,76,73,63,A+,4
6,64,71,66,94,79,A,5


In [60]:
# 轉換寬格式為長格式
df_long = df_student.melt(id_vars = ['操行', "等級"], # 要固定的欄位 (名)
                        value_vars = course[:6], # 全 rows (值)
                        var_name = '科目', # 轉置後的欄位名
                        value_name = '成績') # 轉置後的欄位值
df_long

Unnamed: 0,操行,等級,科目,成績
0,A,3,國文,89
1,A-,3,國文,63
2,A+,3,國文,78
3,B,5,國文,91
4,A,5,國文,99
5,A+,4,國文,85
6,A,5,國文,64
7,A,3,英文,67
8,A-,3,英文,73
9,A+,3,英文,74


In [74]:
# 累計國文的分數，另外新增一個欄位來放置它
x = df_student['國文'].cumsum()
# 似 dictionary 塞值法
df_student['小計_國文'] = x; df_student

Unnamed: 0,國文,英文,數學,自然,社會,操行,等級,小計_國文
0,89,67,100,64,95,A,3,89
1,63,73,66,75,97,A-,3,152
2,78,74,79,100,72,A+,3,230
3,91,95,71,98,77,B,5,321
4,99,89,63,80,67,A,5,420
5,85,94,76,73,63,A+,4,505
6,64,71,66,94,79,A,5,569


In [76]:
# 補充: 刪除 column 的資料
'''
也可以刪除多個 columns:
df = df.drop(columns=['column_nameA', 'column_nameB'])
'''
df_student = df_student.drop('小計_國文', axis=1); df_student

Unnamed: 0,國文,英文,數學,自然,社會,操行,等級
0,89,67,100,64,95,A,3
1,63,73,66,75,97,A-,3
2,78,74,79,100,72,A+,3
3,91,95,71,98,77,B,5
4,99,89,63,80,67,A,5
5,85,94,76,73,63,A+,4
6,64,71,66,94,79,A,5


In [79]:
# 列出每一個學生的總分，另外新增一個欄位來放置它
total = [df_student.iloc[i, :5].sum() for i in range(0, 7)]
df_student['總分'] = total; df_student

Unnamed: 0,國文,英文,數學,自然,社會,操行,等級,總分
0,89,67,100,64,95,A,3,415
1,63,73,66,75,97,A-,3,374
2,78,74,79,100,72,A+,3,403
3,91,95,71,98,77,B,5,432
4,99,89,63,80,67,A,5,398
5,85,94,76,73,63,A+,4,391
6,64,71,66,94,79,A,5,374


In [103]:
# 列出各科平均分數

avg = df_student.iloc[0:6, 0:5].mean(); avg

國文    84.166667
英文    82.000000
數學    75.833333
自然    81.666667
社會    78.500000
dtype: float64

In [104]:
# 增加 index: 在 df 下方增加平均分數
df_student.loc['平均分數'] = avg; df_student

Unnamed: 0,國文,英文,數學,自然,社會,操行,等級,總分
0,89.0,67.0,100.0,64.0,95.0,A,3.0,415.0
1,63.0,73.0,66.0,75.0,97.0,A-,3.0,374.0
2,78.0,74.0,79.0,100.0,72.0,A+,3.0,403.0
3,91.0,95.0,71.0,98.0,77.0,B,5.0,432.0
4,99.0,89.0,63.0,80.0,67.0,A,5.0,398.0
5,85.0,94.0,76.0,73.0,63.0,A+,4.0,391.0
6,64.0,71.0,66.0,94.0,79.0,A,5.0,374.0
平均分數,84.166667,82.0,75.833333,81.666667,78.5,,,


In [105]:
# 刪除 index: 刪除 平均分數 的 row
'''
也可以這樣寫:
df = df.drop(index = ['平均分數'])
'''
df_student = df_student.drop('平均分數', axis=0); df_student

Unnamed: 0,國文,英文,數學,自然,社會,操行,等級,總分
0,89.0,67.0,100.0,64.0,95.0,A,3.0,415.0
1,63.0,73.0,66.0,75.0,97.0,A-,3.0,374.0
2,78.0,74.0,79.0,100.0,72.0,A+,3.0,403.0
3,91.0,95.0,71.0,98.0,77.0,B,5.0,432.0
4,99.0,89.0,63.0,80.0,67.0,A,5.0,398.0
5,85.0,94.0,76.0,73.0,63.0,A+,4.0,391.0
6,64.0,71.0,66.0,94.0,79.0,A,5.0,374.0


`.sort_values(by = ${排序依據}, ascending = True)`: 升冪排序資料

In [106]:
# 排序: 將 dataframe 物件的 總分 欄位，從大排到小
df_student = df_student.sort_values(by = '總分', ascending = False); df_student

Unnamed: 0,國文,英文,數學,自然,社會,操行,等級,總分
3,91.0,95.0,71.0,98.0,77.0,B,5.0,432.0
0,89.0,67.0,100.0,64.0,95.0,A,3.0,415.0
2,78.0,74.0,79.0,100.0,72.0,A+,3.0,403.0
4,99.0,89.0,63.0,80.0,67.0,A,5.0,398.0
5,85.0,94.0,76.0,73.0,63.0,A+,4.0,391.0
1,63.0,73.0,66.0,75.0,97.0,A-,3.0,374.0
6,64.0,71.0,66.0,94.0,79.0,A,5.0,374.0


In [107]:
# 經過大到小的排序後，增加名次欄位
rank = range(1, 8)
df_student['名次'] = rank; df_student

Unnamed: 0,國文,英文,數學,自然,社會,操行,等級,總分,名次
3,91.0,95.0,71.0,98.0,77.0,B,5.0,432.0,1
0,89.0,67.0,100.0,64.0,95.0,A,3.0,415.0,2
2,78.0,74.0,79.0,100.0,72.0,A+,3.0,403.0,3
4,99.0,89.0,63.0,80.0,67.0,A,5.0,398.0,4
5,85.0,94.0,76.0,73.0,63.0,A+,4.0,391.0,5
1,63.0,73.0,66.0,75.0,97.0,A-,3.0,374.0,6
6,64.0,71.0,66.0,94.0,79.0,A,5.0,374.0,7


`.sort_index()`: 依 index 排列

In [108]:
# 依 index 重新排序
df_student = df_student.sort_index(ascending=True); df_student

Unnamed: 0,國文,英文,數學,自然,社會,操行,等級,總分,名次
0,89.0,67.0,100.0,64.0,95.0,A,3.0,415.0,2
1,63.0,73.0,66.0,75.0,97.0,A-,3.0,374.0,6
2,78.0,74.0,79.0,100.0,72.0,A+,3.0,403.0,3
3,91.0,95.0,71.0,98.0,77.0,B,5.0,432.0,1
4,99.0,89.0,63.0,80.0,67.0,A,5.0,398.0,4
5,85.0,94.0,76.0,73.0,63.0,A+,4.0,391.0,5
6,64.0,71.0,66.0,94.0,79.0,A,5.0,374.0,7


## 分組聚合

In [112]:
import pandas as pd
import random

# 創建虛擬的銷售數據
data = {
    '日期': pd.date_range(start = '2023-01-01', end = '2023-01-10', freq = 'D'),
    '公司名稱': ['公司A', '公司B', '公司C', '公司A', '公司B', '公司C', '公司A', '公司B', '公司C', '公司A'],
    '銷售量': [random.randint(10, 100) for _ in range(10)],
    '銷售金額-USD': [random.randint(100, 1000) for _ in range(10)],
    '銷售地區': ['客戶1', '客戶2', '客戶3', '客戶1', '客戶2', '客戶3', '客戶1', '客戶2', '客戶3', '客戶1']
}

# 使用真實的公司名稱和客戶名稱
real_companies = ['Apple Inc.', 'Microsoft Corporation', 'Amazon.com Inc.', 'Alphabet Inc.', 'Meta Platforms Inc.']
real_customers = ['Taiwan', 'Japan', 'Korea', 'Europe']

# 隨機替換公司名稱和客戶名稱
data['公司名稱'] = [random.choice(real_companies) for _ in range(10)]
data['銷售地區'] = [random.choice(real_customers) for _ in range(10)]

# 創建DataFrame
df_sales = pd.DataFrame(data)

# 顯示DataFrame
df_sales


Unnamed: 0,日期,公司名稱,銷售量,銷售金額-USD,銷售地區
0,2023-01-01,Alphabet Inc.,18,276,Europe
1,2023-01-02,Meta Platforms Inc.,95,329,Taiwan
2,2023-01-03,Apple Inc.,16,431,Europe
3,2023-01-04,Microsoft Corporation,40,214,Europe
4,2023-01-05,Alphabet Inc.,83,642,Europe
5,2023-01-06,Amazon.com Inc.,18,591,Japan
6,2023-01-07,Apple Inc.,67,488,Korea
7,2023-01-08,Meta Platforms Inc.,60,887,Europe
8,2023-01-09,Microsoft Corporation,98,497,Korea
9,2023-01-10,Meta Platforms Inc.,92,888,Korea


In [113]:
df_sales.groupby('公司名稱')['銷售量'].sum()

公司名稱
Alphabet Inc.            101
Amazon.com Inc.           18
Apple Inc.                83
Meta Platforms Inc.      247
Microsoft Corporation    138
Name: 銷售量, dtype: int64

In [114]:
df_sales.groupby('公司名稱')[['銷售量','銷售金額-USD']].sum()

Unnamed: 0_level_0,銷售量,銷售金額-USD
公司名稱,Unnamed: 1_level_1,Unnamed: 2_level_1
Alphabet Inc.,101,918
Amazon.com Inc.,18,591
Apple Inc.,83,919
Meta Platforms Inc.,247,2104
Microsoft Corporation,138,711


## 合併

In [115]:
cal_map = {
"銷售地區":"count",
"銷售量":['sum', 'mean'],
"銷售金額-USD":["max"]
}

df_sales.groupby('公司名稱').agg(cal_map)

Unnamed: 0_level_0,銷售地區,銷售量,銷售量,銷售金額-USD
Unnamed: 0_level_1,count,sum,mean,max
公司名稱,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Alphabet Inc.,2,101,50.5,642
Amazon.com Inc.,1,18,18.0,591
Apple Inc.,2,83,41.5,488
Meta Platforms Inc.,3,247,82.333333,888
Microsoft Corporation,2,138,69.0,497


In [116]:
company = [
["Taiwan", "TSMC"],
["Taiwan", "MTK"],
["Taiwan", "ASUS"],
["Korea", "Samsung"],
["Korea", "LG"],
["Japan", "Sony"],
["Japan", "Murata"],
]

df_company = pd.DataFrame(company)
df_company.columns = ["銷售地區", "訂單客戶"]

df_company

Unnamed: 0,銷售地區,訂單客戶
0,Taiwan,TSMC
1,Taiwan,MTK
2,Taiwan,ASUS
3,Korea,Samsung
4,Korea,LG
5,Japan,Sony
6,Japan,Murata


In [322]:
pd.merge(df_sales, df_company, on='銷售地區')


Unnamed: 0,日期,公司名稱,銷售量,銷售金額-USD,銷售地區,訂單客戶
0,2023-01-01,Apple Inc.,70,817,Taiwan,TSMC
1,2023-01-01,Apple Inc.,70,817,Taiwan,MTK
2,2023-01-01,Apple Inc.,70,817,Taiwan,ASUS
3,2023-01-05,Meta Platforms Inc.,100,671,Taiwan,TSMC
4,2023-01-05,Meta Platforms Inc.,100,671,Taiwan,MTK
5,2023-01-05,Meta Platforms Inc.,100,671,Taiwan,ASUS
6,2023-01-10,Meta Platforms Inc.,28,159,Taiwan,TSMC
7,2023-01-10,Meta Platforms Inc.,28,159,Taiwan,MTK
8,2023-01-10,Meta Platforms Inc.,28,159,Taiwan,ASUS
9,2023-01-02,Microsoft Corporation,82,578,Japan,Sony


In [323]:
# 標準寫法 較嚴僅
pd.merge(df_sales, df_company, left_on='銷售地區', right_on="銷售地區", how="left")

Unnamed: 0,日期,公司名稱,銷售量,銷售金額-USD,銷售地區,訂單客戶
0,2023-01-01,Apple Inc.,70,817,Taiwan,TSMC
1,2023-01-01,Apple Inc.,70,817,Taiwan,MTK
2,2023-01-01,Apple Inc.,70,817,Taiwan,ASUS
3,2023-01-02,Microsoft Corporation,82,578,Japan,Sony
4,2023-01-02,Microsoft Corporation,82,578,Japan,Murata
5,2023-01-03,Amazon.com Inc.,46,603,Japan,Sony
6,2023-01-03,Amazon.com Inc.,46,603,Japan,Murata
7,2023-01-04,Apple Inc.,53,529,Europe,
8,2023-01-05,Meta Platforms Inc.,100,671,Taiwan,TSMC
9,2023-01-05,Meta Platforms Inc.,100,671,Taiwan,MTK
