In [1]:
import pandas as pd

# 建立數據，這是一個關於人員在不同城市的工資數據，藉此計算不同城市的平均工資
data = {
    'City': ['New York', 'San Francisco', 'New York', 'Los Angeles', 'San Francisco', 'Los Angeles', 'New York', 'San Francisco'],
    'Employee': ['John', 'Daisy', 'Luke', 'Ryan', 'Jordan', 'Bruce', 'Samantha', 'Tina'],
    'Salary': [100000, 70000, 85000, 90000, 120000, 95000, 110000, 115000]
}
# 展示初始數據
df = pd.DataFrame(data)
print(df)


            City  Employee  Salary
0       New York      John  100000
1  San Francisco     Daisy   70000
2       New York      Luke   85000
3    Los Angeles      Ryan   90000
4  San Francisco    Jordan  120000
5    Los Angeles     Bruce   95000
6       New York  Samantha  110000
7  San Francisco      Tina  115000


使用 groupby 來根據指定的欄位進行分組，然後計算各組工資欄位的平均數

In [2]:
# 以 'City' 
grouped = df.groupby('City')

# 計算分組後的平均工資
average_salary = grouped['Salary'].mean()
# 輸出
print(average_salary)


City
Los Angeles       92500.000000
New York          98333.333333
San Francisco    101666.666667
Name: Salary, dtype: float64


展示更進階的數據內容

In [3]:
# 使用聚合方法 agg() 進行更多的操作：平均值、最小值、最大值
result = grouped['Salary'].agg(['mean', 'min', 'max'])
# 輸出
print(result)


                        mean    min     max
City                                       
Los Angeles     92500.000000  90000   95000
New York        98333.333333  85000  110000
San Francisco  101666.666667  70000  120000


使用 transform 進行數據轉換

In [4]:
# 使用 transform() 標準化工資
# 標準化就是平均數為 0、標準差為 1 的資料集
standardized_salary = grouped['Salary'].transform(lambda x: (x - x.mean()) / x.std())
# 新增一個標準化的欄位
df['Standardized Salary'] = standardized_salary
print(df)


            City  Employee  Salary  Standardized Salary
0       New York      John  100000             0.132453
1  San Francisco     Daisy   70000            -1.149932
2       New York      Luke   85000            -1.059626
3    Los Angeles      Ryan   90000            -0.707107
4  San Francisco    Jordan  120000             0.665750
5    Los Angeles     Bruce   95000             0.707107
6       New York  Samantha  110000             0.927173
7  San Francisco      Tina  115000             0.484182
