In [1]:
import pandas as pd
import numpy as np

- `apply()` 方法应用于 `DataFrame` 的行或列以及 `Series` 的元素级别。

- `map()` 方法应用于 `Series` 的每个元素。


# 1 `apply()` 方法

`df.apply(func, axis=0, raw=False, result_type=None, args=(), **kwds)`

- `func`：函数，可以是自定义函数，也可以是 `numpy` 中的函数，如 `np.sum`。

- `axis`：0 或 1，默认为 0，表示按列应用函数，1 表示按行应用函数。

- `raw`：默认为 `False`，表示传递每列或行的一维数组给函数，如果为 `True`，则传递 `DataFrame` 的行或列。

- `result_type`：默认为 `None`，表示返回值为 `Series`，如果为 `DataFrame`，则返回值为 `DataFrame`。

- `args`：元组，默认为 `()`，表示传递给函数的参数。

- `**kwds`：字典，默认为 `{}`，表示传递给函数的关键字参数。


In [8]:
df = pd.DataFrame([[1, 2, 3], [4, 5, 6], [7, 8, 9]], columns=["a", "b", "c"])
display(df)
print("=========================================")


# 增加一列，用来计算 (2a + 3b) * c
def cal(df, x, y):
    df["result"] = (df["a"] * x + df["b"] * y) * df["c"]
    return df


df = df.apply(cal, axis=1, args=(2, 3))
display(df)

Unnamed: 0,a,b,c
0,1,2,3
1,4,5,6
2,7,8,9




Unnamed: 0,a,b,c,result
0,1,2,3,24
1,4,5,6,138
2,7,8,9,342


# 2 `map()` 方法

`df.map(func)`


In [12]:
df = pd.DataFrame(np.random.randn(5, 3), columns=["a", "b", "c"])
display(df)
print("=========================================")

# 利用 map() 函数，对每个元素进行格式化操作
# apply 直接作用于 DataFrame，lambda x 代指每一个 Series
# map 作用于 Series，lambda y 代指每一个元素
df = df.apply(lambda x: x.map(lambda y: "%.2f" % y))
display(df)

Unnamed: 0,a,b,c
0,-1.92167,0.148964,0.360292
1,-0.135094,-0.320074,0.126323
2,0.098259,0.751676,0.891389
3,-1.621106,0.794944,-0.459489
4,0.631568,0.958941,-0.914993




Unnamed: 0,a,b,c
0,-1.92,0.15,0.36
1,-0.14,-0.32,0.13
2,0.1,0.75,0.89
3,-1.62,0.79,-0.46
4,0.63,0.96,-0.91
