In [1]:
print("""
@File         : 05_apply_functions.ipynb
@Author(s)    : Stephen CUI
@LastEditor(s): Stephen CUI
@CreatedTime  : 2024-09-22 19:27:45
@Email        : cuixuanstephen@gmail.com
@Description  : Apply Functions
""")


@File         : 05_apply_functions.ipynb
@Author(s)    : Stephen CUI
@LastEditor(s): Stephen CUI
@CreatedTime  : 2024-09-22 19:27:45
@Email        : cuixuanstephen@gmail.com
@Description  : Apply Functions



`.apply()` 方法接受一个函数并将其应用（即运行）到 DataFrame 的每一行或列，而无需为每个元素单独编写代码。

它是类似于在每一行或每一列上编写一个 `for` 循环并调用该函数，或者对函数进行 `map()` 调用。通常，这是在数据框中应用函数的首选方法，因为它通常比在 Python 中编写 `for` 循环要快得多。

## Vectorized Functions

In [2]:
import numpy as np


def avg_2_mod(x, y):
    # 如果 x 和 y 是标量的话，那么是能运行的，但是 x 如果是向量就会报错
    if x == 20:
        return np.NaN
    else:
        return (x + y) / 2

我们希望改变我们的函数，以便当它被赋予一个值向量时，它将以元素方式执行计算。我们可以通过使用 numpy 中的 `vectorize()` 函数来实现这一点。我们将 `np.vectorize()` 传递给我们想要矢量化的函数，以创建一个新函数。

In [4]:
import pandas as pd

df = pd.DataFrame({"a": [10, 20, 30], "b": [20, 30, 40]})
df

Unnamed: 0,a,b
0,10,20
1,20,30
2,30,40


In [5]:
avg_2_mod(df['a'], df['b'])

ValueError: The truth value of a Series is ambiguous. Use a.empty, a.bool(), a.item(), a.any() or a.all().

In [6]:
avg_2_mod_vec = np.vectorize(avg_2_mod)

In [7]:
avg_2_mod_vec(df['a'], df['b'])

array([15., nan, 35.])

如果没有现有函数的源代码，则此方法非常有效。但是，如果您要编写自己的函数，则可以使用 Python 装饰器自动矢量化该函数，而无需创建新函数。装饰器是一种将另一个函数作为输入并修改该函数输出行为的函数。

In [9]:
@np.vectorize
def v_avg_2_mod(x, y):
    if x == 20:
        return np.NaN
    else:
        return (x + y) / 2

In [10]:
v_avg_2_mod(df['a'], df['b'])

array([15., nan, 35.])

### Vectorize with Numba

numba 库旨在优化 Python 代码，尤其是执行数学计算的数组上的计算。与 numpy 一样，它也有一个 `vectorize` 装饰器。

In [16]:
import numba


@numba.vectorize
def v_avg_2_numba(x, y):
    if x == 20:
        return np.NaN
    else:
        return (x + y) / 2

In [17]:
v_avg_2_numba(df['a'], df['b'])

0    15.0
1     NaN
2    35.0
dtype: float64

numba 库经过了优化，因此它无法理解 Pandas 对象。

> 现在 numba 可以兼容 `Pandas.Series`

In [18]:
v_avg_2_numba(df['a'].values, df['b'].values)

array([15., nan, 35.])

## Lambda Functions (Anonymous Functions)

In [20]:
df['a'].apply(lambda x: x**2)

0    100
1    400
2    900
Name: a, dtype: int64

要编写 `lambda` 函数，我们使用 `lambda` 关键字。由于 apply 函数将将整个轴作为第一个参数传递。

In [21]:
df['a'].apply(lambda x, y=2: (x+y)**2)

0     144
1     484
2    1024
Name: a, dtype: int64