本章节将介绍python中常用到的几个堪称瑞士军刀的效率工具：map、apply、parrel_apply

# map

**map()**用于将一个函数应用到一个或多个可迭代对象（如列表、元组、字符串、Series等）的每个元素，并返回一个新的迭代器

## 基本使用场景

### 基本语法

**map(function, iterable, ...)**：
- function：作用于可迭代对象的函数
- iterable：要处理的可迭代对象（如列表、元组、字符串、Series等）
- 当使用map函数时，如果提供了多个可迭代对象，函数func将依次从每个可迭代对象中取一个元素作为参数

**返回值**：
返回一个 map 对象（是一个迭代器，可以通过 list()、tuple() 等转换为具体的数据结构）


### map函数基本使用示例

#### 使用内置函数

In [86]:
# 对列表中的字符串计算长度
strings = ["apple", "banana", "cherry", "date"]
result = map(len, strings)
list(result)

[5, 6, 6, 4]

#### 使用自定义函数

In [87]:
# 自定义函数
def cal_len(s):
    return len(s)

# 对列表中的字符串计算长度
strings = ["apple", "banana", "cherry", "date"]
result = map(cal_len, strings)
list(result)

[5, 6, 6, 4]

#### 使用 lambda 表达式

In [88]:
# 对列表中的字符串计算长度
strings = ["apple", "banana", "cherry", "date"]
result = map(lambda x: len(x), strings)
list(result)

[5, 6, 6, 4]

#### 传入多个可迭代对象

In [89]:
# 对两个列表中的对应元素求和
import pandas as pd

nums1 = [1, 2, 3]
nums2 = [4, 5, 6]
sums = map(lambda x, y: x + y, nums1, nums2)
list(sums)

[5, 7, 9]

## map应用于Series

在pandas中亦提供了用于Series的map()函数，用于对 Series 中的每个元素进行逐一操作。

### Series中map()的基本语法

**Series.map(arg)**：
- **arg**:
    - **函数**：可以是内置函数、自定义函数或 lambda 函数。
    - **字典**：用于值的映射和替换。

### Series中map()使用示例

#### arg为内置函数，进行函数映射

In [90]:
# 示例：字符串转换
# 创建一个字符串 Series
s = pd.Series(['apple', 'banana', 'cherry'])
s

0     apple
1    banana
2    cherry
dtype: object

In [93]:
# 转换为大写
s_upper = s.map(str.upper)
s_upper

0     APPLE
1    BANANA
2    CHERRY
dtype: object

#### arg为自定义函数，进行函数映射

In [94]:
import pandas as pd

# 创建一个 Series
s = pd.Series([1, 2, 3, 4, 5])
s

0    1
1    2
2    3
3    4
4    5
dtype: int64

In [95]:
# 自定义一个函数，用于对每个元素进行平方操作
def square(x):
    return x ** 2

# 对每个元素应用自定义函数
s_squared = s.map(square)
s_squared

0     1
1     4
2     9
3    16
4    25
dtype: int64

#### arg为lambda函数，进行函数映射

In [96]:
# 示例：平方操作
import pandas as pd

# 创建一个 Series
s = pd.Series([1, 2, 3, 4, 5])
s

0    1
1    2
2    3
3    4
4    5
dtype: int64

In [97]:
# 对每个元素进行平方
s_squared = s.map(lambda x: x ** 2)
s_squared

0     1
1     4
2     9
3    16
4    25
dtype: int64

#### arg为字典，进行值替换

In [98]:
# map() 支持基于字典对值进行映射替换
# 创建一个 Series
s = pd.Series(['cat', 'dog', 'rabbit'])
s

0       cat
1       dog
2    rabbit
dtype: object

In [99]:
# 使用字典替换值
mapping = {'cat': 'feline', 'dog': 'canine'}
s_mapped = s.map(mapping)
s_mapped

0    feline
1    canine
2       NaN
dtype: object

# apply

**apply函数**用于对 DataFrame 或 Series 中的元素逐个或按行/列进行操作。apply函数可以自定义函数的应用方式，从而实现复杂的数据转换和处理

## 基本语法

**DataFrame.apply(func, axis)**：
- **func**：要应用的函数
- **axis**：控制函数的应用方式
    - axis=0：对 每一列 应用函数。默认值
    - axis=1：对 每一行 应用函数

## apply函数使用场景

### 应用于 DataFrame（多行或多列操作）

#### 对每列应用函数（axis=0，默认）

In [100]:
import pandas as pd
import numpy as np

# 创建 DataFrame
df = pd.DataFrame({
    'A': [1, 2, 3],
    'B': [4, 5, 6],
    'C': [7, 8, 9]
})
df

Unnamed: 0,A,B,C
0,1,4,7
1,2,5,8
2,3,6,9


In [102]:
# 对每列求和
df.apply(np.sum, axis=0)

A     6
B    15
C    24
dtype: int64

#### 对每行应用函数（axis=1）

In [104]:
df.apply(np.sum, axis=1)

0    12
1    15
2    18
dtype: int64

### 应用于 DataFrame 的单列（或 Series）

In [105]:
data = {'Name': ['Alice', 'Bob', 'Charlie'], 'Age': [25, 30, 35]}
df = pd.DataFrame(data)
df

Unnamed: 0,Name,Age
0,Alice,25
1,Bob,30
2,Charlie,35


In [107]:
# 示例：根据年龄划分年龄段
def age_category(age):
    if age < 30:
        return 'Young'
    elif age < 40:
        return 'Middle-aged'
    else:
        return 'Old'

df['Age_Category'] = df['Age'].apply(age_category)
df

Unnamed: 0,Name,Age,Age_Category
0,Alice,25,Young
1,Bob,30,Middle-aged
2,Charlie,35,Middle-aged


### 应用于DataFrame 的多列：返回单个值

In [109]:
# 示例：计算总和和均值
df['Total'] = df[['Age', 'Age']].apply(lambda row: row.sum(), axis=1)
df

Unnamed: 0,Name,Age,Age_Category,Total
0,Alice,25,Young,50
1,Bob,30,Middle-aged,60
2,Charlie,35,Middle-aged,70


### 应用于DataFrame 的多列：返回多个值

In [110]:
data = {
    'A': [1, 2, 3],
    'B': [4, 5, 6]
}
df = pd.DataFrame(data)
df

Unnamed: 0,A,B
0,1,4
1,2,5
2,3,6


In [112]:
# 定义应用于多列的函数，返回多个值
def calculate_new_columns(row):
    sum_value = row['A'] + row['B']  # 两列相加
    diff_value = row['A'] - row['B'] # 两列相减
    return pd.Series([sum_value, diff_value], index=['Sum', 'Difference'])

# 对每一行应用函数，返回多列
df[['Sum', 'Difference']] = df.apply(calculate_new_columns, axis=1)
df

Unnamed: 0,A,B,Sum,Difference
0,1,4,5,-3
1,2,5,7,-3
2,3,6,9,-3


# parrel_apply

当`DataFrame`的规模很大时，使用`apply`函数效率会比较低下。

`parrel_apply`函数可以通过并行化任务来提高处理效率

`parrel_apply`用法：

1. **初始化 pandarallel**

`pandarallel.initialize()`

2. **调用`parallel_apply`**

`parallel_apply`语法与`apply`完全一致


In [115]:
import pandas as pd
import time
from pandarallel import pandarallel

# 创建一个大的 DataFrame
df = pd.DataFrame({'a': range(1, 1000001), 'b': range(1, 1000001)})
df

Unnamed: 0,a,b
0,1,1
1,2,2
2,3,3
3,4,4
4,5,5
...,...,...
999995,999996,999996
999996,999997,999997
999997,999998,999998
999998,999999,999999


In [116]:
# 定义一个简单的函数
def complex_function(x):
    time.sleep(0.00001)  # 模拟一个耗时操作，每次耗时0.00001秒
    return x * 2

In [117]:
# 初始化 pandarallel
pandarallel.initialize()

# 记录开始时间
start_time = time.time()

# 使用 parallel_apply 并行处理
result = df['a'].parallel_apply(complex_function)

# 记录结束时间
end_time = time.time()

# 计算并打印耗时
elapsed_time = end_time - start_time
print(f"耗时: {elapsed_time} 秒")

INFO: Pandarallel will run on 4 workers.
INFO: Pandarallel will use standard multiprocessing data transfer (pipe) to transfer data between the main process and workers.
耗时: 4.336759090423584 秒


In [118]:
result

0               2
1               4
2               6
3               8
4              10
           ...   
999995    1999992
999996    1999994
999997    1999996
999998    1999998
999999    2000000
Name: a, Length: 1000000, dtype: int64

# apply、parrel_apply、iterrows()、itertuples() 性能比较

In [122]:
import pandas as pd
import numpy as np
import time
from pandarallel import pandarallel

# 创建一个大 DataFrame
df = pd.DataFrame(np.random.rand(100000, 2), columns=['a', 'b'])
df

Unnamed: 0,a,b
0,0.373778,0.616594
1,0.821638,0.909161
2,0.928479,0.693303
3,0.013037,0.746933
4,0.641576,0.080145
...,...,...
99995,0.246544,0.982949
99996,0.806459,0.894735
99997,0.459177,0.414091
99998,0.217704,0.930947


In [123]:
# 定义一个计算函数
def complex_function(x):
    return x.a**2 + x.b**2

## apply

In [124]:
# 记录 apply 的执行时间
start_time = time.time()
df['result_apply'] = df.apply(complex_function, axis=1)
end_time = time.time()
apply_time = end_time - start_time

# 打印apply耗时
print(f"apply耗时: {apply_time:.4f} 秒")

apply耗时: 1.1409 秒


## pandarallel

In [125]:
# 初始化 pandarallel
pandarallel.initialize()

# 记录 parallel_apply 的执行时间
start_time = time.time()
df['result_parallel_apply'] = df.parallel_apply(complex_function, axis=1)
end_time = time.time()
parallel_apply_time = end_time - start_time

# 打印parallel_apply耗时
print(f"parallel_apply耗时: {parallel_apply_time:.4f} 秒")

INFO: Pandarallel will run on 4 workers.
INFO: Pandarallel will use standard multiprocessing data transfer (pipe) to transfer data between the main process and workers.
parallel_apply耗时: 0.5504 秒


## iterrows

In [126]:
# 记录 iterrows 的执行时间
start_time = time.time()
result_iterrows = []
for idx,row in df.iterrows():
    result_iterrows.append(complex_function(row))
df['result_iterrows'] = result_iterrows
end_time = time.time()
iterrows_time = end_time - start_time

# 打印iterrows耗时
print(f"iterrows耗时: {iterrows_time:.4f} 秒")

iterrows耗时: 4.2578 秒


## itertuples

In [127]:
# 记录 itertuples 的执行时间
start_time = time.time()
result_itertuples = []
for row in df.itertuples(index=False):
    result_itertuples.append(complex_function(row))
df['result_itertuples'] = result_itertuples
end_time = time.time()
itertuples_time = end_time - start_time

# 打印itertuples耗时
print(f"itertuples耗时: {itertuples_time:.4f} 秒")

itertuples耗时: 0.1474 秒


## 总结

| 方法                | 优点                                         | 缺点                                                         | 性能（大数据集）   | 推荐场景                                 |
|---------------------|----------------------------------------------|--------------------------------------------------------------|--------------------|------------------------------------------|
| `apply()`           | 灵活，支持任意函数                           | 性能较差，不支持并行化，较慢                                 | 中等               | 小到中型数据集，操作复杂，且不需要并行化  |
| `parallel_apply()`  | 支持多核并行，加速计算                       | 复杂，需要额外库支持，可能增加开销                           | 快                 | 大数据集，且操作可并行化                 |
| `iterrows()`        | 简单易用，逐行处理                           | 性能差，返回的是 Series，内存开销较大                         | 较慢               | 小型数据集或需要返回行索引的情况         |
| `itertuples()`      | 性能最好，返回元组，内存效率高               | 不如 `apply()` 灵活，不能直接修改 DataFrame                   | 非常快             | 需要高性能的逐行处理，无需修改 DataFrame |