## apply函数
用于对 DataFrame 或 Series 中的数据应用一个函数。它可以应用于整个 DataFrame、某一行或某一列。通过 apply，你可以执行复杂的数据转换和分析操作。
### 基本用法
apply 函数可以接收以下参数：
- func：要应用的函数。它可以是内置函数、外部函数或匿名函数（lambda 函数）。
- axis：指定函数应用的轴。axis=0 或 None 代表沿着列应用函数，axis=1 代表沿着行应用函数。
- 其他参数：你可以传递给 func 的其他参数。

In [16]:
# 创建一个示例 DataFrame
df = pd.DataFrame({
    'A': [1, 2, 3],
    'B': [4, 5, 6]
})

df

Unnamed: 0,A,B
0,1,4
1,2,5
2,3,6


In [20]:
# 定义一个简单的函数
def my_func(x):
    return x * 2

# 对每列应用函数
result_col = df.apply(my_func)  # 默认 axis=0

print(result_col)

   A   B
0  2   8
1  4  10
2  6  12


In [21]:
# 对每行应用函数
result_row = df.apply(my_func, axis=1)

print(result_row)

   A   B
0  2   8
1  4  10
2  6  12


In [22]:
# 对每列应用 lambda 函数
result_lambda = df.apply(lambda x: x.max() - x.min())

print(result_lambda)

A    2
B    2
dtype: int64


In [23]:
data = pd.DataFrame({'food':['A1','A2','B1','B2','B3','C1','C2'],'data':[1,2,3,4,5,6,7]})
data

Unnamed: 0,food,data
0,A1,1
1,A2,2
2,B1,3
3,B2,4
4,B3,5
5,C1,6
6,C2,7


In [24]:
def food_map(series):
    if series['food'] == 'A1':
        return 'A'
    elif series['food'] == 'A2':
        return 'A'
    elif series['food'] == 'B1':
        return 'B'
    elif series['food'] == 'B2':
        return 'B'
    elif series['food'] == 'B3':
        return 'B'
    elif series['food'] == 'C1':
        return 'C'
    elif series['food'] == 'C2':
        return 'C'
data['food_map'] = data.apply(food_map,axis = 'columns')
data

Unnamed: 0,food,data,food_map
0,A1,1,A
1,A2,2,A
2,B1,3,B
3,B2,4,B
4,B3,5,B
5,C1,6,C
6,C2,7,C


In [25]:
food2Upper = {
    'A1':'A',
    'A2':'A',
    'B1':'B',
    'B2':'B',
    'B3':'B',
    'C1':'C',
    'C2':'C'
}
data['upper'] = data['food'].map(food2Upper)
data

Unnamed: 0,food,data,food_map,upper
0,A1,1,A,A
1,A2,2,A,A
2,B1,3,B,B
3,B2,4,B,B
4,B3,5,B,B
5,C1,6,C,C
6,C2,7,C,C


In [28]:
import numpy as np
titanic = pd.read_csv('./data/titanic.csv')
titanic.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


### 处理整个 Series 的函数

In [29]:
# 创建示例 DataFrame
df = pd.DataFrame({
    'A': [1, 2, 3],
    'B': [4, 5, 6]
})

# 使用内置函数sum
result = df.apply(sum)
print(result)

A     6
B    15
dtype: int64


#### 列处理

In [31]:
def hundredth_row(series):
    item = series.iloc[99]
    return item
hundredth_row = titanic.apply(hundredth_row)
hundredth_row

PassengerId                  100
Survived                       0
Pclass                         2
Name           Kantor, Mr. Sinai
Sex                         male
Age                         34.0
SibSp                          1
Parch                          0
Ticket                    244367
Fare                        26.0
Cabin                        NaN
Embarked                       S
dtype: object

In [38]:
def not_null_count(columns):
    # print(columns)
    # bool函数过滤是空的数据
    columns_null = pd.isnull(columns)
    null = columns[columns_null]
    return len(null)
columns_null_count = titanic.apply(not_null_count)
columns_null_count

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

#### 行处理

In [42]:
def which_class(row):
#     print(row)
    pclass = row['Pclass']
    if pd.isnull(pclass):
        return 'Unknow'
    elif pclass == 1:
        return 'First class'
    elif pclass == 2:
        return 'Second class'
    elif pclass == 3:
        return 'Third class'
classes = titanic.apply(which_class,axis = 1)
classes

0       Third class
1       First class
2       Third class
3       First class
4       Third class
           ...     
886    Second class
887     First class
888     Third class
889     First class
890     Third class
Length: 891, dtype: object

### 处理单个元素的函数

In [30]:
# 定义一个自定义函数来计算平方
def square(x):
    return x ** 2

# 应用自定义函数
result = df.apply(square)
print(result)

   A   B
0  1  16
1  4  25
2  9  36


### 如何区分
要判断一个函数是处理整个 Series 还是单个元素，你可以考虑该函数的预期输入：

- 如果函数预期接收一个数组或 Series（如 sum, np.mean），则 apply 会将整个 Series 作为参数传递给它。
- 如果函数预期接收一个单独的元素（如 x**2, np.sqrt(x)），则 apply 会对 Series 的每个元素逐个调用该函数。

了解你正在应用的函数及其预期的输入类型是区分这两种情况的关键。