In [33]:
import pandas as pd

# apply 函数简介

- pandas 的 apply() 函数可以作用于 Series 或者整个 DataFrame，功能也是自动遍历整个 Series 或者 DataFrame，对每一个元素运行指定的函数。

    - 1）pandas 提供了很多数据处理的 API，但当提供的 API 不能满足需求的时候，需要自己编写数据处理函数, 这个时候可以使用 apply 函数
    - 2）apply 函数可以接收一个自定义函数，可以将 DataFrame 的行或列数据传递给自定义函数处理
    - 3）apply 函数类似于编写一个 for 循环，遍历行、列的每一个元素, 但比使用 for 循环效率高很多

# Series 的 apply 方法

## 创建一个 DataFrame 数据集，准备数据

In [34]:
# 创建一个 DataFrame 数据集，准备数据
df = pd.DataFrame({'a':[10,20,30],'b':[20,30,40]})
df

Unnamed: 0,a,b
0,10,20
1,20,30
2,30,40


## 创建一个自定义函数

In [35]:
def my_sq(x):
    """求平方"""
    return x**2

## 使用 apply 方法进行数据处理

In [36]:
df['a'].apply(my_sq)

0    100
1    400
2    900
Name: a, dtype: int64

## series 的 apply 还可以接收多个参数

In [37]:
def my_add(x,n):
#     求和
    return x+n

In [38]:
df['a'].apply(my_add,args=(3,))

0    13
1    23
2    33
Name: a, dtype: int64

In [39]:
df['a'].apply(my_add,n=3)

0    13
1    23
2    33
Name: a, dtype: int64

# DataFrame 的 apply 方法

- DataFrame 的 apply 函数用法和 Series的用法基本一致，当传入一个函数后，apply 方法就会把传入的函数应用于 DataFrame 的行或列

## 按列执行

### 定义一个处理函数

In [40]:
def sub_one(x):
#     减一操作
    print(x)
    return x - 1

### 针对 df 进行 apply 操作，默认按列执行

In [41]:
# 按列计算
df.apply(sub_one)

0    10
1    20
2    30
Name: a, dtype: int64
0    20
1    30
2    40
Name: b, dtype: int64


Unnamed: 0,a,b
0,9,19
1,19,29
2,29,39


## 按行执行

- DataFrame 的 apply 函数有一个 axis 参数，默认值为 0，表示按列执行；可以设置为axis=1 ，表示按行执行

### 针对 df 进行 apply 操作，设置按行执行

In [42]:
# 按行计算
df.apply(sub_one,axis=1)

a    10
b    20
Name: 0, dtype: int64
a    20
b    30
Name: 1, dtype: int64
a    30
b    40
Name: 2, dtype: int64


Unnamed: 0,a,b
0,9,19
1,19,29
2,29,39


## 每一个值都执行

- DataFrame 还有一个 applymap 函数，applymap 也有一个 func 参数接收一个函数，针对 DataFrame 每个值应用 func 指定的函数进行操作，分别返回的结果构成新的 DataFrame 对象
- 注意：applymap函数是 DataFrame 独有的，Series 没有这个方法

In [43]:
# sub_one应用到df中的每一个元素
df.applymap(sub_one)

10
20
30
20
30
40


Unnamed: 0,a,b
0,9,19
1,19,29
2,29,39


# apply 使用案例

## 加载titanic.csv数据集，通过df.info()函数来查看数据集基本信息，从中发现缺失值

In [44]:
# 通过一个数据集 titanic.csv，应用 apply 函数计算缺失值的占比以及非空值占比
titanic = pd.read_csv('./data/titanic.csv')
titanic

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True


In [45]:
titanic = pd.read_csv('./data/titanic.csv')
titanic.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 15 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   survived     891 non-null    int64  
 1   pclass       891 non-null    int64  
 2   sex          891 non-null    object 
 3   age          714 non-null    float64
 4   sibsp        891 non-null    int64  
 5   parch        891 non-null    int64  
 6   fare         891 non-null    float64
 7   embarked     889 non-null    object 
 8   class        891 non-null    object 
 9   who          891 non-null    object 
 10  adult_male   891 non-null    bool   
 11  deck         203 non-null    object 
 12  embark_town  889 non-null    object 
 13  alive        891 non-null    object 
 14  alone        891 non-null    bool   
dtypes: bool(2), float64(2), int64(4), object(7)
memory usage: 92.4+ KB


## 完成自定义函数

通过观察发现有 4 列数据存在缺失值，age 和 deck 两列缺失值较多；此时我们就来完成几个自定义函数，分别来计算：

- 缺失值总数
- 缺失值占比
- 非缺失值占比

### 缺失值数目

In [46]:
def count_missing(vec):
#     计算缺失值的个数
    return vec.isnull().sum()

### 缺失值占比

In [47]:
def prop_missing(vec):
#     计算缺失值的比例
    return count_missing(vec) / vec.size

### 非缺失值占比

In [48]:
def prop_complete(vec):
#     计算非缺失值占比
    return 1 - prop_missing(vec)

## 计算每一列缺失值及非空值的占比

### 计算数据集中每列的缺失值

In [49]:
titanic.apply(count_missing) 

survived         0
pclass           0
sex              0
age            177
sibsp            0
parch            0
fare             0
embarked         2
class            0
who              0
adult_male       0
deck           688
embark_town      2
alive            0
alone            0
dtype: int64

### 计算数据集中每列的缺失值比例

In [50]:
titanic.apply(prop_missing)

survived       0.000000
pclass         0.000000
sex            0.000000
age            0.198653
sibsp          0.000000
parch          0.000000
fare           0.000000
embarked       0.002245
class          0.000000
who            0.000000
adult_male     0.000000
deck           0.772166
embark_town    0.002245
alive          0.000000
alone          0.000000
dtype: float64

### 计算数据集中每列的非缺失值比例

In [51]:
titanic.apply(prop_complete)

survived       1.000000
pclass         1.000000
sex            1.000000
age            0.801347
sibsp          1.000000
parch          1.000000
fare           1.000000
embarked       0.997755
class          1.000000
who            1.000000
adult_male     1.000000
deck           0.227834
embark_town    0.997755
alive          1.000000
alone          1.000000
dtype: float64

## 计算每一行缺失值及非空值的占比

### 计算数据集中每行的缺失值

In [52]:
titanic.apply(count_missing,axis=1).head()

0    1
1    0
2    1
3    0
4    1
dtype: int64

### 计算数据集中每行的缺失值比例

In [53]:
titanic.apply(prop_missing,axis=1)

0      0.066667
1      0.000000
2      0.066667
3      0.000000
4      0.066667
         ...   
886    0.066667
887    0.000000
888    0.133333
889    0.000000
890    0.066667
Length: 891, dtype: float64

### 计算数据集中每行的非缺失值比例

In [54]:
titanic.apply(prop_complete,axis=1)

0      0.933333
1      1.000000
2      0.933333
3      1.000000
4      0.933333
         ...   
886    0.933333
887    1.000000
888    0.866667
889    1.000000
890    0.933333
Length: 891, dtype: float64

### 按缺失值数量分别统计有多少行

In [55]:
titanic.apply(count_missing,axis=1).value_counts()

1    549
0    182
2    160
dtype: int64

# 函数向量化

## 创建一个DataFrame

In [56]:
df = pd.DataFrame({
    'a':[10,20,30],
    'b':[20,30,40]
})
df

Unnamed: 0,a,b
0,10,20
1,20,30
2,30,40


## 此时我们创建一个函数，两个 series 计算求和

In [57]:
def add_vec(x,y):
    return x + y

In [58]:
add_vec(df['a'],df['b'])

0    30
1    50
2    70
dtype: int64

## 稍微修改一下函数，只加一个判断条件

In [59]:
def add_vec_2(x,y):
    if x != 0:
        return x + y

In [60]:
# add_vec_2(df['a'],df['b'])

- 上面函数中，判断条件if x != 0 ，x是series对象，是一个向量， 但20是具体的数值，int类型的变量，是一个标量。向量和标量不能直接计算，所以出错，这个时候可以使用numpy.vectorize()将函数向量化

In [61]:
import numpy as np

## 在声明函数时，使用装饰器@np.vectorize，将函数向量化

In [62]:
@np.vectorize
def add_vec_2(x,y):
    if x != 0:
        return x + y
    else:
        return x

In [63]:
add_vec_2(df['a'],df['b'])

array([30, 50, 70], dtype=int64)

# lambda 函数

使用 apply 和 applymap 对数据进行处理时，当处理函数比较简单的时候，没有必要创建一个函数， 可以使用lambda 表达式创建匿名函数

lambda匿名函数的优点如下：

- 使用 Python 写一些执行脚本时，使用 lambda 可以省去定义函数的过程，让代码更加精简
- 对于一些抽象的，不会别的地方再复用的函数，有时候给函数起个名字也是个难题，使用 lambda 不需要考虑命名的问题
- 使用 lambda 在某些时候让代码更容易理解

## 示例：df 中的数据加1

In [64]:
df.apply(lambda x:x+1)

Unnamed: 0,a,b
0,11,21
1,21,31
2,31,41


# 总结
- Series 和 DataFrame 均可以通过 apply 传入自定义函数
- DataFrame 也可通过 applymap 传入自定义函数
- 有些时候需要通过 np 的 vectorize 函数才能进行向量化计算
- lambda 表达式可用于创建一些匿名的简单函数