# 惯用语

对一列数据执行 if-then / if-then-else 操作，把计算结果赋值给一列或多列：

In [5]:
import pandas as pd
import numpy as np

In [6]:
# 初始化数据，供后面练习使用
df = pd.DataFrame({'AAA': [4, 5, 6, 7],
                    'BBB': [10, 20, 30, 40],
                    'CCC': [100, 50, -30, -50]})

In [7]:
df

Unnamed: 0,AAA,BBB,CCC
0,4,10,100
1,5,20,50
2,6,30,-30
3,7,40,-50


if-then…

在一列上执行 if-then 操作：

In [20]:
# 当AAA列数值大于5时，把对应的BBB列数值更新为-1
df.loc[df.AAA >= 5, 'BBB'] = -1

In [21]:
df

Unnamed: 0,AAA,BBB,CCC
0,4,2000,2000
1,5,-1,555
2,6,-1,555
3,7,-1,555


在两列上执行 if-then 操作：

In [14]:
# 如果AAA列数据大于等于5，把对应BBB,CCC列的数据更新为555
df.loc[df.AAA >= 5, ['BBB', 'CCC']] = 555

In [15]:
df

Unnamed: 0,AAA,BBB,CCC
0,4,10,100
1,5,555,555
2,6,555,555
3,7,555,555


再添加一行代码，执行 -else 操作：

In [16]:
# 如果AAA列数据小于5，则把对应BBB,CCC列数据更新为2000
df.loc[df.AAA < 5, ['BBB', 'CCC']] = 2000

In [17]:
df

Unnamed: 0,AAA,BBB,CCC
0,4,2000,2000
1,5,555,555
2,6,555,555
3,7,555,555


或用 Pandas 的 where 设置掩码（mask）：

In [18]:
df_mask = pd.DataFrame({'AAA': [True] * 4,
                        'BBB': [False] * 4,
                        'CCC': [True, False] * 2})

In [19]:
df.where(df_mask, -1000)

Unnamed: 0,AAA,BBB,CCC
0,4,-1000,2000
1,5,-1000,-1000
2,6,-1000,555
3,7,-1000,-1000


用 NumPy where() 函数实现 if-then-else

In [22]:
# 初始化数据
df = pd.DataFrame({'AAA': [4, 5, 6, 7],
                   'BBB': [10, 20, 30, 40],
                   'CCC': [100, 50, -30, -50]})

In [23]:
df

Unnamed: 0,AAA,BBB,CCC
0,4,10,100
1,5,20,50
2,6,30,-30
3,7,40,-50


In [26]:
# 新建一列logic，当AAA列数据大于5，logic标识为gihg,否则为low
df['logic'] = np.where(df['AAA'] > 5, 'high', 'low')

In [27]:
df

Unnamed: 0,AAA,BBB,CCC,logic
0,4,10,100,low
1,5,20,50,low
2,6,30,-30,high
3,7,40,-50,high
