## Idioms

These are some neat pandas idioms

if-then/if-then-else on one column, and assignment to another one or more columns:

In [2]:
import pandas as pd
import numpy as np

In [3]:
df = pd.DataFrame({'AAA':[4, 5, 6, 7], 'BBB': [10, 20, 30, 40], 'CCC': [100, 50, -30, -50]}) ; df

Unnamed: 0,AAA,BBB,CCC
0,4,10,100
1,5,20,50
2,6,30,-30
3,7,40,-50


### if-then...

An if-then on one column

<font color=Gainsboro> 获取 __0__ 号索引 </font>

In [8]:
df.loc[0]

AAA      4
BBB     10
CCC    100
Name: 0, dtype: int64

<font color=Gainsboro> 获取 __AAA__ 列

In [9]:
df.AAA

0    4
1    5
2    6
3    7
Name: AAA, dtype: int64

<font color=Gainsboro> 生成 __AAA__ 列中大于 __5__ 的 __boolean Series__, 赋予变量 __b__

In [11]:
b = df.AAA > 5 ; b

0    False
1    False
2     True
3     True
Name: AAA, dtype: bool

<font color=Gainsboro> 根据 __AAA__ 列的 __boolean Series__ 过滤 __df__

In [13]:
df.loc[b]

Unnamed: 0,AAA,BBB,CCC
2,6,30,-30
3,7,40,-50


<font color=Gainsboro> 根据 __AAA__ 列的 __boolean Series__ 返回 __BBB__ 列的 __Series__

In [14]:
df.loc[b, 'BBB']

2    30
3    40
Name: BBB, dtype: int64

<font color=Gainsboro> 以 __AAA__ 列的值 __大于5__ 为条件,设置 __BBB__ 列的值为 __-1__

In [17]:
df.loc[b, 'BBB'] = -1 ; df

Unnamed: 0,AAA,BBB,CCC
0,4,10,100
1,5,20,50
2,6,-1,-30
3,7,-1,-50


An if-then with assignment to 2 columns:

<font color=Gainsboro> 以 __AAA__ 列的值 __大于等于5__ 为条件,设置 __BBB CCC__ 列的值为 __555__

In [19]:
df.loc[df.AAA >= 5, ('BBB', 'CCC')] = 555 ; df

Unnamed: 0,AAA,BBB,CCC
0,4,10,100
1,5,555,555
2,6,555,555
3,7,555,555


Or use pandas where after you’ve set up a mask

<font color=Gainsboro> 设置一个 __AAA__ 列为 __True__ , __BBB__ 列为 __False__ , __CCC__ 列 __True False__ 交替的 __df__ 蒙版 __mask__

In [23]:
mask = pd.DataFrame({'AAA' : [True] * len(df), 'BBB' : [False] * len(df), 'CCC' : [True, False] * 2}) ; mask

Unnamed: 0,AAA,BBB,CCC
0,True,False,True
1,True,False,False
2,True,False,True
3,True,False,False


<font color=Gainsboro> 根据 上面的蒙版过滤 __df__ 并将蒙版之外的值设置为 -1000

In [24]:
df.where(mask, other=-1000)

Unnamed: 0,AAA,BBB,CCC
0,4,-1000,100
1,5,-1000,-1000
2,6,-1000,555
3,7,-1000,-1000


if-then-else using numpy’s where()

<font color=Gainsboro> 在 __df__ 后面追加一列 __logic__ ,如果 __AAA__ 列的值 > 5 那么新列的值为 __high__ ,否则为 __low__

In [31]:
df['logic'] = np.where(df.AAA > 5, 'high', 'low') ; df

Unnamed: 0,AAA,BBB,CCC,logic
0,4,10,100,low
1,5,555,555,low
2,6,555,555,high
3,7,555,555,high


### Splitting

Split a frame with a boolean criterion

In [5]:
df = pd.DataFrame({'AAA':[4, 5, 6, 7], 'BBB': [10, 20, 30, 40], 'CCC': [100, 50, -30, -50]}) ; df

Unnamed: 0,AAA,BBB,CCC
0,4,10,100
1,5,20,50
2,6,30,-30
3,7,40,-50


<font color=Gainsboro> 根据 __AAA__ 的条件 __<= 5__ 来分割 __df__ 创建新的对向 __dflow__

<font color=Gainsboro> 根据 __AAA__ 的条件 __> 5__ 来分割 __df__ 创建新的对向 __dfhigh__

### Building Criteria

Select with multi-column criteria

...and (without assignment returns a Series)

<font color=Gainsboro> 多个条件过滤__AAA__ : __BBB < 25__ & __CCC >= -40__ ,生成 __newseries__

...or (without assignment returns a Series)

<font color=Gainsboro> 多个条件过滤__AAA__ : __BBB < 25__ | __CCC >= -40__ ,生成 __newseries__

...or (with assignment modifies the DataFrame.)

<font color=Gainsboro> 多个条件过滤__AAA__ : __BBB > 25__ | __CCC >= 75__ ,赋值 __0.1__

Select rows with data closest to certain value using argsort

<font color=Gainsboro> 以 __CCC - 3.0 的绝对值__  作为条件对 __df__ 进行 __排序__

Dynamically reduce a list of criteria using a binary operators

<font color=Gainsboro> 创建三个条件: __AAA <= 5.5 , BBB == 10.0 , CCC > -40.0__ 将 __Series__ 分别赋予变量 __crit1 , crit2 , crit3__

One could hard code:

<font color=Gainsboro> 使用 __hard code__ 按照逻辑 __and__ 组合三个条件,将 __Series__ 赋予变量 __all_crit__

...Or it can be done with a list of dynamically built criteria

<font color=Gainsboro> 使用 __list__ 构建上文三个 __Series__ 条件, 将 __list Series__ 赋予变量 __crit_list__

<font color=Gainsboro> 导入 __reduce__

<font color=Gainsboro> 以上文的 __list Series__ 动态构建 __criteria__

<font color=Gainsboro> 以上文的 __criteria__ 处理 __df__

### New content

#### argsort function

``argsort`` 函数返回的是数据集合从小到大的索引值

In [6]:
x = np.array([3, 1, 2])
np.argsort(x)

array([1, 2, 0], dtype=int32)

#### reduce function

``reduce`` 函数是一个 __二元操作函数__ ,他用来将一个数据集合(链表,元组等)中的所有数据进行下列操作:

- 传给 ``reduce`` 中的函数 __func__ 必须是一个二元操作函数
- 先对集合中的第 __1,2__ 个数据进行操作,
- 得到的结果再与 __下一个__ 数据用 __func__ 函数运算,最后得到一个结果.
- 在 __python 3__ 以后, ``reduce`` 已经不在 __built-in function__ 里了,要用它就得 ``from functools import reduce``

In [27]:
from functools import reduce

In [28]:
def myadd(x,y):  
    return x+y

# 结果就是输出 1+2+3+4+5+6+7 的结果,即28
sum = reduce(myadd,(1,2,3,4,5,6,7)) ; sum

28

In [29]:
# 当然,也可以用lambda的方法,更为简单:
sum=reduce(lambda x,y:x+y,(1,2,3,4,5,6,7)) ; sum

28

#### where function