应用 Function
====

要将您自己或其他库的函数应用于pandas对象，主要有以下三种方法。使用哪个方法适当，取决于函数是期望在整个`DataFrame`或`Series`上，还是行或列方式，或元素方式上运行。

1. [Tablewise Function Application](http://pandas.pydata.org/pandas-docs/version/0.20.3/basics.html#tablewise-function-application): [`pipe()`](http://pandas.pydata.org/pandas-docs/version/0.20.3/generated/pandas.DataFrame.pipe.html#pandas.DataFrame.pipe)
2. [Row or Column-wise Function Application](http://pandas.pydata.org/pandas-docs/version/0.20.3/basics.html#row-or-column-wise-function-application): [`apply()`](http://pandas.pydata.org/pandas-docs/version/0.20.3/generated/pandas.DataFrame.apply.html#pandas.DataFrame.apply)
3. [Aggregation API](http://pandas.pydata.org/pandas-docs/version/0.20.3/basics.html#aggregation-api): [`agg()`](http://pandas.pydata.org/pandas-docs/version/0.20.3/generated/pandas.DataFrame.agg.html#pandas.DataFrame.agg) and [`transform()`](http://pandas.pydata.org/pandas-docs/version/0.20.3/generated/pandas.DataFrame.transform.html#pandas.DataFrame.transform)
4. [Applying Elementwise Functions](http://pandas.pydata.org/pandas-docs/version/0.20.3/basics.html#applying-elementwise-functions): [`applymap()`](http://pandas.pydata.org/pandas-docs/version/0.20.3/generated/pandas.DataFrame.applymap.html#pandas.DataFrame.applymap)

Tablewise Function Application: pipe()
====
**表格式应用函数**

`DataFrames` and `Series` can of course just be passed into functions. However, if the function needs to be called in a chain, consider using the [`pipe()`](http://pandas.pydata.org/pandas-docs/version/0.20.3/generated/pandas.DataFrame.pipe.html#pandas.DataFrame.pipe) method. Compare the following

`DataFrames`和`Series`当然可以被传递给函数。但是，如果需要在链中调用函数，请考虑使用[`pipe()`](http://pandas.pydata.org/pandas-docs/version/0.20.3/generated/pandas.DataFrame.pipe.html#pandas.DataFrame.pipe) 方法。 比较以下内容：

[`pandas`文档](http://pandas.pydata.org/pandas-docs/stable/), [Tablewise Function Application](http://pandas.pydata.org/pandas-docs/version/0.20.3/basics.html#tablewise-function-application): [`pipe()`](http://pandas.pydata.org/pandas-docs/version/0.20.3/generated/pandas.DataFrame.pipe.html#pandas.DataFrame.pipe)介绍了`pipe()`方法，该方法可以使在pandas对象上连续执行多个函数操作的代码变得简洁明了。

假设想要将一个函数应用于`DataFrame`或`Series`，然后应用其他，其他，...等函数，一种方法是以“夹心”方式执行此操作：

```
f(g(h(df), arg1=a), arg2=b, arg3=c)

```

上述这种符号的嵌套使代码变得混乱并且容易出错。可以使用`pipe（）`方法实现相同的功能，但代码会简明得得。pipe可以被认为是一种功能链。下面是用`pipe（）`完成上面代码相同任务的方法：

```
(df.pipe(h)
 .pipe(g, arg1=a)
 .pipe(f, arg2=b, arg3=c)
)
```
这种方式更简洁，有助于跟踪函数及其相应参数的应用顺序。





## pipe语法
`DataFrame.pipe(func, *args, **kwargs)`

### Parameters:	
**func** : function

要应用于NDFrame的函数。 `args`和`kwargs`是传入`func`的参数。

注意：默认`func`的第一个位置参数是`NDFrame`，如果在定义`func`时，第一个位置参数不是`NDFrame`，在`pipe()`中需要使用`data`关键字引用`NDFrame`的名称，显示地指定`NDFrame`。

**args** : positional arguments passed into func. 位置参数，传递给`func`。

**kwargs** : a dictionary of keyword arguments passed into func. 字典关键字参数，传递给`func`。

### Returns:	
**object** : the return type of func. 

**对象**：`func`返回的类型。

**Notes**

当将期望在`Series`或`DataFrames`上将函数链接在一起时，使用`.pipe`，而不是这样写：

> `f(g(h(df), arg1=a), arg2=b, arg3=c)`

应该这样写：

```
>>> (df.pipe(h)
...    .pipe(g, arg1=a)
...    .pipe(f, arg2=b, arg3=c)
... )
```

如果有一个函数不是将数据作为第一个参数，例如作为第二个参数，则传递一个元组，指示哪个关键字需要数据。 例如，假设`f`将数据作为`arg2`：

```
>>> (df.pipe(h)
...    .pipe(g, arg1=a)
...    .pipe((f, 'arg2'), arg1=a, arg3=c)
...  )
```

即将 `func`参数和该函数需要数据集作为参数的参数名称字符串组成一个元组，作为`pipe()`的第一个参数。

## Example 1

假设想要将以下三个函数应用于DataFrame或Series：

- 第一个函数对数据集做减法
- 第二个函数对数据集做除法
- 第三个函数对数据集先做乘方，再做与标量求模。

先创建这些函数：

```
def adder(dataset,addn):
    dataset += addn
    return dataset
    
def div(dataset,divn):
    dataset /= divn
    return dataset
    
def time_mod(dataset, tn, mn):
    dataset = np.mod(np.power(dataset,mn),tn)
    return dataset
```

首先，我使用`adder`函数向数据集指定列的每个条目添加2。然后，使用`div`函数将指定列的每个条目除以2。最后，用`time_log`函数将指定列执行乘方和log运算。

## 示例代码

In [233]:
import numpy as np
import pandas as pd

In [234]:
def adder(dataset,addn):
    dataset += addn
    return dataset

In [235]:
def div(dataset,divn):
    dataset /= divn
    return dataset

In [236]:
def time_mod(dataset, tn, mn):
    dataframe = np.mod(np.power(dataset,mn),tn)
    return dataset

In [237]:
dn = np.arange(1,10,1).reshape(3,3)

In [238]:
df = pd.DataFrame(data = dn,index=['A','B','C'],columns=['col1','col2','col3'])

In [239]:
(df.pipe(adder, addn=2)
       .pipe(div, divn=4)
       .pipe(time_mod, tn=4, mn=2)
)

Unnamed: 0,col1,col2,col3
A,0.75,1.0,1.25
B,1.5,1.75,2.0
C,2.25,2.5,2.75


**注意**：

要应用`pipe()`，函数的第一个参数一般应是数据集，在`pipe()`链接函数时，函数的第一个参数省略，会自动传递调用的数据集给`func`。例如，`adder`接受两个参数`adder(dataframe, addn)`。第一个参数`dataframe`接收数据集，可以直接使用`pipe(adder, addn)`。

如果要应用于`pipe()`的函数的第一个参数不是数据集，就不起作用。解决办法是指定`pipe`函数中引用数据集的参数名称，即告知pipe，该函数中哪个参数引用数据集。方法是：

- 将 `func`名 和函数定义中代表数据集的参数名称字符串组成一个元组，作为`pipe()`的第一个参数传递。**参数名称需要引用包括，即将参数名称作为字典键**。

## 示例 2

现在重新定义`adder()`函数，将数据集作为第二个参数：`adder（addn，dataset）`。

要在`pipe()`中使用该函数，格式如下：`DataFrame.pipe((adder,"dataset"), addn)`。

In [244]:
def adder(addn,dataset):  #adder函数的dataset参数表示数据集
    dataset += addn
    return dataset

In [245]:
df = pd.DataFrame(data = dn,index=['A','B','C'],columns=['col1','col2','col3'])

In [246]:
(df.pipe((adder, 'dataset'),addn=2) #adder函数的dataset参数表示数据集，和函数名组成一个元组，参数名需要用引号包括。
       .pipe(div,divn=4)
       .pipe(time_mod,tn=4,mn=2)
)

Unnamed: 0,col1,col2,col3
A,0.75,1.0,1.25
B,1.5,1.75,2.0
C,2.25,2.5,2.75
