pandas 有一些内置的数学和统计计算方法，它们大多数都是 *reductions* 和 *summary statistics*：

对 DataFrame 直接进行 `df.sum()` 将会对列求和，而指定 `axis = 'columns'` 将会对列求和。

NaN 值将会被自动排除，除非整个切片（行或者列）都是 NaN；若不想跳过 NaN 值，直接使用 `skipna = False` 便可。

以下是 *reduction methods*:

Method | Description
:- | :-
`axis` | 指定行（0）或列（1）
`skipna` | 排除缺失值，默认为 `True`
`level` | 如果 axis 已分级索引（MultiIndex），则按级别减少分组

某些 Method（例如`idxmin`和`idxmax`）返回数据内最小值或最大值的索引值；

`cumsum` 则是累计求和，而 `describe` 则是将多种信息返回，包括 count, mean, std, min, 25%, 50%, 75%, max；非数字型数据 `describe` 返回的信息包括 count, unique, top, freq, dtype。

以下是 *Descriptive and summary statistics* 常用的方程：

Method | Description
:- | :-
`count` | 一只两只三只鸭（不记录缺失值）
`describe` | 上面说过啦
`min`, `max` | 最大最小
`argmin`, `argmax` | 返回数据内最小值或最大值的索引值（integer）
`idxmin`, `idxmax` | 上面说过鸟
`quantile` | quantile辣就是
`sum` | sum
`mean` | mean
`median` | median
`mad` | mean absolute deviation from mean value
`prod` | 所有数据的乘积
`var` | sample variance of values
`std` | sample standard deviation of values
`skew` | sample skewness of values (third moment)
`kurt` | sample kurtosis of values (fourth moment)
`cumsum` | 上面说过的啦
`cummin`, `cummax` | 像 cumsum 只不过变成 min max 而已啦
`cumprod` | 乘积累积
`diff` | first arithmetic differnece （time series 很有用）
`pct_change` | 百分比变化

### Correlation and Covariance

这里介绍常用的两个 method：correlation & covariance：

对于两个 Series 之间，我们将写成 `Series1.corr(Series2)` & `Series1.cov(Series2)`

对于 DataFrame 而言，直接使用 `corr` 或者 `cov` 的话将会返回一个完整的矩阵。

若想单独要一个 DataFrame 和 一个 Series 或者另一个 DataFrame 的返回值，则使用 `corrwith` method。

同样在这里可以使用 `axis` 来表明自己需要返回的是行还是列。

### Unique Values, Value Counts, and Membership

接下来介绍一些 one-dimensional Series method：

第一个是 `unique`，它将返回 Series 里面的唯一值。返回的唯一值不一定是排好序的，如果需要我们可以通过 `sort` 来进行进一步排序。

`value_counts` 则是返回每个唯一值对应出现的频率，并且按照频率出现的高低以降序排序，用 `sort = False` 来取消自动排序。

`isin` 可以有效地通过返回 Boolean 值来进行数据筛选。

`match` 将数组中每个值的整数索引计算为另一个不同值的数组； 有助于 data alignment 和 join-type operations

与 `isin` 相关的是 `Index.get_indexer` 方法，该 method 提供了一个索引数组，具体请参考例子：

In [1]:
import pandas as pd

to_match = pd.Series(['c', 'a', 'b', 'b', 'c', 'a'])

unique_vals = pd.Series(['c', 'b', 'a'])

pd.Index(unique_vals).get_indexer(to_match)

array([0, 2, 1, 1, 0, 2], dtype=int64)

有时候你可能想生成一个基于 DataFrame 里不同列的 histogram，具体可参考例子：

In [2]:
data = pd.DataFrame({'Qu1': [1, 3, 4, 3, 4],
                     'Qu2': [2, 3, 1, 2, 3],
                     'Qu3': [1, 5, 2, 4, 4]})

In [3]:
data

Unnamed: 0,Qu1,Qu2,Qu3
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


In [4]:
result = data.apply(pd.value_counts).fillna(0) # Passing pandas.value_counts to the apply function

In [5]:
result

Unnamed: 0,Qu1,Qu2,Qu3
1,1.0,1.0,1.0
2,0.0,2.0,1.0
3,2.0,2.0,0.0
4,2.0,0.0,2.0
5,0.0,0.0,1.0


可以将结果理解为一个横的 histogram（例如Qu1, Qu2, Qu3 各有一个 1）