## 汇总和统计
- 在进行汇总和统计的时候，会自动排除遇到NaN值，除非使用`shipna=False`参数禁用该功能
- 使用`axis`参数指定统计的轴方向，默认是按行方向对列进行统计
- `idxmin`和`idxmax`属于间接统计，返回最大/最小值的索引
- `cumsum`属于累计统计
- `describe`一次产生多个汇总，非对数值型数据和非数值型数据汇总项目是不同的  
  
**常见汇总统计方法**
![title](img/pandas汇总统计.jpg)

In [1]:
import pandas as pd
import numpy as np
frame=pd.DataFrame([[1,2,3],[4,np.nan,6],[np.nan,8,9]],index=list('abc'),columns=list('ABC'))
frame

Unnamed: 0,A,B,C
a,1.0,2.0,3
b,4.0,,6
c,,8.0,9


In [2]:
frame.sum() # 默认按行方向统计返回含列的Series，并排除NaN值

A     5.0
B    10.0
C    18.0
dtype: float64

In [3]:
frame.sum(axis=1,skipna=False) # 按列方向统计返回含行的Series，设置不排除NaN值

a    6.0
b    NaN
c    NaN
dtype: float64

In [4]:
frame.idxmax() # 间接统计，返回符合条件的索引

A    b
B    c
C    c
dtype: object

In [5]:
frame.describe() # 汇总统计

Unnamed: 0,A,B,C
count,2.0,2.0,3.0
mean,2.5,5.0,6.0
std,2.12132,4.242641,3.0
min,1.0,2.0,3.0
25%,1.75,3.5,4.5
50%,2.5,5.0,6.0
75%,3.25,6.5,7.5
max,4.0,8.0,9.0


### 唯一值、值计数以及成员资格

In [6]:
obj = pd.Series(['c', 'a', 'd', 'a', 'a', 'b', 'b', 'c', 'c'])
uniques = obj.unique() # 返回唯一值，结果未排序，使用uniques.sort()可以排序
uniques

array(['c', 'a', 'd', 'b'], dtype=object)

In [7]:
obj.value_counts() # 计算值的出现频率，结果按频率降序排序

a    3
c    3
b    2
d    1
dtype: int64

In [8]:
pd.value_counts(obj.values,sort=False) # value_counts也是pd顶级方法

c    3
a    3
d    1
b    2
dtype: int64

In [9]:
# isin用于判断矢量化集合的成员资格
mask=obj.isin(['b','c']) 
mask

0     True
1    False
2    False
3    False
4    False
5     True
6     True
7     True
8     True
dtype: bool

In [10]:
obj[mask] # 可用于过滤Series中或DataFrame列中数据的子集

0    c
5    b
6    b
7    c
8    c
dtype: object

In [11]:
# Index.get_indexer可以返回一个数组数值在另外一个数组中的索引
to_match = pd.Series(['c', 'a', 'b', 'b', 'c', 'a'])
unique_vals = pd.Series(['c', 'b', 'a'])
pd.Index(unique_vals).get_indexer(to_match)

array([0, 2, 1, 1, 0, 2], dtype=int64)

![title](img/pandas唯一值.png)

例：获取DataFrame中每列中每个数值出现的频率

In [12]:
data = pd.DataFrame({'Qu1': [1, 3, 4, 3, 4], 
                     'Qu2': [2, 3, 1, 2, 3], 
                     'Qu3': [1, 5, 2, 4, 4]})
data

Unnamed: 0,Qu1,Qu2,Qu3
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


In [14]:
# 使用apply函数将value_counts应用到对象的每列中
result = data.apply(pd.value_counts).fillna(0)
result

Unnamed: 0,Qu1,Qu2,Qu3
1,1.0,1.0,1.0
2,0.0,2.0,1.0
3,2.0,2.0,0.0
4,2.0,0.0,2.0
5,0.0,0.0,1.0
