# 数据聚合和分组操作

In [1]:
import numpy as np 
import pandas as pd

# 1. GroupBy

** split-apply-combine（拆分－应用－合并）**

(1)第一个阶段，pandas对象（无论是Series、DataFrame还是其他的）中的数据会根据你所提供的一个或多个键被拆分（split）为多组。拆分操作是在对象的特定轴上执行的。例如，DataFrame可以在其行（axis=0）或列（axis=1）上进行分组。

(2)然后，将一个函数应用（apply）到各个分组并产生一个新值。

(3)最后，所有这些函数的执行结果会被合并（combine）到最终的结果对象中。结果对象的形式一般取决于数据上所执行的操作

![7178691-e5c671e09ecf94be.png](https://i.loli.net/2019/05/09/5cd3dda7a457b.png)


分组键可以有多种形式，且类型不必相同：

- 列表或数组，其长度与待分组的轴一样。
- 表示DataFrame某个列名的值。
- 字典或Series，给出待分组轴上的值与分组名之间的对应关系。
- 函数，用于处理轴索引或索引中的各个标签

In [2]:
df = pd.DataFrame({'key1' : ['a', 'a', 'b', 'b', 'a'],
                   'key2' : ['one', 'two', 'one', 'two', 'one'],
                   'data1' : np.random.randn(5),'data2' : np.random.randn(5)})
df

Unnamed: 0,data1,data2,key1,key2
0,1.036702,-0.56941,a,one
1,0.618647,-1.6417,a,two
2,3.062309,1.117708,b,one
3,-0.660831,-0.147247,b,two
4,-1.30115,-1.235041,a,one


In [10]:
#根据key1计算data1的均值
grouped = df[['data1']].groupby(df['key1'])
grouped   #grouped是一个GroupBy对象

<pandas.core.groupby.DataFrameGroupBy object at 0x00000000095C7F60>

In [13]:
grouped.mean()

Unnamed: 0_level_0,data1
key1,Unnamed: 1_level_1
a,0.118066
b,1.200739


In [26]:
a = df['data1'].groupby([df['key1'],df['key2']]).count()  #可以使用两个键

In [37]:
a
#a['a'].index[0]

key1  key2
a     one     2
      two     1
b     one     1
      two     1
Name: data1, dtype: int64

实际上，分组键可以是任何长度适当的数组

In [20]:
states = np.array(['Ohio', 'California', 'California', 'Ohio', 'Ohio'])
years = np.array([2005, 2005, 2006, 2005, 2006]) 
df.groupby([states, years]).mean()

Unnamed: 0,Unnamed: 1,data1,data2
California,2005,-0.107063,0.291548
California,2006,0.575065,-0.39868
Ohio,2005,0.283729,0.806103
Ohio,2006,0.339454,1.791119


分组信息就位于相同的要处理DataFrame中。这里，你还可以将列名（可以是字符串、数字或其他Python对象）用作分组键

In [42]:
df.groupby(['key1', 'key2']).size()

key1  key2
a     one     2
      two     1
b     one     1
      two     1
dtype: int64

### 1.1 遍历各分组

GroupBy对象支持迭代

In [24]:
for name, group in df.groupby('key1'):
    print(name) #健值名
    print(group) #分组数据

a
      data1     data2 key1 key2
0  0.163951  0.811067    a  one
1 -0.107063  0.291548    a  two
4  0.339454  1.791119    a  one
b
      data1     data2 key1 key2
2  0.575065 -0.398680    b  one
3  0.403508  0.801138    b  two


In [57]:
g = dict(list(df.groupby('key1')))
g['a']

Unnamed: 0,data1,data2,key1,key2
0,1.036702,-0.56941,a,one
1,0.618647,-1.6417,a,two
4,-1.30115,-1.235041,a,one


In [25]:
#多个分组键的情况下
for (k1,k2), group in df.groupby(['key1','key2']):
    print((k1,k2))
    print(group)

('a', 'one')
      data1     data2 key1 key2
0  0.163951  0.811067    a  one
4  0.339454  1.791119    a  one
('a', 'two')
      data1     data2 key1 key2
1 -0.107063  0.291548    a  two
('b', 'one')
      data1    data2 key1 key2
2  0.575065 -0.39868    b  one
('b', 'two')
      data1     data2 key1 key2
3  0.403508  0.801138    b  two


In [26]:
pieces = dict(list(df.groupby('key1')))
pieces['b']

Unnamed: 0,data1,data2,key1,key2
2,0.575065,-0.39868,b,one
3,0.403508,0.801138,b,two


In [60]:
df.dtypes

data1    float64
data2    float64
key1      object
key2      object
dtype: object

In [61]:
g = df.groupby(df.dtypes, axis = 1)
for dtype, group in g:
    print(dtype)
    print(group)

float64
      data1     data2
0  1.036702 -0.569410
1  0.618647 -1.641700
2  3.062309  1.117708
3 -0.660831 -0.147247
4 -1.301150 -1.235041
object
  key1 key2
0    a  one
1    a  two
2    b  one
3    b  two
4    a  one


In [65]:
df.groupby('key1')[['data2']].mean() #如果传入的是列表或数组，返回的是DataFrame对象 df['data1']

Unnamed: 0_level_0,data2
key1,Unnamed: 1_level_1
a,-1.148717
b,0.485231


In [66]:
df.groupby('key1')['data2'].mean() #如果传入的是单个列名，返回的是Series对象 df[['data1']]

key1
a   -1.148717
b    0.485231
Name: data2, dtype: float64

### 1.2使用字典、函数分组

# 2. 聚合

聚合是指所有根据数组产生标量值的数据转换过程

![7178691-ba8de524e08b1b6f.png](https://i.loli.net/2019/05/16/5cdce1f56d1ab99185.png)

可以自定义聚类函数，但是使用时需要将函数传递给aggregate或agg方法

- df.groupby().agg(f)
