分组统计 - groupby功能

* 根据某些条件将数据拆分成组
* 对每个组独立应用函数
* 将结果合并到一个数据结构中

Dataframe在行（axis=0）或列（axis=1）上进行分组，将一个函数应用到各个分组并产生一个新值，然后函数执行结果被合并到最终的结果对象中。

df.groupby(by=None, axis=0, level=None, as_index=True, sort=True, group_keys=True, squeeze=False, **kwargs)

In [2]:
import numpy as np
import pandas as pd
# 导入numpy、pandas模块

In [7]:
# 分组

df = pd.DataFrame({'A' : ['foo', 'bar', 'foo', 'bar','foo', 'bar', 'foo', 'foo'],
                   'B' : ['one', 'one', 'two', 'three', 'two', 'two', 'one', 'three'],
                   'C' : np.random.randn(8),
                   'D' : np.random.randn(8)})
print(df)
print('-------------------------------------------')

print(df.groupby('A'), type(df.groupby('A')))
print('-------------------------------------------')
# 直接分组得到一个groupby对象，是一个中间数据，没有进行计算

a = df.groupby('A').mean()
b = df.groupby(['A','B']).mean()
c = df.groupby(['A'])['D'].mean()  # 以A分组，算D的平均值
print(a,type(a),'\n',a.columns)
print('-------------------------------------------')
print(b,type(b),'\n',b.columns)
print('-------------------------------------------')
print(c,type(c))
# 通过分组后的计算，得到一个新的dataframe
# 默认axis = 0，以行来分组
# 可单个或多个（[]）列分组

     A      B         C         D
0  foo    one -2.510068  2.456828
1  bar    one  1.496064 -0.942025
2  foo    two -0.991426 -0.380086
3  bar  three  0.782887 -0.748595
4  foo    two  1.455913 -0.215655
5  bar    two -1.465868  0.675656
6  foo    one -1.387422 -1.003090
7  foo  three -0.023724  1.363441
-------------------------------------------
<pandas.core.groupby.groupby.DataFrameGroupBy object at 0x0000027C8B6246D8> <class 'pandas.core.groupby.groupby.DataFrameGroupBy'>
-------------------------------------------
            C         D
A                      
bar  0.271027 -0.338321
foo -0.691346  0.444288 <class 'pandas.core.frame.DataFrame'> 
 Index(['C', 'D'], dtype='object')
-------------------------------------------
                  C         D
A   B                        
bar one    1.496064 -0.942025
    three  0.782887 -0.748595
    two   -1.465868  0.675656
foo one   -1.948745  0.726869
    three -0.023724  1.363441
    two    0.232243 -0.297870 <class 'pandas.core.f

In [8]:
# 分组 - 可迭代对象

df = pd.DataFrame({'X' : ['A', 'B', 'A', 'B'], 'Y' : [1, 4, 3, 2]})
print(df)
print(df.groupby('X'), type(df.groupby('X')))
print('-------------------------------------------')

print(list(df.groupby('X')), '→ 可迭代对象，直接生成list\n')
print(list(df.groupby('X'))[0], '→ 以元祖形式显示\n')
for n,g in df.groupby('X'):
    print(n)
    print(g)
    print('###')
print('-------------------------------------------')
# n是组名，g是分组后的Dataframe

print(df.groupby(['X']).get_group('A'),'\n')
print(df.groupby(['X']).get_group('B'),'\n')
print('-------------------------------------------')
# .get_group()提取分组后的组

grouped = df.groupby(['X'])
print(grouped.groups)
print(grouped.groups['A'])  # 也可写：df.groupby('X').groups['A']
print('-------------------------------------------')
# .groups：将分组后的groups转为dict
# 可以字典索引方法来查看groups里的元素

sz = grouped.size()
print(sz,type(sz))
print('-------------------------------------------')
# .size()：查看分组后的长度

df = pd.DataFrame({'A' : ['foo', 'bar', 'foo', 'bar','foo', 'bar', 'foo', 'foo'],
                   'B' : ['one', 'one', 'two', 'three', 'two', 'two', 'one', 'three'],
                   'C' : np.random.randn(8),
                   'D' : np.random.randn(8)})
grouped = df.groupby(['A','B']).groups
#print(df)
print(grouped)
print(grouped[('foo', 'three')])
# 按照两个列进行分组

   X  Y
0  A  1
1  B  4
2  A  3
3  B  2
<pandas.core.groupby.groupby.DataFrameGroupBy object at 0x000001D2DEC26128> <class 'pandas.core.groupby.groupby.DataFrameGroupBy'>
-------------------------------------------
[('A',    X  Y
0  A  1
2  A  3), ('B',    X  Y
1  B  4
3  B  2)] → 可迭代对象，直接生成list

('A',    X  Y
0  A  1
2  A  3) → 以元祖形式显示

A
   X  Y
0  A  1
2  A  3
###
B
   X  Y
1  B  4
3  B  2
###
-------------------------------------------
   X  Y
0  A  1
2  A  3 

   X  Y
1  B  4
3  B  2 

-------------------------------------------
{'A': Int64Index([0, 2], dtype='int64'), 'B': Int64Index([1, 3], dtype='int64')}
Int64Index([0, 2], dtype='int64')
-------------------------------------------
X
A    2
B    2
dtype: int64 <class 'pandas.core.series.Series'>
-------------------------------------------
{('bar', 'one'): Int64Index([1], dtype='int64'), ('bar', 'three'): Int64Index([3], dtype='int64'), ('bar', 'two'): Int64Index([5], dtype='int64'), ('foo', 'one'): Int64Index([0, 6], dtype='int

In [12]:
# 分组计算函数方法

s = pd.Series([1, 2, 3, 10, 20, 30], index = [1, 2, 3, 1, 2, 3])
print(s,'→ s')
print('-------------------------------------------')
grouped = s.groupby(level=0)  # 唯一索引用.groupby(level=0)，将同一个index的分为一组
print(grouped,'→ grouped')
print('-------------------------------------------')
print(grouped.first(),'→ first：非NaN的第一个值\n')
print('-------------------------------------------')
print(grouped.last(),'→ last：非NaN的最后一个值\n')
print('-------------------------------------------')
print(grouped.sum(),'→ sum：非NaN的和\n')
print('-------------------------------------------')
print(grouped.mean(),'→ mean：非NaN的平均值\n')
print('-------------------------------------------')
print(grouped.median(),'→ median：非NaN的算术中位数\n')
print('-------------------------------------------')
print(grouped.count(),'→ count：非NaN的值\n')
print('-------------------------------------------')
print(grouped.min(),'→ min、max：非NaN的最小值、最大值\n')
print('-------------------------------------------')
print(grouped.std(),'→ std，var：非NaN的标准差和方差\n')
print('-------------------------------------------')
print(grouped.prod(),'→ prod：非NaN的积\n')

1     1
2     2
3     3
1    10
2    20
3    30
dtype: int64 → s
-------------------------------------------
<pandas.core.groupby.groupby.SeriesGroupBy object at 0x000001D2E0034F60> → grouped
-------------------------------------------
1    1
2    2
3    3
dtype: int64 → first：非NaN的第一个值

-------------------------------------------
1    10
2    20
3    30
dtype: int64 → last：非NaN的最后一个值

-------------------------------------------
1    11
2    22
3    33
dtype: int64 → sum：非NaN的和

-------------------------------------------
1     5.5
2    11.0
3    16.5
dtype: float64 → mean：非NaN的平均值

-------------------------------------------
1     5.5
2    11.0
3    16.5
dtype: float64 → median：非NaN的算术中位数

-------------------------------------------
1    2
2    2
3    2
dtype: int64 → count：非NaN的值

-------------------------------------------
1    1
2    2
3    3
dtype: int64 → min、max：非NaN的最小值、最大值

-------------------------------------------
1     6.363961
2    12.727922
3    19.091883
dtype: float64 

In [14]:
# 多函数计算：agg()

df = pd.DataFrame({'a':[1,1,2,2],
                  'b':np.random.rand(4),
                  'c':np.random.rand(4),
                  'd':np.random.rand(4),})
print(df)
print('-------------------------------------------')
print(df.groupby('a').agg(['mean',np.sum]))
print('-------------------------------------------')
print(df.groupby('a')['b'].agg({'result1':np.mean,
                               'result2':np.sum}))
# 函数写法可以用str，或者np.方法
# 可以通过list，dict传入，当用dict时，key名为columns → 更新pandas后会出现警告
# 尽量用list传入

   a         b         c         d
0  1  0.117945  0.915933  0.076285
1  1  0.676544  0.564450  0.622982
2  2  0.936526  0.947924  0.923945
3  2  0.592248  0.324859  0.689782
-------------------------------------------
          b                   c                   d          
       mean       sum      mean       sum      mean       sum
a                                                            
1  0.397244  0.794489  0.740192  1.480384  0.349633  0.699266
2  0.764387  1.528774  0.636392  1.272783  0.806864  1.613727
-------------------------------------------
    result1   result2
a                    
1  0.397244  0.794489
2  0.764387  1.528774


is deprecated and will be removed in a future version
  if sys.path[0] == '':


######## 课后小练习,请查看 “pandas课程作业.docx”  ########

作业1：按要求创建Dataframe df，并通过分组得到以下结果
* 以A分组，求出C,D的分组平均值
* 以A,B分组，求出D,E的分组求和
* 以A分组，得到所有分组，以字典显示
* 按照数值类型分组，求和
* 将C,D作为一组分出来，并计算求和
* 以B分组，求出每组的均值，求和，最大值，最小值