Pandas分组原理
===

---


In [1]:
import numpy as np
import pandas as pd

In [2]:
df = pd.DataFrame({
    'name': ['张三','李四','王五','李四','王五','王五','赵六'],
    'chinese': [18, 53, 67, 63, 39, 70, 94],
    'math': [82, 63, 41, 59, 46, 39, 58],
    'english': [68, 52, 90, 86, 60, 98, 64],
    'test': ['一','一','一','二','二','三','一']
})

df

Unnamed: 0,name,chinese,math,english,test
0,张三,18,82,68,一
1,李四,53,63,52,一
2,王五,67,41,90,一
3,李四,63,59,86,二
4,王五,39,46,60,二
5,王五,70,39,98,三
6,赵六,94,58,64,一


---

分组的内部结构
---

通过查看分组对象的内部结构，了解其原理

In [3]:
x4 = df.groupby('name')
x4

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x0000022055810DD8>

分组对象常见属性和方法

* ngroups: 组的个数 (int)
* size(): 每组元素的个数 (Series)
* groups: 每组元素在原 DataFrame 中的索引信息 (dict)
* get_group(label): 标签 label 对应的数据 (DataFrame)

In [9]:
x4.ngroups
x4.size()
x4.groups
x4.get_group('李四')

Unnamed: 0,name,chinese,math,english,test
1,李四,53,63,52,一
3,李四,63,59,86,二


分组不能直接输出，通过转为列表、字典或遍历查看分组内部结构

#### 分组转为列表或字典

转为列表

In [10]:
x5 = list(x4)
x5

[('张三',   name  chinese  math  english test
  0   张三       18    82       68    一),
 ('李四',   name  chinese  math  english test
  1   李四       53    63       52    一
  3   李四       63    59       86    二),
 ('王五',   name  chinese  math  english test
  2   王五       67    41       90    一
  4   王五       39    46       60    二
  5   王五       70    39       98    三),
 ('赵六',   name  chinese  math  english test
  6   赵六       94    58       64    一)]

In [15]:
x5[0]
x5[0][0]
x5[0][1]

Unnamed: 0,name,chinese,math,english,test
0,张三,18,82,68,一


In [19]:
x5[1]
x5[1][0]
x5[1][1]

Unnamed: 0,name,chinese,math,english,test
1,李四,53,63,52,一
3,李四,63,59,86,二


In [18]:
x5[2]
x5[2][0]
x5[2][1]

Unnamed: 0,name,chinese,math,english,test
2,王五,67,41,90,一
4,王五,39,46,60,二
5,王五,70,39,98,三


In [20]:
x5[3]
x5[3][0]
x5[3][1]

Unnamed: 0,name,chinese,math,english,test
6,赵六,94,58,64,一


In [21]:
type(x5[3][1])

pandas.core.frame.DataFrame

转为字典

In [22]:
x6 = dict(list(x4))
x6

{'张三':   name  chinese  math  english test
 0   张三       18    82       68    一, '李四':   name  chinese  math  english test
 1   李四       53    63       52    一
 3   李四       63    59       86    二, '王五':   name  chinese  math  english test
 2   王五       67    41       90    一
 4   王五       39    46       60    二
 5   王五       70    39       98    三, '赵六':   name  chinese  math  english test
 6   赵六       94    58       64    一}

In [23]:
x6['李四']

Unnamed: 0,name,chinese,math,english,test
1,李四,53,63,52,一
3,李四,63,59,86,二


In [24]:
x6['王五']

Unnamed: 0,name,chinese,math,english,test
2,王五,67,41,90,一
4,王五,39,46,60,二
5,王五,70,39,98,三


#### 遍历分组内部结构

In [28]:
# 单列分组基准遍历

for method, group in x4:
#     print(method)  # 分组基准
#     print(group) # 分组后的DataFrame
#     print(type(group))
    x7 = group
    
x7

Unnamed: 0,name,chinese,math,english,test
6,赵六,94,58,64,一


In [32]:
# 多列分组遍历内部结构

for (k1, k2),group in df.groupby(['name', 'test']):
#     print(k1)  # 分组基准1
#     print(k2)  # 分组基准2
#     print(group)  # 分组后的DataFrame
    x8 = group
    
x8

Unnamed: 0,name,chinese,math,english,test
6,赵六,94,58,64,一
