# 第10讲 分组（Grouping）

- 规则
    - 依某种准则，分割数据成若干组
    - 对各组独立作用以函数
    - 结果重组得到新的数据结构

In [1]:
import numpy as np
import pandas as pd

## 10.1 创建一个 GroupBy 对象

- 语法

```python
>>> grouped = obj.groupby(by=None, axis=0, level=None, as_index=True, sort=True, group_keys=True, squeeze=False, observed=False, **kwargs)
```


- 功能
    - 重组数据
    
    
    
- 参数
    - by —— 映射、函数、标签或标签列表
    - axis —— 指定操作方向
    - 其它（略）

GoupBy的操作模式由三个阶段组成：

- 分组：将数据集分成多个组  
- 用函数处理：用函数处理每一个组  
- 合并：把不同组得到的结果合并起来  
- 第一阶段，也就是分组阶段，根据给定标准，把Series或DataFrame等数据结构中的数据分成不同的组，分组标准常与索引或某一列具体的元素相关。  
- 第二阶段也称为“用函数处理”，使用函数处理或者执行由函数定义的计算，为每组数组生成单一的值。  
- 第三阶段为合并，把来自每一组的结果汇集到一起，合并成一个新对象。 

<img src="images\ch10\groupby.png" width=600>

### 例1 创建简单成绩表 —— 数据帧

In [2]:
df = pd.DataFrame({ '姓名' : ['张龙', '赵虎', '张龙', '赵虎','张龙', '赵虎', '张龙', '张龙'],
                    '科目' : ['语文', '语文', '数学', '数学','英语', '英语', '理化', '生物'],
                    '期终' : np.random.randint(80,99,8),
                    '平时' : np.random.randint(80,99,8)})

In [3]:
df

Unnamed: 0,姓名,科目,期终,平时
0,张龙,语文,89,93
1,赵虎,语文,84,83
2,张龙,数学,86,87
3,赵虎,数学,87,98
4,张龙,英语,84,94
5,赵虎,英语,80,92
6,张龙,理化,97,87
7,张龙,生物,95,81


In [4]:
#df.groupby?

## 10.2 认识 groupby 对象的动作

In [5]:
grouped = df.groupby('姓名') # groupby 对象
type(grouped)

pandas.core.groupby.generic.DataFrameGroupBy

In [6]:
# 看看可以有哪些动作？
dir(grouped)

['__class__',
 '__delattr__',
 '__dict__',
 '__dir__',
 '__doc__',
 '__eq__',
 '__format__',
 '__ge__',
 '__getattr__',
 '__getattribute__',
 '__getitem__',
 '__gt__',
 '__hash__',
 '__init__',
 '__init_subclass__',
 '__iter__',
 '__le__',
 '__len__',
 '__lt__',
 '__module__',
 '__ne__',
 '__new__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__setattr__',
 '__sizeof__',
 '__str__',
 '__subclasshook__',
 '__weakref__',
 '_accessors',
 '_add_numeric_operations',
 '_agg_examples_doc',
 '_agg_see_also_doc',
 '_aggregate',
 '_aggregate_generic',
 '_aggregate_item_by_item',
 '_aggregate_multiple_funcs',
 '_apply_filter',
 '_apply_to_column_groupbys',
 '_apply_whitelist',
 '_assure_grouper',
 '_block_agg_axis',
 '_bool_agg',
 '_builtin_table',
 '_choose_path',
 '_concat_objects',
 '_constructor',
 '_cumcount_array',
 '_cython_agg_blocks',
 '_cython_agg_general',
 '_cython_table',
 '_cython_transform',
 '_decide_output_index',
 '_def_str',
 '_define_paths',
 '_deprecations',
 '_dir_additi

- 分组操作
    - 计算总分 —— `sum()`
    - 统计分析 —— `describe()`
    - 列出组 —— `groups`

In [8]:
grouped

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x000001EC1CE8E388>

In [7]:
df.groupby('姓名').sum()

Unnamed: 0_level_0,期终,平时
姓名,Unnamed: 1_level_1,Unnamed: 2_level_1
张龙,451,442
赵虎,251,273


In [10]:
df.groupby('姓名').describe()

Unnamed: 0_level_0,期终,期终,期终,期终,期终,期终,期终,期终,平时,平时,平时,平时,平时,平时,平时,平时
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max,count,mean,std,min,25%,50%,75%,max
姓名,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2
张龙,5.0,90.4,5.59464,82.0,89.0,90.0,95.0,96.0,5.0,87.0,5.0,82.0,83.0,86.0,90.0,94.0
赵虎,3.0,85.666667,4.725816,82.0,83.0,84.0,87.5,91.0,3.0,90.666667,4.163332,86.0,89.0,92.0,93.0,94.0


In [9]:
df.groupby('科目').groups['数学']

Int64Index([2, 3], dtype='int64')

## 10.3 多层次分组

In [11]:
df.groupby(['姓名','科目']).sum()

Unnamed: 0_level_0,Unnamed: 1_level_0,期终,平时
姓名,科目,Unnamed: 2_level_1,Unnamed: 3_level_1
张龙,数学,86,87
张龙,理化,97,87
张龙,生物,95,81
张龙,英语,84,94
张龙,语文,89,93
赵虎,数学,87,98
赵虎,英语,80,92
赵虎,语文,84,83


In [13]:
df.groupby(['科目','姓名']).sum()

Unnamed: 0_level_0,Unnamed: 1_level_0,期终,平时
科目,姓名,Unnamed: 2_level_1,Unnamed: 3_level_1
数学,张龙,82,90
数学,赵虎,84,94
理化,张龙,89,83
生物,张龙,90,86
英语,张龙,96,82
英语,赵虎,82,86
语文,张龙,95,94
语文,赵虎,91,92


## 10.4 更细致的划分

In [26]:
df.groupby('姓名').get_group('张龙')

Unnamed: 0,姓名,科目,期终,平时
0,张龙,语文,95,94
2,张龙,数学,82,90
4,张龙,英语,96,82
6,张龙,理化,89,83
7,张龙,生物,90,86


In [27]:
df.groupby('科目').get_group('语文')

Unnamed: 0,姓名,科目,期终,平时
0,张龙,语文,95,94
1,赵虎,语文,91,92


In [28]:
df['期终'].groupby(df['姓名']).sum()

姓名
张龙    452
赵虎    257
Name: 期终, dtype: int32

In [29]:
grouped.mean()

Unnamed: 0_level_0,期终,平时
姓名,Unnamed: 1_level_1,Unnamed: 2_level_1
张龙,90.4,87.0
赵虎,85.666667,90.666667


### 例10.1 

In [None]:
class_student = pd.read_excel(r"data\ch9-namelist.xlsx")
class_student[['随机分数1','随机分数2']]=class_student[['随机分数1','随机分数2']].astype('int')
class_student

In [None]:
# 按照男女生，计算两次平均成绩

In [None]:
class_student.groupby('性别').get_group('男')

In [None]:
a = class_student.groupby('性别').get_group('女')[['随机分数1','随机分数2']].mean()
b = class_student.groupby('性别').get_group('男')[['随机分数1','随机分数2']].mean()
type(a)

In [None]:
a

In [None]:
b

In [None]:
df = pd.DataFrame({'女生平均值':a,'男生平均值':b})
df

In [None]:
grouped_ab = class_student.groupby(['学院','性别','年级'])
grouped_ab.mean()[['随机分数1','随机分数2']]

### 第10讲 结束

In [None]:
import pandas as pd
df = pd.DataFrame({'key1':list('ababa'),
  'key2': ['one','two','one','two','one'],
  'data1': np.random.randn(5),
  'data2': np.random.randn(5)})
print(df)

In [None]:
#将df['data1']按照分组键为df['key1']进行分组
grouped=df['data1'].groupby(df['key1'])
print(grouped.mean())

In [None]:
states=np.array(['Ohio','California','California','Ohio','Ohio'])
years=np.array([2005,2005,2006,2005,2006])
#states第一层索引，years第二层分层索引
print(df['data1'].groupby([states,years]).mean())

In [None]:
#df根据‘key1'分组，然后对df剩余数值型的数据运算
df.groupby('key1').mean()
#可以看出没有key2列，因为df[‘key2']不是数值数据，所以被从结果中移除。默认情况下，所有数值列都会被聚合，虽然有时可能被过滤为一个子集。

In [None]:
### 对分组进行迭代
for name, group in df.groupby('key1'):
    print (name,group)

In [None]:
piece=dict(list(df.groupby('key1')))  #变成字典
piece

In [None]:
#对字典取值
value = piece['a']
print(type(value))
value

#### groupby默认是在axis=0上进行分组的，通过设置也可以在其他任何轴上进行分组

In [None]:
grouped=df.groupby(df.dtypes, axis=1)
value = dict(list(grouped))
print(value)

#### 对于大数据，很多情况是只需要对部分列进行聚合

In [None]:
#对df进行'key1'，'key2'的两次分组，然后取data2的数据，对两次细分的分组数据取均值
value = df.groupby(['key1','key2'])[['data2']].mean()
value 