## 聚合分组的应用场景

In [1]:
"""聚合分组非常常见，我们的数据是扁平化的，没有任何分组信息。
比如你一周会多次去一家便利店，每次会产生一条购买记录，那么便利店想统计每个人这周的购买情况，就需要以人来进行分组，然后所有的金额相加，就得出每个人的购买额。"""

'聚合分组非常常见，我们的数据是扁平化的，没有任何分组信息。\n比如你一周会多次去一家便利店，每次会产生一条购买记录，那么便利店想统计每个人这周的购买情况，就需要以人来进行分组，然后所有的金额相加，就得出每个人的购买额。'

## SQL中的聚合分组

In [2]:
# SQL 这样做分组和聚合：

"""
SELECT Column1, Column2, mean(Column3), sum(Column4)
FROM SomeTable
GROUP BY Column1, Column2
"""

'\nSELECT Column1, Column2, mean(Column3), sum(Column4)\nFROM SomeTable\nGROUP BY Column1, Column2\n'

## Pandas中的聚合分组

In [3]:
"""Pandas 也是按照 SQL 的思路，对数据进行非常灵活的分组，分组后会产生一个分组对象，接下来的操作就是就是对这个分组对象的操作。

针对分组对象，Pandas 操作了多个方面，如 agg 聚合、apply 自定义函数、迭代等，方便大家实现多种多样的聚合需求。

执行完分组统计计算后，再将数据拼成一个最终的数据返回给我们。"""

'Pandas 也是按照 SQL 的思路，对数据进行非常灵活的分组，分组后会产生一个分组对象，接下来的操作就是就是对这个分组对象的操作。\n\n针对分组对象，Pandas 操作了多个方面，如 agg 聚合、apply 自定义函数、迭代等，方便大家实现多种多样的聚合需求。\n\n执行完分组统计计算后，再将数据拼成一个最终的数据返回给我们。'

## 按列分组

In [4]:
# df.groupby() 方法可以按指定字段对 DataFrame 进行分组，生成一个分组器对象，然后再把这个对象的各个字段按一定的聚合方法输出。

### 语法结构

In [None]:
df.groupby(self, by=None, axis=0, level=None,
           as_index: bool=True, sort: bool=True,
           group_keys: bool=True,
           squeeze: bool=False,
           observed: bool=False, dropna=True)
# 其中 by 为分组字段，由于是第一个参数可以省略，可以按列表给多个。
# 会返回一个groupby_generic.DataFrameGroupBy对象，如果不给定聚合方法，不会返回 DataFrame。

### 基本用法

In [6]:
import numpy as np
import pandas as pd

df = pd.read_excel('team.xlsx', sheet_name='Sheet1')
df

Unnamed: 0,name,team,Q1,Q2,Q3,Q4
0,Liver,E,89,21,24,64
1,Arry,C,36,37,37,57
2,Ack,A,57,60,18,84
3,Eorge,C,93,96,71,78
4,Oah,D,65,49,61,86
...,...,...,...,...,...,...
95,Gabriel,C,48,59,87,74
96,Austin7,C,21,31,30,43
97,Lincoln4,C,98,93,1,20
98,Eli,E,11,74,58,91


## 多层索引按单层分组

In [10]:
# 我们可以实现类似 SQL groupby 那样的数据透视功能：

df.groupby('team').sum() # 按团队分组对应列相加
df.groupby('team').mean() # 按团队分组对应列求平均
df.groupby('team').agg({'Q1': sum})  # 按团队分组,将Q1列相加
# 不同列不同的计算方法
df.groupby('team').agg({'Q1': sum,  # 总和
                        'Q2': 'count', # 总数
                        'Q3':'mean', # 平均
                        'Q4': max}) # 最大值

"""注：
如果按一列聚合，只传列名字符串，如果多个就要传由列名组成的列表
聚合方法可以使用 Pandas 的数学统计函数 或者 Numpy 的统计函数
如果是 python 的内置统计函数，直接使用变量，不需要加引号
如果需要将空值也进行聚合，需要传入 dropna=Flase"""

Unnamed: 0_level_0,Q1
team,Unnamed: 1_level_1
A,1066
B,975
C,1056
D,860
E,963


### Series

In [11]:
# 创建数据
arrays = [['bar', 'bar', 'baz', 'baz', 'foo', 'foo', 'qux', 'qux'],
          ['one', 'two', 'one', 'two', 'one', 'two', 'one', 'two']]
index = pd.MultiIndex.from_arrays(arrays, names=['first', 'second'])
s = pd.Series(np.random.randn(8), index=index)
s
'''
first  second
bar    one       1.228388
       two       0.578858
baz    one       1.398501
       two      -0.070547
foo    one       0.551245
       two      -0.604068
qux    one       0.643383
       two      -0.025163
dtype: float64
'''

'\nfirst  second\nbar    one       1.228388\n       two       0.578858\nbaz    one       1.398501\n       two      -0.070547\nfoo    one       0.551245\n       two      -0.604068\nqux    one       0.643383\n       two      -0.025163\ndtype: float64\n'

#### 按层级

In [12]:
# 按层级进行分组：

s.groupby(level=0).sum()
'''
first
bar    1.807246
baz    1.327954
foo   -0.052823
qux    0.618220
dtype: float64
'''

'\nfirst\nbar    1.807246\nbaz    1.327954\nfoo   -0.052823\nqux    0.618220\ndtype: float64\n'

#### 按索引

In [13]:
# 按索引名分组：

s.groupby(level='second').sum()
s.sum(level='second') # 也可以直接统计
'''
first
bar    1.807246
baz    1.327954
foo   -0.052823
qux    0.618220
dtype: float64
'''

  s.sum(level='second') # 也可以直接统计


'\nfirst\nbar    1.807246\nbaz    1.327954\nfoo   -0.052823\nqux    0.618220\ndtype: float64\n'

### DataFrame

In [16]:
# 数据准备
arrays = [['Falcon', 'Falcon', 'Parrot', 'Parrot'],
          ['Captive', 'Wild', 'Captive', 'Wild']]
index = pd.MultiIndex.from_arrays(arrays, names=('Animal', 'Type'))
df = pd.DataFrame({'Max Speed': [390., 350., 30., 20.]},
                  index=index)
df
'''
                Max Speed
Animal Type
Falcon Captive      390.0
       Wild         350.0
Parrot Captive       30.0
       Wild          20.0
'''

'\n                Max Speed\nAnimal Type\nFalcon Captive      390.0\n       Wild         350.0\nParrot Captive       30.0\n       Wild          20.0\n'

#### 按层级

In [17]:
# 按层级进行分组：

df.groupby(level=0).mean()
'''
        Max Speed
Animal
Falcon      370.0
Parrot       25.0
'''

'\nfirst\nbar    1.807246\nbaz    1.327954\nfoo   -0.052823\nqux    0.618220\ndtype: float64\n'

#### 按索引

In [None]:
# 按索引名分组：

df.groupby(level="Type").mean()
'''
         Max Speed
Type
Captive      210.0
Wild         185.0
'''

## 多层索引按多层分组

In [18]:
# 数据准备
arrays = [['bar', 'bar', 'baz', 'baz', 'foo', 'foo', 'qux', 'qux'],
          ['doo', 'doo', 'bee', 'bee', 'bop', 'bop', 'bop', 'bop'],
          ['one', 'two', 'one', 'two', 'one', 'two', 'one', 'two']]
index = pd.MultiIndex.from_arrays(arrays, names=['first', 'second', 'third'])
s = pd.Series(np.random.randn(8), index=index)

# 数据如下
'''
first  second  third
bar    doo     one     -1.131345
               two     -0.089329
baz    bee     one      0.337863
               two     -0.945867
foo    bop     one     -0.932132
               two      1.956030
qux    bop     one      0.017587
               two     -0.016692
dtype: float64
'''

'\nfirst  second  third\nbar    doo     one     -1.131345\n               two     -0.089329\nbaz    bee     one      0.337863\n               two     -0.945867\nfoo    bop     one     -0.932132\n               two      1.956030\nqux    bop     one      0.017587\n               two     -0.016692\ndtype: float64\n'

### 两个层级进行分组

In [None]:
# 两个层级进行分组：

s.groupby(level=['first', 'second']).sum()
'''
first  second
bar    doo      -1.220674
baz    bee      -0.608004
foo    bop       1.023898
qux    bop       0.000895
dtype: float64
'''

### 按层名进行分组

In [19]:
# 按层名进行分组，注意，这个和上边使用了两个不同的参数。
s.groupby( ['first', 'second']).sum()

first  second
bar    doo       1.427401
baz    bee      -0.942108
foo    bop       0.934407
qux    bop      -1.521312
dtype: float64

## 使用分组器 Grouper分组

In [None]:
# 数据准备
arrays = [['bar', 'bar', 'baz', 'baz', 'foo', 'foo', 'qux', 'qux'],
          ['one', 'two', 'one', 'two', 'one', 'two', 'one', 'two']]
index = pd.MultiIndex.from_arrays(arrays, names=['first', 'second'])
df = pd.DataFrame({'A': [1, 1, 1, 1, 2, 2, 3, 3],
                   'B': np.arange(8)},
                  index=index)
df
'''
              A  B
first second
bar   one     1  0
      two     1  1
baz   one     1  2
      two     1  3
foo   one     2  4
      two     2  5
qux   one     3  6
      two     3  7
'''

In [None]:
# 使用分组器对第一层索引（second）和 A 列进行分组：

# 三个方式效果一样
df.groupby([pd.Grouper(level=1), 'A']).sum()
df.groupby([pd.Grouper(level='second'), 'A']).sum()
df.groupby(['second', 'A']).sum()
'''
          B
second A
one    1  2
       2  4
       3  6
two    1  4
       2  5
       3  7
'''

## 数据分箱

In [None]:
# 数据分箱（Data binning，也称为离散组合或数据分桶）是一种数据预处理技术，
# 将原始数据分成小区间，即一个 bin（小箱子），它是一种量子化的形式。

# Pandas 实现连续数据的离散化处理主要基于两个函数：
# pandas.cut 根据指定分界点对连续数据进行分箱处理
# pandas.qcut 根据指定箱子的数量对连续数据进行等宽分箱处理

### pd.cut

In [None]:
"""pd.cut函数有7个参数，主要用于对数据从最大值到最小值进行等距划分

 pandas.cut(x, bins, right=True, labels=None, retbins=False, precision=3, include_lowest=False,  duplicates=‘raise’)

参数：

x : 输入待cut的一维数组

bins : cut的段数，一般为整型，但也可以为标量序列或者间隔索引，是进行分组的依据，
如果填入整数n，则表示将x中的数值分成等宽的n份（即每一组内的最大值与最小值之差约相等）；
如果是标量序列，序列中的数值表示用来分档的分界值
如果是间隔索引，“ bins”的间隔索引必须不重叠

right : 布尔值，确定右区间是否开闭，取True时右区间闭合
当“ right = True”（默认值）时，则“ bins”=[1、2、3、4]表示（1,2]，（2,3],（3,4]
当bins是一个间隔索引时，该参数被忽略。

labels : 指定分箱的标签, 数组或布尔值，默认为None，用来标识分后的bins，长度必须与结果bins相等，返回值为整数或者对bins的标识
如果是数组，长度要与分箱个数一致，比如“ bins”=[1、2、3、4]表示（1,2]，（2,3],（3,4]一共3个区间，则labels的长度也就是标签的个数也要是3
如果为False，则仅返回分箱的整数指示符，即x中的数据在第几个箱子里
当bins是间隔索引时，将忽略此参数

retbins : 布尔值，可选。是否返回数值所在分组，Ture则返回
retbins=True以显示分界值，得到划分后的区间

precision : 整型，bins小数精度，也就是数据以几位小数显示,默认3，存储和显示分箱标签的精度

include_lowest : 布尔类型，是否包含左区间.表示区间的左边是开还是闭，默认为false，也就是不包含区间左边。

duplicates：如果分箱临界值不唯一，则引发ValueError或丢弃非唯一""" 

In [3]:
# pd.cut

import numpy as np
import pandas as pd

df = pd.read_excel('team.xlsx', sheet_name='Sheet1')
df

# 指定区间将数字进行划分，以下三个值将数据划分成两个区间（及格或者不及格）：
pd.cut(df.Q1, bins=[0, 60, 100])


0     (70, 100]
1       (0, 60]
2       (0, 60]
3     (70, 100]
4      (60, 70]
        ...    
95      (0, 60]
96      (0, 60]
97    (70, 100]
98      (0, 60]
99      (0, 60]
Name: Q1, Length: 100, dtype: category
Categories (3, interval[int64, right]): [(0, 60] < (60, 70] < (70, 100]]

In [None]:

# 不用区间，使用数字做为标签（0，1，2，n）
pd.cut(df.Q1, bins=[0, 60, 100],labels=False)



In [4]:
# 指定标签名
pd.cut(df.Q1, bins=[0, 60, 100],labels=['不及格','及格',])



0      及格
1     不及格
2     不及格
3      及格
4      及格
     ... 
95    不及格
96    不及格
97     及格
98    不及格
99    不及格
Name: Q1, Length: 100, dtype: category
Categories (2, object): ['不及格' < '及格']

In [None]:
# 包含最低部分
pd.cut(df.Q1, bins=[0, 60, 100], include_lowest=True)



In [None]:
# 是否包含右边，闭区间，下例 [89, 100)
pd.cut(df.Q1, bins=[0, 89, 100], right=False)

In [None]:
# 应用到分组中：

df.Q1.groupby(pd.cut(df.Q1, bins=[0, 60, 100])).count()

df.groupby(pd.cut(df.Q1, bins=[0, 60, 100])).count()


# 按区间做映射的例子：

df = pd.DataFrame({'A':[1, 3, 5, 7, 9]})
df.assign(B=pd.cut(df.A, [0,5,7, float('inf')], 
                   labels=['差','中','好'])
         )

### pd.qcut

In [13]:
# pd.qcut 指定所分箱子的数量，pandas 会自动进行分箱：

"""试想一下如果我们有一个很大的数据集，需要对其中一项进行分箱，
分箱的依据不是单纯的等宽箱体或者没有确定的分解值，而是按照分位数进行分箱，
比如前四分之一的是一个箱体这种要求，
用pd.cut()不是不能实现，只是比较麻烦，还要先计算分位数作为分解值。
这个时候，pd.qcut()就方便很多了。"""




'试想一下如果我们有一个很大的数据集，需要对其中一项进行分箱，\n分箱的依据不是单纯的等宽箱体或者没有确定的分解值，而是按照分位数进行分箱，\n比如前四分之一的是一个箱体这种要求，\n用pd.cut()不是不能实现，只是比较麻烦，还要先计算分位数作为分解值。\n这个时候，pd.qcut()就方便很多了。'

In [None]:
# pd.qcut(x, q, labels=None, retbins=False, precision=3, duplicates=‘raise’)

"""x ：一维数组或者Serise

q ： 表示分位数的整数或者数组，

如果是分位数的整数，例如10用于十分位，4用于四分位
如果是分位数数组，例如[0,0.25,0.5,0.75,1]用于四分位数
labels ： 数组或者布尔值，默认为none，用于指定每个箱体的标签

如果是数组，长度要与分箱个数一致，比如用四分位数分箱，需要指定四个标签
如果为False，则仅返回分箱的整数指示符，即当前数据位于哪个箱子中
rebines ：布尔值，可选。 是否显示分箱的分界值。（由于是按照分位数进行分箱，在不知道分位数具体数值的情况下，可以通过这个参数设置显示分界值即分位数的具体数值）

precision：整数，默认3，存储和显示分箱标签的精度。

duplicates：如果分箱临界值不唯一，则引发ValueError或丢弃非唯一"""

In [None]:
pd.qcut(df.Q1,q=2)

In [6]:
pd.qcut(range(5), 4)

[(-0.001, 1.0], (-0.001, 1.0], (1.0, 2.0], (2.0, 3.0], (3.0, 4.0]]
Categories (4, interval[float64, right]): [(-0.001, 1.0] < (1.0, 2.0] < (2.0, 3.0] < (3.0, 4.0]]

In [8]:
pd.qcut(range(5), 4, labels=False)

array([0, 0, 1, 2, 3], dtype=int64)

In [9]:
# 指定标签名
pd.qcut(range(5), 3, labels=["good", "medium", "bad"])

['good', 'good', 'medium', 'bad', 'bad']
Categories (3, object): ['good' < 'medium' < 'bad']

In [10]:
# 返回箱子标签 array([ 1. , 51.5, 98. ]))
pd.qcut(df.Q1,q=2, retbins=True)

(0      (51.5, 98.0]
 1     (0.999, 51.5]
 2      (51.5, 98.0]
 3      (51.5, 98.0]
 4      (51.5, 98.0]
           ...      
 95    (0.999, 51.5]
 96    (0.999, 51.5]
 97     (51.5, 98.0]
 98    (0.999, 51.5]
 99    (0.999, 51.5]
 Name: Q1, Length: 100, dtype: category
 Categories (2, interval[float64, right]): [(0.999, 51.5] < (51.5, 98.0]],
 array([ 1. , 51.5, 98. ]))

In [11]:
# 分箱位小数位数
pd.qcut(df.Q1,q=2,precision=3)

0      (51.5, 98.0]
1     (0.999, 51.5]
2      (51.5, 98.0]
3      (51.5, 98.0]
4      (51.5, 98.0]
          ...      
95    (0.999, 51.5]
96    (0.999, 51.5]
97     (51.5, 98.0]
98    (0.999, 51.5]
99    (0.999, 51.5]
Name: Q1, Length: 100, dtype: category
Categories (2, interval[float64, right]): [(0.999, 51.5] < (51.5, 98.0]]

In [12]:
# 排名分3个层次
pd.qcut(df.Q1.rank(method='first'),3)

0     (67.0, 100.0]
1      (34.0, 67.0]
2      (34.0, 67.0]
3     (67.0, 100.0]
4      (34.0, 67.0]
          ...      
95     (34.0, 67.0]
96    (0.999, 34.0]
97    (67.0, 100.0]
98    (0.999, 34.0]
99    (0.999, 34.0]
Name: Q1, Length: 100, dtype: category
Categories (3, interval[float64, right]): [(0.999, 34.0] < (34.0, 67.0] < (67.0, 100.0]]