# 任务4.4　使用分组聚合进行组内计算

## 代码4-51　对菜品订单详情表依据订单编号分组

In [1]:
import pandas
import numpy
from sqlalchemy import create_engine
engine = create_engine('mssql+pymssql://sa:123456@localhost:1433/testdb?charset=utf8')
detail = pandas.read_sql_table('meal_order_detail1', con=engine)
detailGroup = detail[['order_id', 'counts', 'amounts']].groupby(by='order_id')
print('分组后订单详情表为：', detailGroup)

分组后订单详情表为： <pandas.core.groupby.generic.DataFrameGroupBy object at 0x000002C3B1EBC208>


## 代码4-52　`GroupBy`类求均值、标准差、中位数

In [2]:
print('订单详情表分组后前5组每组的均值为：', detailGroup.mean().head(), sep='\n')

订单详情表分组后前5组每组的均值为：
          counts  amounts
order_id                 
1002      1.0000   32.000
1003      1.2500   30.125
1004      1.0625   43.875
1008      1.0000   63.000
1011      1.0000   57.700


In [3]:
print('订单详情表分组后前5组每组的标准差为：', detailGroup.std().head(), sep='\n')

订单详情表分组后前5组每组的标准差为：
           counts    amounts
order_id                    
1002      0.00000  16.000000
1003      0.46291  21.383822
1004      0.25000  31.195886
1008      0.00000  64.880660
1011      0.00000  50.077828


In [4]:
print('订单详情表分组后前5组每组的大小为：', detailGroup.size().head(), sep='\n')

订单详情表分组后前5组每组的大小为：
order_id
1002     7
1003     8
1004    16
1008     5
1011    10
dtype: int64


## 代码4-53　使用`agg`求出当前数据对应的统计量

In [5]:
print(
    '订单详情表的菜品销量与售价的和与均值为：',
    detail[['counts', 'amounts']].agg([numpy.sum, numpy.mean]),
    sep='\n'
)

订单详情表的菜品销量与售价的和与均值为：
           counts        amounts
sum   3088.000000  125992.000000
mean     1.111191      45.337172


## 代码4-54　使用`agg`分别求字段的不同统计量

In [6]:
print(
    '订单详情表的菜品销量总和与销售的均值为：',
    detail.agg({'counts': numpy.sum, 'amounts': numpy.mean}),
    sep='\n'
)

订单详情表的菜品销量总和与销售的均值为：
counts     3088.000000
amounts      45.337172
dtype: float64


## 代码4-55　使用`agg`方法求不同字段的不同数目统计量

In [7]:
print(
    '菜品订单详情表的菜品销量总和与售价的总和与均值为：',
    detail.agg({'counts': numpy.sum, 'amounts': [numpy.mean, numpy.sum]}),
    sep='\n'
)

菜品订单详情表的菜品销量总和与售价的总和与均值为：
      counts        amounts
mean     NaN      45.337172
sum   3088.0  125992.000000


## 代码4-56　在`agg`方法中使用自定义函数

In [8]:
def DoubleSum(data):
    s = 2 * data.sum()
    return s
print('菜品订单详情表的菜品销量两倍总和为：', detail.agg({'counts': DoubleSum}, axis=0), sep='\n')

菜品订单详情表的菜品销量两倍总和为：
counts    6176.0
dtype: float64


## 代码4-57　`agg`方法中使用的自定义函数含`NumPy`中的函数

In [9]:
def DoubleSum1(data):
    s = 2 * numpy.sum(data)
    return s
print('订单详情表的菜品销量两倍总和为：', detail.agg({'counts': DoubleSum1}, axis=0).head(), sep='\n')

订单详情表的菜品销量两倍总和为：
   counts
0     2.0
1     2.0
2     2.0
3     2.0
4     2.0


In [10]:
print('订单详情表的菜品销量与售价的和的两倍为：', detail[['counts', 'amounts']].agg(DoubleSum1), sep='\n')

订单详情表的菜品销量与售价的和的两倍为：
counts       6176.0
amounts    251984.0
dtype: float64


## 代码4-58　使用`agg`方法做简单的聚合

In [11]:
print('订单详情表分组后前3组每组的均值为：', detailGroup.agg(numpy.mean).head(3), sep='\n')

订单详情表分组后前3组每组的均值为：
          counts  amounts
order_id                 
1002      1.0000   32.000
1003      1.2500   30.125
1004      1.0625   43.875


In [12]:
print('订单详情表分组后前3组每组的标准差为：', detailGroup.agg(numpy.std).head(3), sep='\n')

订单详情表分组后前3组每组的标准差为：
           counts    amounts
order_id                    
1002      0.00000  16.000000
1003      0.46291  21.383822
1004      0.25000  31.195886


## 代码4-59　使用`agg`方法对分组数据使用不同的聚合函数

In [13]:
print(
    '订单详情分组前3组每组菜品总数和售价均值为：',
    detailGroup.agg({'counts': numpy.sum, 'amounts': numpy.mean}).head(3),
    sep='\n'
)

订单详情分组前3组每组菜品总数和售价均值为：
          counts  amounts
order_id                 
1002         7.0   32.000
1003        10.0   30.125
1004        17.0   43.875


## 代码4-60　`apply`方法的基本用法

In [14]:
print('订单详情表的菜品销量与售价的均值为：', detail[['counts', 'amounts']].apply(numpy.mean), sep='\n')

订单详情表的菜品销量与售价的均值为：
counts      1.111191
amounts    45.337172
dtype: float64


## 代码4-61　使用`apply`方法进行聚合操作

In [15]:
print('订单详情表分组后前3组每组的均值为：', detailGroup.apply(numpy.mean).head(3), sep='\n')

订单详情表分组后前3组每组的均值为：
              order_id  counts  amounts
order_id                               
1002      1.431572e+26  1.0000   32.000
1003      1.253875e+30  1.2500   30.125
1004      6.275628e+61  1.0625   43.875


In [16]:
print('订单详情表分组后前3组每组的标准差为：', detailGroup.apply(numpy.std).head(3), sep='\n')

订单详情表分组后前3组每组的标准差为：
            counts    amounts
order_id                     
1002      0.000000  14.813122
1003      0.433013  20.002734
1004      0.242061  30.205287


## 代码4-62　使用`transform`方法将销量和售价翻倍

In [17]:
print(
    '订单详情表的菜品销量与售价的两倍为：',
    detail[['counts', 'amounts']].transform(lambda x: 2 * x).head(4),
    sep='\n'
)

订单详情表的菜品销量与售价的两倍为：
   counts  amounts
0     2.0     98.0
1     2.0     96.0
2     2.0     60.0
3     2.0     50.0


## 代码4-63　使用`transform`实现组内离差标准化

In [18]:
print(
    '订单详情表分组后实现组内离差标准化后前5行为：',
    detailGroup.transform(lambda x: (x - x.min()) / (x.max() - x.min())).head(),
    sep='\n'
)

订单详情表分组后实现组内离差标准化后前5行为：
   counts   amounts
0     NaN  1.000000
1     NaN  0.972222
2     NaN  0.472222
3     NaN  0.333333
4     NaN  0.000000


## 代码4-64　订单详情表按照日期分组

In [19]:
import pandas
import numpy
from sqlalchemy import create_engine
engine = create_engine('mssql+pymssql://sa:123456@localhost:1433/testdb?charset=utf8')
detail = pandas.read_sql_table('meal_order_detail1', con=engine)
detail['place_order_time'] = pandas.to_datetime(detail['place_order_time'])
detail['date'] = [i.date() for i in detail['place_order_time']]
detailGroup = detail[['date', 'counts', 'amounts']].groupby(by='date')
print('订单详情表前5组每组的数目为：', detailGroup.size().head(), sep='\n')

订单详情表前5组每组的数目为：
date
2016-08-01    217
2016-08-02    138
2016-08-03    157
2016-08-04    144
2016-08-05    193
dtype: int64


## 代码4-65　求分组后的订单详情表每日菜品销售的均价、中位数

In [20]:
dayMean = detailGroup.agg({'amounts': numpy.mean})
print('订单详情表前5组单日菜品销售均价为：', dayMean.head(), sep='\n')

订单详情表前5组单日菜品销售均价为：
              amounts
date                 
2016-08-01  43.161290
2016-08-02  44.384058
2016-08-03  43.885350
2016-08-04  52.423611
2016-08-05  44.927461


In [21]:
dayMedian = detailGroup.agg({'amounts': numpy.median})
print('订单详情表前5组单日菜品销售中位数为：', dayMedian.head(), sep='\n')

订单详情表前5组单日菜品销售中位数为：
            amounts
date               
2016-08-01     33.0
2016-08-02     35.0
2016-08-03     38.0
2016-08-04     39.0
2016-08-05     37.0


## 代码4-66　求取订单详情表中单日菜品总销量

In [22]:
daySaleSum = detailGroup.apply(numpy.sum)['counts']
print('订单详情表前5组单日菜品售出数目为：', daySaleSum.head(), sep='\n')

订单详情表前5组单日菜品售出数目为：
date
2016-08-01    233.0
2016-08-02    151.0
2016-08-03    192.0
2016-08-04    169.0
2016-08-05    224.0
Name: counts, dtype: float64
