In [4]:
import pandas as pd
df=pd.read_csv(r'.\产品.csv',encoding='gbk')
df.head()

Unnamed: 0,产品号,产品名称,商品类别,库存量,单价,订购量,订购款,年,月,日,单位,日期
0,1.0,苹果汁,饮料,39.0,18.0,12.0,216.0,2022,1,13,箱,2022/1/13
1,2.0,牛奶,奶类,17.0,39.0,40.0,1560.0,2023,2,10,箱,2023/2/10
2,3.0,蕃茄酱,调料,13.0,10.0,70.0,700.0,2023,3,12,箱,2023/3/12
3,4.0,盐,调料,53.0,22.0,41.0,902.0,2019,2,11,,2019/2/11
4,5.0,麻油,粮油,0.0,21.4,65.0,1387.8,2022,3,7,箱,2022/3/7


# 数据分组分区统计
### （1）基本统计方法：
        min、max、sum、count、mode、describe等
        value_counts：分类计数
        
        DataFrame.agg(func, axis=0)： 对DataFrame或每个分组应用某函数，包括Python内置函数或自定义函数。
        
        func使用字典的方式的情况：
        * 求某列的多个统计量：将字典对应key的value为列表，列表元素为多个目标统计量。
        * 求多列的不同统计量：例如，求某列均值，而对另一列希望只做求和操作。此时需要将两个列标签分别作为key，然后将NumPy库的求和与求均值的函数分别作为value。
###   (2)  分组统计
    DataFrame.groupby(by=None, axis=0) ：将数据分组，用于以实现各组的统计
    
    by：接收list、str、mapping、function或generator。表示用于确定进行分组的依据，
    
        
###   (3)  分区统计
    
    DataFrame.cut( x, bins,labels)  ：按bins的设置将x数据切分为不同的区间，用于实现各区间的统计
    * x：是要分区的数据
    * bins：分区间隔 或 分区整数
    * labels：各区间对应的标签

## 

## （1）基本统计方法
#### 例1-1 统计各类别商品的数量 

In [18]:
df['商品类别'].value_counts()         #分类统计，统计 '商品类别'字段各值出现的频数

奶类    16
调料    15
零食    14
海鲜    12
饮料    11
粮油     8
肉食     6
Name: 商品类别, dtype: int64

#### 例1-2 统计产品的个数

In [19]:
df['产品名称'].count()                #count统计非0值的个数，注意与value_vounts的区别

81

#### 例1-3 统计库存量的最大值、最小值、总和

In [5]:
df['库存量'].agg(['max','min','sum'])
#方法二
df.agg({'库存量':['max','min','sum']})

Unnamed: 0,库存量
max,125.0
min,0.0
sum,3203.0


#### 例1-4 统计库存量的最大值、单价的最小值

In [21]:
df.agg({"库存量":'max',"单价":'min'})    #求库存量最大值，单价最小值

库存量    125.0
单价      -6.0
dtype: float64

## 

## （2）分组统计

#### 例2-1 统计各类商品的订购量总和，以商品类别为行索引

In [22]:
df1=df.groupby('商品类别',as_index=True).agg({'订购量':'sum'})
df1

Unnamed: 0_level_0,订购量
商品类别,Unnamed: 1_level_1
奶类,727.0
海鲜,620.0
粮油,348.0
肉食,269.0
调料,669.0
零食,734.0
饮料,260.0


#### 例2-2 统计各类商品每年的订购量总和，以商品类别、年为行索引

In [23]:
df2=df.groupby(['商品类别','年'],as_index=True).agg({'订购量':'sum'})
df2

Unnamed: 0_level_0,Unnamed: 1_level_0,订购量
商品类别,年,Unnamed: 2_level_1
奶类,2019,70.0
奶类,2022,527.0
奶类,2023,130.0
海鲜,2019,50.0
海鲜,2022,370.0
海鲜,2023,200.0
粮油,2019,10.0
粮油,2022,202.0
粮油,2023,136.0
肉食,2022,172.0


#### 例2-3 
    （1）统计每年各月商品订购量的最小值、最大值、总和，以年、月为行索引
    （2）将列标签改为：'最小','最大','总和'
    （3）按行索引的降序排列


In [24]:
df3=df.groupby(['年','月']).agg({'订购量':['min','max','sum']})
df3.columns=['最小','最大','总和']                                 #修改columns属性值，更改列名

df3.sort_index(axis=0,ascending=False)

Unnamed: 0_level_0,Unnamed: 1_level_0,最小,最大,总和
年,月,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2023,4,90.0,90.0,90.0
2023,3,60.0,85.0,558.0
2023,2,33.0,53.0,208.0
2023,1,0.0,30.0,91.0
2022,12,0.0,25.0,81.0
2022,11,10.0,24.0,49.0
2022,10,40.0,40.0,40.0
2022,9,11.0,11.0,11.0
2022,8,0.0,40.0,60.0
2022,7,50.0,58.0,312.0


## 


## （3）分区统计
#### 例3-1 
    （1）统计各月商品订购款的总和，以月为行索引,结果存至df4
    （2）将df4的“订购款”列标签改为 “总和”
    （3）构造“等级”字段，“总和”在(1,1000]为low，在(1000,10000]为mid，在(10000,40000]为high.

In [25]:
df4=df.groupby(by='月').agg({'订购款':'sum'})
df4.columns=['总和']                                               #修改columns属性值，更改列名
df4['等级']=pd.cut(df4['总和'],bins=[0,1000,10000,40000],labels=['low','mid','high'])
df4

Unnamed: 0_level_0,总和,等级
月,Unnamed: 1_level_1,Unnamed: 2_level_1
1,18637.4,high
2,12621.1,high
3,34495.2,high
4,11598.5,high
5,3562.5,mid
6,4620.0,mid
7,8928.0,mid
8,800.0,low
9,77.0,low
10,1280.0,mid


#### 例3-2
    （1）构造“订购款均分3等级”字段，“总和”均分至3个区间.

In [26]:
df4['订购款均分3区间']=pd.cut(df4['总和'],bins=3)
df4

Unnamed: 0_level_0,总和,等级,订购款均分3区间
月,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,18637.4,high,"(11549.733, 23022.467]"
2,12621.1,high,"(11549.733, 23022.467]"
3,34495.2,high,"(23022.467, 34495.2]"
4,11598.5,high,"(11549.733, 23022.467]"
5,3562.5,mid,"(42.582, 11549.733]"
6,4620.0,mid,"(42.582, 11549.733]"
7,8928.0,mid,"(42.582, 11549.733]"
8,800.0,low,"(42.582, 11549.733]"
9,77.0,low,"(42.582, 11549.733]"
10,1280.0,mid,"(42.582, 11549.733]"


#### 例3-3  
    （1）将“日期”字段分区：按6周的时间周期，重新生成新的时间序列重采样对象.
    （2）统计各时间段内“订购量”的总和

In [6]:
df5=df.copy()
df5['日期']=pd.to_datetime(df5['日期'])
print(df5['日期'].dtype)

datetime64[ns]


In [28]:
df6=df5.resample('6W',on='日期').agg({'订购量':'sum'})      #on后字段必须是datetime型，且不能是行索引
df6

Unnamed: 0_level_0,订购量
日期,Unnamed: 1_level_1
2019-01-06,0.0
2019-02-17,117.0
2019-03-31,176.0
2019-05-12,90.0
2019-06-23,0.0
2019-08-04,0.0
2019-09-15,0.0
2019-10-27,0.0
2019-12-08,0.0
2020-01-19,0.0
