# 1 pivot_table()函数

数据透视是一种用于汇总分析数据的方法，python中使用pivot_table()函数进行

## 1.1 pivot_table()函数语法解析

pivot_table(data,values,index,columns,aggfunc,fill_value,margins，margins_name)

- data:需要生成数据透视表的DataFrame
- values:要汇总的那一列
- index:透视表索引表头名称
- columns:透视表列表头名称
- aggfunc:聚合函数
    - mean:均值
    - count:计数
    - max:最大
    - min:最小
    - 其他自定义函数
- fill_value:如果有缺失值，缺失值的填充值，默认None
- margins:如果为True，则会在透视表最后添加一行或一列，显示行**和**列的总和或均值
- margins_name:margins为True时，新增行/列的名称

## 1.2 pivot_table()案例

In [1]:
import pandas as pd
import numpy as np

In [4]:
products = ['产品A','产品B','产品C','产品D','产品E']
regions = ['地区1','地区2','地区3','地区4','地区5']
sales = np.random.uniform(3000,10000,size=50)

data = pd.DataFrame(
    {
        '产品':np.random.choice(products,size=50),
        '地区':np.random.choice(regions,size=50),# 从列表随机选取50个
        '销售额':sales
    }
)
data

Unnamed: 0,产品,地区,销售额
0,产品E,地区2,7453.255174
1,产品B,地区5,8161.900435
2,产品D,地区5,3461.128922
3,产品A,地区5,5433.641352
4,产品D,地区3,4471.573229
5,产品C,地区3,5349.84461
6,产品E,地区3,5881.986493
7,产品A,地区1,5697.327366
8,产品C,地区4,5978.931891
9,产品A,地区4,3857.516022


In [7]:
pd.pivot_table(
    data=data,
    values='销售额',
    index='地区',
    columns='产品',
    aggfunc='count',
    fill_value=0
)

产品,产品A,产品B,产品C,产品D,产品E
地区,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
地区1,2,0,1,3,3
地区2,0,4,3,2,2
地区3,1,0,2,2,3
地区4,3,0,3,3,3
地区5,1,2,1,3,3


## 1.3 margins/margins_name



In [11]:
pd.pivot_table(
    data=data,
    values='销售额',
    index='地区',
    columns='产品',
    aggfunc='mean',
    fill_value=0,
    margins=True,
    margins_name='汇总'
)

产品,产品A,产品B,产品C,产品D,产品E,汇总
地区,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
地区1,5770.118438,0.0,4898.206447,5753.360167,9129.515434,6787.452236
地区2,0.0,7592.30598,8684.725865,7336.163624,7640.928395,7852.507778
地区3,8594.29228,0.0,6663.012401,4696.418524,7058.785644,6561.188883
地区4,4487.574993,0.0,7946.657234,6388.501407,6683.616676,6376.587577
地区5,5433.641352,7174.02848,4949.013484,6138.322644,6317.770801,6209.899213
汇总,5575.842213,7452.880147,7306.739403,6069.670535,7346.494461,6771.444196


## 1.4 限定小数位数

使用pandas的round方法进行限定

In [10]:
pd.pivot_table(
    data=data,
    values='销售额',
    index='地区',
    columns='产品',
    aggfunc='max',
    fill_value=0,
    margins=True,
    margins_name='汇总'
).round(2)

产品,产品A,产品B,产品C,产品D,产品E,汇总
地区,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
地区1,5842.91,0.0,4898.21,9649.97,9952.56,9952.56
地区2,0.0,9965.83,9476.74,9528.84,7828.6,9965.83
地区3,8594.29,0.0,7976.18,4921.26,7985.1,8594.29
地区4,5456.99,0.0,9651.37,8201.27,9495.33,9651.37
地区5,5433.64,8161.9,4949.01,9626.85,8042.11,9626.85
汇总,8594.29,9965.83,9651.37,9649.97,9952.56,9965.83


# 2 DataFrame分组函数groupby+聚合/迭代/过滤


## 2.1 分组+聚合

根据某些列，对数据进行分组，对分组后的数据分别进行操作

### 2.1.1 核心概念

- 分组：按某些列，将包含对应相同值的数据记录归为一组，每个组可以看作一个独立的子集
- 聚合：求和，均值、max、min等

### 2.1.2 基本语法

df.groupby(by)\[col\].aggfunc()

df.groupby(by)\[\[col\]\].agg(\[func1,func2\])

- by:分组依据的列,可以是单列或多列
- \[col\]:要进行聚合操作的目标列
- aggfunc:聚合函数,传入函数名
- 相当于要汇总的列放入agg函数，所以可以进行比如求极差的操作:lambda x:x.max()-x.min()

### 2.1.3 常见聚合函数

| function | 描述            |
|----------|---------------|
| sum()    | 求和            |
| mean()   | 均值            |
| count()  | 计数            |
| max()    | 最大            |
| min()    | 最小            |
| median() | 中位数           |
| std()    | 标准差           |
| var()    | 方差            |
| size()   | 统计每组的大小（包含空值） |
| 自定义函数    |               |

In [16]:
products = ['产品A','产品B','产品C','产品D','产品E']
regions = ['地区1','地区2','地区3','地区4','地区5']
sales = np.random.uniform(3000,10000,size=50)

data = pd.DataFrame(
    {
        '产品':np.random.choice(products,size=50),
        '地区':np.random.choice(regions,size=50),# 从列表随机选取50个
        '销售额':sales,
        "ID":np.random.randint(0,9999,size=50),
        "销售数":np.random.randint(0,9999,size=50)
    }
)
data

Unnamed: 0,产品,地区,销售额,ID,销售数
0,产品E,地区5,8328.714114,6305,267
1,产品E,地区2,3008.89793,4247,1573
2,产品C,地区5,9907.129459,2357,9053
3,产品E,地区2,7759.016895,3566,8627
4,产品D,地区3,6051.219278,7147,6162
5,产品E,地区5,5083.255385,4810,8744
6,产品D,地区1,3859.50028,2471,536
7,产品B,地区4,6178.998281,1709,866
8,产品D,地区4,4788.684539,4262,7149
9,产品D,地区5,9798.228696,7703,242


## 2.2 分组聚合案例


### 2.2.1 按单列分组聚合


In [14]:
data.groupby('产品')['销售额'].sum()

产品
产品A    61077.757016
产品B    59516.662315
产品C    43444.170198
产品D    80138.312694
产品E    93410.341715
Name: 销售额, dtype: float64

In [18]:
# 按单行对多列进行聚合,注意里面还得有一个列表
data.groupby('产品')[['销售额','销售数']].median()

Unnamed: 0_level_0,销售额,销售数
产品,Unnamed: 1_level_1,Unnamed: 2_level_1
产品A,7402.076345,5993.5
产品B,7162.615882,5373.0
产品C,5933.823828,5139.0
产品D,5438.38771,4818.0
产品E,6916.392593,2807.0


In [19]:
# 按单行对多列进行聚合,注意里面还得有一个列表，然后使用多个聚合参数
data.groupby('产品')[['销售额','销售数']].agg(['sum','mean'])

Unnamed: 0_level_0,销售额,销售额,销售数,销售数
Unnamed: 0_level_1,sum,mean,sum,mean
产品,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
产品A,42008.947005,7001.491168,32626,5437.666667
产品B,72746.31322,6613.301202,48484,4407.636364
产品C,38475.464203,6412.577367,30929,5154.833333
产品D,95954.399331,5997.149958,71087,4442.9375
产品E,72394.832079,6581.348371,48139,4376.272727


### 2.2.2 按多列进行聚合

In [20]:
data.groupby(['产品','地区'])[['销售额','销售数']].agg(['sum','mean'])

Unnamed: 0_level_0,Unnamed: 1_level_0,销售额,销售额,销售数,销售数
Unnamed: 0_level_1,Unnamed: 1_level_1,sum,mean,sum,mean
产品,地区,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
产品A,地区1,5913.146021,5913.146021,729,729.0
产品A,地区2,9169.495072,9169.495072,6111,6111.0
产品A,地区3,20173.015325,6724.338442,22522,7507.333333
产品A,地区4,6753.290587,6753.290587,3264,3264.0
产品B,地区2,19006.4303,6335.476767,6570,2190.0
产品B,地区3,31402.93985,6280.58797,31572,6314.4
产品B,地区4,22336.94307,7445.64769,10342,3447.333333
产品C,地区1,4866.948539,4866.948539,2533,2533.0
产品C,地区3,7736.620239,3868.31012,6623,3311.5
产品C,地区4,8964.066849,8964.066849,4007,4007.0


In [21]:
# 求极差
data.groupby(['产品','地区'])[['销售额','销售数']].agg(lambda x:x.max()-x.min())

Unnamed: 0_level_0,Unnamed: 1_level_0,销售额,销售数
产品,地区,Unnamed: 2_level_1,Unnamed: 3_level_1
产品A,地区1,0.0,0
产品A,地区2,0.0,0
产品A,地区3,4737.887274,2523
产品A,地区4,0.0,0
产品B,地区2,4032.715854,4986
产品B,地区3,5139.620782,7869
产品B,地区4,3712.842213,5533
产品C,地区1,0.0,0
产品C,地区3,1448.533481,5919
产品C,地区4,0.0,0


## 2.2 分组+迭代


In [22]:
# 查看分组后每组的数据
group_data = data.groupby('产品')
for name,group in group_data:
    print(f'组名{name}')
    print(group)
    print('-----')

组名产品A
     产品   地区          销售额    ID   销售数
13  产品A  地区1  5913.146021  3117   729
18  产品A  地区2  9169.495072  7824  6111
33  产品A  地区3  8050.862103  2219  8247
34  产品A  地区3  8430.020248  3690  5876
47  产品A  地区3  3692.132974  1478  8399
49  产品A  地区4  6753.290587  1569  3264
-----
组名产品B
     产品   地区          销售额    ID   销售数
7   产品B  地区4  6178.998281  1709   866
15  产品B  地区2  7853.037059  3533   514
20  产品B  地区4  9891.840493  7541  3077
21  产品B  地区3  3848.266727  6709  9735
25  产品B  地区2  3820.321205  4047  5500
32  产品B  地区3  7304.244336  9331  5373
36  产品B  地区3  4099.925395  8324  1866
39  产品B  地区3  7162.615882  6759  7774
41  产品B  地区3  8987.887509  6691  6824
45  产品B  地区4  6266.104296  7287  6399
48  产品B  地区2  7333.072035  2429   556
-----
组名产品C
     产品   地区          销售额    ID   销售数
2   产品C  地区5  9907.129459  2357  9053
10  产品C  地区3  3144.043379  6891   352
28  产品C  地区4  8964.066849  4252  4007
29  产品C  地区3  4592.576860  7555  6271
35  产品C  地区5  7000.699116  1467  8713
37  产品C  地区1  4866.9

## 2.3 分组+过滤


In [25]:
# 只保留分组中销售额均值大于6000的记录（不是分好的组）

data.groupby('产品').filter(lambda x:x['销售额'].sum() > 6000)

Unnamed: 0,产品,地区,销售额,ID,销售数
0,产品E,地区5,8328.714114,6305,267
1,产品E,地区2,3008.89793,4247,1573
2,产品C,地区5,9907.129459,2357,9053
3,产品E,地区2,7759.016895,3566,8627
4,产品D,地区3,6051.219278,7147,6162
5,产品E,地区5,5083.255385,4810,8744
6,产品D,地区1,3859.50028,2471,536
7,产品B,地区4,6178.998281,1709,866
8,产品D,地区4,4788.684539,4262,7149
9,产品D,地区5,9798.228696,7703,242
