# Pandas Note(Basic)

## 创建、存储和读取

### 创建

In [1]:
import pandas as pd
df1 = pd.DataFrame({'工资': [5000, 7000, 8500, 9000], '绩效分': [60, 84, 98, 91], '备注': ['不及格', '良好', '最佳', '优秀']}, index=['老王', '老牛', '老张', '老刘'])
print(df1)

      工资  绩效分   备注
老王  5000   60  不及格
老牛  7000   84   良好
老张  8500   98   最佳
老刘  9000   91   优秀


### 读取

In [5]:
import pandas as pd
df2 = pd.read_csv('00001.vcf')
df2.head()
print(df2)

                                           BEGIN:VCARD
0                                          VERSION:2.1
1    N;CHARSET=UTF-8;ENCODING=QUOTED-PRINTABLE:;=E6...
2    FN;CHARSET=UTF-8;ENCODING=QUOTED-PRINTABLE:=E6...
3                                TEL;VOICE:15996352969
4                                            END:VCARD
..                                                 ...
256                                        VERSION:2.1
257  N;CHARSET=UTF-8;ENCODING=QUOTED-PRINTABLE:;=E6...
258  FN;CHARSET=UTF-8;ENCODING=QUOTED-PRINTABLE:=E6...
259                             TEL;CELL:135 9870 4804
260                                          END:VCARD

[261 rows x 1 columns]


### 存储

In [7]:
df1 = pd.DataFrame({'工资': [5000, 7000, 8500, 9000], '绩效分': [60, 84, 98, 91], '备注': ['不及格', '良好', '最佳', '优秀']}, index=['老王', '老牛', '老张', '老刘'])
df1.to_csv('df1.csv')

## 数据概览

### 掐头看尾

In [9]:
df2.head(10)
df2.tail(10)

Unnamed: 0,BEGIN:VCARD
251,N;CHARSET=UTF-8;ENCODING=QUOTED-PRINTABLE:;=E6...
252,FN;CHARSET=UTF-8;ENCODING=QUOTED-PRINTABLE:=E6...
253,TEL;CELL:156 7058 1861
254,END:VCARD
255,BEGIN:VCARD
256,VERSION:2.1
257,N;CHARSET=UTF-8;ENCODING=QUOTED-PRINTABLE:;=E6...
258,FN;CHARSET=UTF-8;ENCODING=QUOTED-PRINTABLE:=E6...
259,TEL;CELL:135 9870 4804
260,END:VCARD


### 格式查看

In [11]:
df2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 261 entries, 0 to 260
Data columns (total 1 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   BEGIN:VCARD  261 non-null    object
dtypes: object(1)
memory usage: 2.2+ KB


### 统计信息概览

In [15]:
df2.describe()
df1.describe()     #　只针对数值类型的列

Unnamed: 0,工资,绩效分
count,4.0,4.0
mean,7375.0,83.25
std,1796.988221,16.52019
min,5000.0,60.0
25%,6500.0,78.0
50%,7750.0,87.5
75%,8625.0,92.75
max,9000.0,98.0


## 列的简单操作

### 增

In [18]:
import numpy as np
df3 = pd.DataFrame({'first':np.arange(10)}, index=np.arange(10))
df3

Unnamed: 0,first
0,0
1,1
2,2
3,3
4,4
5,5
6,6
7,7
8,8
9,9


In [22]:
df3['second'] = np.zeros(10)
df3

Unnamed: 0,first,second
0,0,0.0
1,1,0.0
2,2,0.0
3,3,0.0
4,4,0.0
5,5,0.0
6,6,0.0
7,7,0.0
8,8,0.0
9,9,0.0


### 删

In [23]:
df3.drop('second', axis = 1, inplace = True)
df3

Unnamed: 0,first
0,0
1,1
2,2
3,3
4,4
5,5
6,6
7,7
8,8
9,9


### 查

In [25]:
df3['second'] = np.zeros(10)
l2 = df3[['first', 'second']]
print(l2)

   first  second
0      0     0.0
1      1     0.0
2      2     0.0
3      3     0.0
4      4     0.0
5      5     0.0
6      6     0.0
7      7     0.0
8      8     0.0
9      9     0.0


### 改

In [26]:
df3['second'] = np.ones(10)
df3

Unnamed: 0,first,second
0,0,1.0
1,1,1.0
2,2,1.0
3,3,1.0
4,4,1.0
5,5,1.0
6,6,1.0
7,7,1.0
8,8,1.0
9,9,1.0


## 常用的数据类型及操作

### 字符串

In [29]:
df3['third'] = '第三列'
df3

Unnamed: 0,first,second,third
0,0,1.0,第三列
1,1,1.0,第三列
2,2,1.0,第三列
3,3,1.0,第三列
4,4,1.0,第三列
5,5,1.0,第三列
6,6,1.0,第三列
7,7,1.0,第三列
8,8,1.0,第三列
9,9,1.0,第三列


In [30]:
df3['third'] = df3['third'].str.replace('第', '')
df3

Unnamed: 0,first,second,third
0,0,1.0,三列
1,1,1.0,三列
2,2,1.0,三列
3,3,1.0,三列
4,4,1.0,三列
5,5,1.0,三列
6,6,1.0,三列
7,7,1.0,三列
8,8,1.0,三列
9,9,1.0,三列


### 数值型

In [32]:
df3['forth'] = df3['first'] + df3['second']
df3

Unnamed: 0,first,second,third,forth
0,0,1.0,三列,1.0
1,1,1.0,三列,2.0
2,2,1.0,三列,3.0
3,3,1.0,三列,4.0
4,4,1.0,三列,5.0
5,5,1.0,三列,6.0
6,6,1.0,三列,7.0
7,7,1.0,三列,8.0
8,8,1.0,三列,9.0
9,9,1.0,三列,10.0


### 时间类型

In [34]:
df3['fifth'] = pd.to_datetime('2020-8-2')
df3['fifth'].head(5)

0   2020-08-02
1   2020-08-02
2   2020-08-02
3   2020-08-02
4   2020-08-02
Name: fifth, dtype: datetime64[ns]

In [35]:
pd.to_datetime('2020-12-31') - df3['fifth']

0   151 days
1   151 days
2   151 days
3   151 days
4   151 days
5   151 days
6   151 days
7   151 days
8   151 days
9   151 days
Name: fifth, dtype: timedelta64[ns]

## 索引

### 行选取

选取所有的一级流量来源，索引号是0到12，由于左闭右开所以选到13.用iloc属性

In [39]:
df4 = pd.read_excel('流量练习数据.xls')
print(df4)
df4.iloc[:13, :]

   流量来源 来源明细    访客数   支付转化率     客单价
0    一级   -A  35188  0.0998   54.30
1    一级   -B  28467  0.1127   99.93
2    一级   -C  13747  0.0254    0.08
3    一级   -D   5183  0.0247   37.15
4    一级   -E   4361  0.0431   91.73
5    一级   -F   4063  0.1157   65.09
6    一级   -G   2122  0.1027   86.45
7    一级   -H   2041  0.0706   44.07
8    一级   -I   1991  0.1652  104.57
9    一级   -J   1981  0.0575   75.93
10   一级   -K   1958  0.1471   85.03
11   一级   -L   1780  0.1315   98.87
12   一级   -M   1447  0.0104   80.07
13   二级   -A  39048  0.1160   91.91
14   二级   -B   3316  0.0709   66.28
15   二级   -C   2043  0.0504   41.91
16   三级   -A  23140  0.0969   83.75
17   三级   -B  14813  0.2014   82.97
18   四级   -A    216  0.0185   94.25
19   四级   -B     31  0.0000     NaN
20   四级   -C     17  0.0000     NaN
21   四级   -D      3  0.0000     NaN


Unnamed: 0,流量来源,来源明细,访客数,支付转化率,客单价
0,一级,-A,35188,0.0998,54.3
1,一级,-B,28467,0.1127,99.93
2,一级,-C,13747,0.0254,0.08
3,一级,-D,5183,0.0247,37.15
4,一级,-E,4361,0.0431,91.73
5,一级,-F,4063,0.1157,65.09
6,一级,-G,2122,0.1027,86.45
7,一级,-H,2041,0.0706,44.07
8,一级,-I,1991,0.1652,104.57
9,一级,-J,1981,0.0575,75.93


### 列选取

选取流量来源和客单价,若连续跨列选取，则直接[0: 4]

In [40]:
df4.iloc[:, [0,4]]

Unnamed: 0,流量来源,客单价
0,一级,54.3
1,一级,99.93
2,一级,0.08
3,一级,37.15
4,一级,91.73
5,一级,65.09
6,一级,86.45
7,一级,44.07
8,一级,104.57
9,一级,75.93


### 行列交叉选择

目标：我们想要看一看二级、三级流量来源、来源明细对应的访客和支付转化率  
思路：先看行，二级三级渠道对应行索引是13:17，再次强调索引含首不含尾的原则，我们传入的行参数是13:18；列的话我们需要流量来源、来源明细、访客和转化，也就是前4列，传入参数0:4。

In [44]:
df4.iloc[13:18, 0:4]

Unnamed: 0,流量来源,来源明细,访客数,支付转化率
13,二级,-A,39048,0.116
14,二级,-B,3316,0.0709
15,二级,-C,2043,0.0504
16,三级,-A,23140,0.0969
17,三级,-B,14813,0.2014


### 基于名称的索引

筛选出具有特定名称的几行,用loc属性

In [46]:
df4['流量来源'] == '二级'

0     False
1     False
2     False
3     False
4     False
5     False
6     False
7     False
8     False
9     False
10    False
11    False
12    False
13     True
14     True
15     True
16    False
17    False
18    False
19    False
20    False
21    False
Name: 流量来源, dtype: bool

In [47]:
df4.loc[df4['流量来源'] == '二级', :]

Unnamed: 0,流量来源,来源明细,访客数,支付转化率,客单价
13,二级,-A,39048,0.116,91.91
14,二级,-B,3316,0.0709,66.28
15,二级,-C,2043,0.0504,41.91


筛选出特定的几列

In [None]:
df4.loc[df4['流量来源'] == '一级', ['流量来源', '访客数', '客单价']]

我们想要提取二级、三级流量来源、来源明细对应的访客和支付转化率。

In [None]:
df4.loc[df4['流量来源'].isin(['二级', '三级']), ['流量来源', '来源明细', '访客数', '支付转化率']]

### 统计数据

In [None]:
mean = df4['访客数'].mean()
std = df4['访客数'].std()
m = df4['访客数'].median()
ma = df4['访客数'].max()
mi = df4['访客数'].min()
print(mean, '\n', std, '\n', m,'\n', ma, '\n', mi)

问题：对于流量渠道数据，我们真正应该关注的是优质渠道，假如这里我们定义访客数、转化率、客单价都高于平均值渠道是优质渠道，那怎么找到这些渠道呢？  
思路：优质渠道，得同时满足访客、转化、客单高于平均值这三个条件，这是解题的关键。  
要三个条件同时满足，他们之间是一个“且”的关系（同时满足），在pandas中，要表示同时满足，各条件之间要用"&"符号连接，条件内部最好用括号区分；如果是“或”的关系（满足一个即可），则用“|”符号连接：

In [None]:
df4.loc[(df4['访客数']>df4['访客数'].mean()) & (df4['支付转化率']>df4['支付转化率'].mean()) & (df4['客单价']>df4['客单价'].mean()), :]

df4.loc[(df4['访客数']>df4['访客数'].mean()) & (df4['支付转化率']>df4['支付转化率'].mean()) & (df4['客单价']>df4['客单价'].mean()), :]

In [49]:
df4.loc[df4['流量来源'] == '一级', ['流量来源', '访客数', '客单价']]

Unnamed: 0,流量来源,访客数,客单价
0,一级,35188,54.3
1,一级,28467,99.93
2,一级,13747,0.08
3,一级,5183,37.15
4,一级,4361,91.73
5,一级,4063,65.09
6,一级,2122,86.45
7,一级,2041,44.07
8,一级,1991,104.57
9,一级,1981,75.93


我们想要提取二级、三级流量来源、来源明细对应的访客和支付转化率。

In [52]:
df4.loc[df4['流量来源'].isin(['二级', '三级']), ['流量来源', '来源明细', '访客数', '支付转化率']]

Unnamed: 0,流量来源,来源明细,访客数,支付转化率
13,二级,-A,39048,0.116
14,二级,-B,3316,0.0709
15,二级,-C,2043,0.0504
16,三级,-A,23140,0.0969
17,三级,-B,14813,0.2014


### 统计数据

In [58]:
mean = df4['访客数'].mean()
std = df4['访客数'].std()
m = df4['访客数'].median()
ma = df4['访客数'].max()
mi = df4['访客数'].min()
print(mean, '\n', std, '\n', m,'\n', ma, '\n', mi)

8498.0 
 12015.237559825757 
 2082.5 
 39048 
 3


问题：对于流量渠道数据，我们真正应该关注的是优质渠道，假如这里我们定义访客数、转化率、客单价都高于平均值渠道是优质渠道，那怎么找到这些渠道呢？  
思路：优质渠道，得同时满足访客、转化、客单高于平均值这三个条件，这是解题的关键。  
要三个条件同时满足，他们之间是一个“且”的关系（同时满足），在pandas中，要表示同时满足，各条件之间要用"&"符号连接，条件内部最好用括号区分；如果是“或”的关系（满足一个即可），则用“|”符号连接：

In [60]:
df4.loc[(df4['访客数']>df4['访客数'].mean()) & (df4['支付转化率']>df4['支付转化率'].mean()) & (df4['客单价']>df4['客单价'].mean()), :]

Unnamed: 0,流量来源,来源明细,访客数,支付转化率,客单价
1,一级,-B,28467,0.1127,99.93
13,二级,-A,39048,0.116,91.91
16,三级,-A,23140,0.0969,83.75
17,三级,-B,14813,0.2014,82.97


## 数据清洗

In [17]:
import pandas as pd
d1 = pd.read_excel('清洗数据集.xlsx', sheet_name='一级流量')
d1

Unnamed: 0,流量级别,投放地区,访客数,支付转化率,客单价,支付金额
0,一级,A区,44300,0.1178,58.79,306887.83
1,一级,B区,30612,0.1385,86.64,367338.1
2,一级,C区,18389,0.025,0.28,129.58
3,一级,D区,4509,0.1073,64.12,31035.14
4,一级,E区,3769,0.0573,92.91,20068.2
5,一级,F区,2424,0.2207,89.33,47791.6
6,一级,G区,2412,0.0821,56.04,11096.42


In [6]:
d2 = pd.read_excel('清洗数据集.xlsx', sheet_name='二级流量')
d2

Unnamed: 0,流量级别,投放地区,访客数,支付转化率,客单价,支付金额
0,二级,A区,29111,0.1066,87.4,271189.23
1,二级,B区,17165,0.2271,91.22,355662.39
2,二级,C区,8870,0.0078,44.52,3072.0


In [18]:
d3 = pd.read_excel('清洗数据集.xlsx', sheet_name='三级流量')
d3

Unnamed: 0,流量级别,投放地区,访客数,支付转化率,客单价,支付金额
0,三级,A区,45059,0.1366,90.11,554561.22
1,三级,B区,2133,0.1083,74.48,17204.5
2,三级,C区,899,0.099,92.99,8276.5
3,三级,D区,31,0.0,,
4,三级,E区,17,0.0,,


### 增加数据

In [8]:
# 纵向合并数据
d0 = pd.concat([d1,d2,d3])
d0

Unnamed: 0,流量级别,投放地区,访客数,支付转化率,客单价,支付金额
0,一级,A区,44300,0.1178,58.79,306887.83
1,一级,B区,30612,0.1385,86.64,367338.1
2,一级,C区,18389,0.025,0.28,129.58
3,一级,D区,4509,0.1073,64.12,31035.14
4,一级,E区,3769,0.0573,92.91,20068.2
5,一级,F区,2424,0.2207,89.33,47791.6
6,一级,G区,2412,0.0821,56.04,11096.42
0,二级,A区,29111,0.1066,87.4,271189.23
1,二级,B区,17165,0.2271,91.22,355662.39
2,二级,C区,8870,0.0078,44.52,3072.0


In [9]:
# 横向合并数据
h1 = pd.DataFrame({'语文':[93,80,83,75,58], '数学':[87,95,99,85,70], '英语':[80,85,97,65,88]}, index=['韩梅梅', '李雷', '李华', '王明', '铁蛋'])
h1

Unnamed: 0,语文,数学,英语
韩梅梅,93,87,80
李雷,80,95,85
李华,83,99,97
王明,75,85,65
铁蛋,58,70,88


In [10]:
h2 = pd.DataFrame({'篮球': [93,80,85,79], '舞蹈':[87,99,95,85]}, index=['李华','王明','铁蛋','刘强'])
h2

Unnamed: 0,篮球,舞蹈
李华,93,87
王明,80,99
铁蛋,85,95
刘强,79,85


In [12]:
h0 = pd.merge(left=h1, right=h2, left_index=True, right_index=True, how='inner')
h0

Unnamed: 0,语文,数学,英语,篮球,舞蹈
李华,83,99,97,93,87
王明,75,85,65,80,99
铁蛋,58,70,88,85,95


left_index与right_index是当我们用索引（这两个表的名字在索引中）连接时指定的参数，设置为on表示用该表的索引作为连接的条件（或者说桥梁）。假设姓名是**单独的一列值**，且需要**根据姓名进行匹配**，那就需要用“left_on = '姓名',right_on = '姓名'”，我们可以分别指定左表的匹配列和右表的匹配列。

how是指定连接方式，这里用的inner，表示我们基于姓名索引来匹配，只返回两个表中共同（同时出现）姓名的数据。下面详解一下inner还涉及到的其他参数——left,right,outer。

In [14]:
# 左右连接（left和right）
hleft = pd.merge(left=h1, right=h2, left_index=True, right_index=True, how='left')
hleft

Unnamed: 0,语文,数学,英语,篮球,舞蹈
韩梅梅,93,87,80,,
李雷,80,95,85,,
李华,83,99,97,93.0,87.0
王明,75,85,65,80.0,99.0
铁蛋,58,70,88,85.0,95.0


左连接（left）和右连接（right），我们可以直观理解为哪边的表是老大，谁是老大，就听谁的（所有行全部保持），先看左连接，左表h1原封不动，右边根据左表进行合并，如果存在相关的名字，就正常返回数据，如果不存在（韩梅梅、李雷），就返回空(NAN)值；右连接就是听右表的，左表有则返回无则为空。

In [15]:
# 外连接（outer）
ho = pd.merge(left=h1, right=h2, left_index=True, right_index=True, how='outer')
ho

Unnamed: 0,语文,数学,英语,篮球,舞蹈
刘强,,,,79.0,85.0
李华,83.0,99.0,97.0,93.0,87.0
李雷,80.0,95.0,85.0,,
王明,75.0,85.0,65.0,80.0,99.0
铁蛋,58.0,70.0,88.0,85.0,95.0
韩梅梅,93.0,87.0,80.0,,


外连接是两张表妥协的产物，我的数据全保留，你的也全保留，你有我无的就空着，你无我有的也空着。

### 删除数据

In [19]:
# 删除空值
d3.dropna()

Unnamed: 0,流量级别,投放地区,访客数,支付转化率,客单价,支付金额
0,三级,A区,45059,0.1366,90.11,554561.22
1,三级,B区,2133,0.1083,74.48,17204.5
2,三级,C区,899,0.099,92.99,8276.5


dropna函数默认删除所有出现空值的行，即只要一行中任意一个字段为空，就会被删除。我们可以设置subset参数，例如dropna(subset = ['city'])，来指定当一行中的city字段为空时，才会被删除。

In [22]:
# 删除重复数据
repeat = pd.concat([d3, d3])
print('源数据有几行', len(repeat))

源数据有几行 10


In [24]:
unique = repeat.drop_duplicates()
print('删除后有几行', len(unique))

删除后有几行 5


drop_duplicates方法去重默认会删掉完全重复的行（每个值都一样的行），如果我们要删除指定列重复的数据，可以通过指定subset参数来实现，假如我们有个奇葩想法，要基于“流量级别”这列进行去重，则可以：

In [25]:
dd = d0.drop_duplicates(subset='流量级别')
dd

Unnamed: 0,流量级别,投放地区,访客数,支付转化率,客单价,支付金额
0,一级,A区,44300,0.1178,58.79,306887.83
0,二级,A区,29111,0.1066,87.4,271189.23
0,三级,A区,45059,0.1366,90.11,554561.22


我们会发现，流量有三个级别，通过指定subset参数，我们删除了这个字段重复的行，保留了各自不重复的第一行。继续展开讲，在源数据中，流量渠道为“一级”的有7行数据，每行数据其他字段都不相同，这里我们删除了后6行，只保留了第一行，但如果我们想在去重的过程中删除前面6行，保留最后一行数据怎么操作？答案很简单，指定keep参数即可。

In [27]:
dk = d0.drop_duplicates(subset='流量级别', keep='last')
dk

Unnamed: 0,流量级别,投放地区,访客数,支付转化率,客单价,支付金额
6,一级,G区,2412,0.0821,56.04,11096.42
2,二级,C区,8870,0.0078,44.52,3072.0
4,三级,E区,17,0.0,,


### 查询数据

In [31]:
# 通过索引筛选 筛选出访客数大于10000的一级渠道
d0.loc[(d0['访客数']>10000) & (d0['流量级别'] == '一级'),:]

Unnamed: 0,流量级别,投放地区,访客数,支付转化率,客单价,支付金额
0,一级,A区,44300,0.1178,58.79,306887.83
1,一级,B区,30612,0.1385,86.64,367338.1
2,一级,C区,18389,0.025,0.28,129.58


按交易金额进行**排序**并筛选出TOP3的渠道

In [None]:
sortd = d0.sort_values('支付金额', ascending=False)    # ascending参数决定了排序顺序，等于Flase则是从大到小的降序，设置为True则是升序。
sortd

### 分组和切分

#### 分组

在案例数据中，总的流量级别有三级，每一级下又有多个投放地区，如果我们想汇总看每个级别流量所对应的总访客数和支付金额，就需要用到分组了。
groupby是分组函数，最主要的参数是列参数

In [None]:
gb = d0.groupby('流量级别')
# 在分组的时候对相关字段进行计算（常用的计算方法包括sum、max、min、mean、std）
gb.sum()

In [None]:
# 只想要各级别流量下的访客数和支付金额，需要指明参数
gb['访客数', '支付金额'].sum()

流量级别作为汇总的依据列，默认转化为索引列，如果我们不希望它变成索引，向groupby内传入参数as_index = False即可

In [None]:
d0.groupby('流量级别', as_index=False)['访客数', '支付金额'].sum()

#### 切分

In [None]:
d0['分类标签'] = pd.cut(x=d0['访客数'], bins=[0,100,1000,10000,100000], right=False, labels=['辣鸡', '百级', '千级', '万级'])
d0.sort_values('分类标签', ascending=False)

In [33]:
d0['分类标签'] = pd.cut(x=d0['访客数'], bins=[0,100,1000,10000,100000], right=False, labels=['辣鸡', '百级', '千级', '万级'])
d0.sort_values('分类标签', ascending=False)

Unnamed: 0,流量级别,投放地区,访客数,支付转化率,客单价,支付金额
0,三级,A区,45059,0.1366,90.11,554561.22
1,一级,B区,30612,0.1385,86.64,367338.1
1,二级,B区,17165,0.2271,91.22,355662.39
0,一级,A区,44300,0.1178,58.79,306887.83
0,二级,A区,29111,0.1066,87.4,271189.23
5,一级,F区,2424,0.2207,89.33,47791.6
3,一级,D区,4509,0.1073,64.12,31035.14
4,一级,E区,3769,0.0573,92.91,20068.2
1,三级,B区,2133,0.1083,74.48,17204.5
6,一级,G区,2412,0.0821,56.04,11096.42


### 分组和切分

#### 分组

在案例数据中，总的流量级别有三级，每一级下又有多个投放地区，如果我们想汇总看每个级别流量所对应的总访客数和支付金额，就需要用到分组了。
groupby是分组函数，最主要的参数是列参数

In [34]:
gb = d0.groupby('流量级别')
# 在分组的时候对相关字段进行计算（常用的计算方法包括sum、max、min、mean、std）
gb.sum()

Unnamed: 0_level_0,访客数,支付转化率,客单价,支付金额
流量级别,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
一级,106415,0.7487,448.11,784346.87
三级,48139,0.3439,257.58,580042.22
二级,55146,0.3415,223.14,629923.62


In [35]:
# 只想要各级别流量下的访客数和支付金额，需要指明参数
gb['访客数', '支付金额'].sum()

  gb['访客数', '支付金额'].sum()


Unnamed: 0_level_0,访客数,支付金额
流量级别,Unnamed: 1_level_1,Unnamed: 2_level_1
一级,106415,784346.87
三级,48139,580042.22
二级,55146,629923.62


流量级别作为汇总的依据列，默认转化为索引列，如果我们不希望它变成索引，向groupby内传入参数as_index = False即可

In [36]:
d0.groupby('流量级别', as_index=False)['访客数', '支付金额'].sum()

  d0.groupby('流量级别', as_index=False)['访客数', '支付金额'].sum()


Unnamed: 0,流量级别,访客数,支付金额
0,一级,106415,784346.87
1,三级,48139,580042.22
2,二级,55146,629923.62


#### 切分

In [41]:
d0['分类标签'] = pd.cut(x=d0['访客数'], bins=[0,100,1000,10000,100000], right=False, labels=['辣鸡', '百级', '千级', '万级'])
d0.sort_values('分类标签', ascending=False)

Unnamed: 0,流量级别,投放地区,访客数,支付转化率,客单价,支付金额,分类标签
0,一级,A区,44300,0.1178,58.79,306887.83,万级
1,一级,B区,30612,0.1385,86.64,367338.1,万级
2,一级,C区,18389,0.025,0.28,129.58,万级
0,二级,A区,29111,0.1066,87.4,271189.23,万级
1,二级,B区,17165,0.2271,91.22,355662.39,万级
0,三级,A区,45059,0.1366,90.11,554561.22,万级
3,一级,D区,4509,0.1073,64.12,31035.14,千级
4,一级,E区,3769,0.0573,92.91,20068.2,千级
5,一级,F区,2424,0.2207,89.33,47791.6,千级
6,一级,G区,2412,0.0821,56.04,11096.42,千级


## Apply函数

In [4]:
import pandas as pd
ap = pd.read_excel('apply案例数据.xlsx', sheet_name='成绩表')
ap

Unnamed: 0,姓名,科目,综合成绩
0,李华,一模,651
1,李华,二模,579
2,李华,三模,580
3,王雷,一模,475
4,王雷,二模,455
5,王雷,三模,432
6,张建国,一模,691
7,张建国,二模,582
8,张建国,三模,553
9,李子明,一模,490


In [6]:
mx = ap.groupby('姓名')['综合成绩'].apply(max).reset_index()
# reset_index方法重置或者说取消姓名索引，将它保留在列的位置，维持DataFrame格式，方便后续匹配
mx

Unnamed: 0,姓名,综合成绩
0,张建国,691
1,李华,651
2,李子明,577
3,王雷,475


In [7]:
mi = ap.groupby('姓名')['综合成绩'].apply(min).reset_index()
mi

Unnamed: 0,姓名,综合成绩
0,张建国,553
1,李华,579
2,李子明,490
3,王雷,432


In [10]:
co = pd.merge(mx, mi, left_on='姓名', right_on='姓名', how='inner')
reco = co.rename(columns={'综合成绩_x': '最高成绩','综合成绩_y': '最低成绩'})
reco

Unnamed: 0,姓名,最高成绩,最低成绩
0,张建国,691,553
1,李华,651,579
2,李子明,577,490
3,王雷,475,432


In [11]:
order = pd.read_excel('apply案例数据.xlsx', sheet_name='省市销售数据')
order.head(5)

Unnamed: 0,省份,城市,近1月销售额
0,重庆,重庆市,255343
1,浙江省,金华市,302624
2,浙江省,台州市,147853
3,浙江省,舟山市,136547
4,浙江省,杭州市,109073


In [12]:
rank_order = order.sort_values(['省份', '近1月销售额'], ascending=False)
rank_order

Unnamed: 0,省份,城市,近1月销售额
37,陕西省,西安市,450490
38,陕西省,延安市,120161
39,陕西省,安康市,60456
40,陕西省,汉中市,59391
41,陕西省,咸阳市,47411
...,...,...,...
17,云南省,德宏傣族景颇族自治州,84815
18,云南省,红河哈尼族彝族自治州,31244
19,云南省,玉溪市,29546
20,云南省,西双版纳傣族自治州,16479


In [13]:
def get_third(x):
    if len(x) == 1:
        return x.iloc[0, :]
    else:
        return x.iloc[2, :]

thr_order = rank_order.groupby('省份').apply(get_third)
thr_order

Unnamed: 0_level_0,省份,城市,近1月销售额
省份,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
上海,上海,上海市,139261
云南省,云南省,昆明市,203210
内蒙古自治区,内蒙古自治区,兴安盟,258106
北京,北京,北京市,154682
四川省,四川省,达州市,427285
天津,天津,天津市,510720
安徽省,安徽省,合肥市,179518
山东省,山东省,菏泽市,187375
山西省,山西省,临汾市,186931
广东省,广东省,肇庆市,321218
