In [1]:
import pandas as pd
import numpy as np

### groupby

In [29]:
df1 = pd.DataFrame({'x':range(1,5),'y':range(11,15),'z':list('aabb')}, index=range(4))

In [8]:
"""聚合可以用内部列，也可以用外部等长的列"""
"""部分内置运算函数count,size,sum,mean,median,std,var,min,max,prod,first,last"""
"""df1['x'].groupby(df1['z'])不可简写为df1['x'].groupby(['z'])，只有df1.groupby(['z'])可对df1['z']简写为['z']"""
grouper1 = df1['x'].groupby([df1['z'], list('mnmn')])  # return series
grouper2 = df1[['x']].groupby([df1['z'], list('mnmn')])  # return dataframe

In [9]:
grouper1.count()  # return series

z   
a  m    1
   n    1
b  m    1
   n    1
Name: x, dtype: int64

In [10]:
grouper2.count()  # return dataframe

Unnamed: 0_level_0,Unnamed: 1_level_0,x
z,Unnamed: 1_level_1,Unnamed: 2_level_1
a,m,1
a,n,1
b,m,1
b,n,1


In [11]:
"""语法糖，返回的grouper是iterator，每组数据是1个元祖，元祖里面有2个元素，1是序号(元祖或值)，2是df数据"""
grouper = df1.groupby(['z', list('mnmn')], axis=0)  # 默认axis=0纵向分组, axis=1是横向分组。
dic_grp = dict(list(grouper))  # 字典中每个value都是分组后的df
dic_grp[('a','m')]

Unnamed: 0,x,y,z
0,1,11,a


In [12]:
list(grouper)

[(('a', 'm'),    x   y  z
  0  1  11  a), (('a', 'n'),    x   y  z
  1  2  12  a), (('b', 'm'),    x   y  z
  2  3  13  b), (('b', 'n'),    x   y  z
  3  4  14  b)]

In [13]:
list(grouper)[0]

(('a', 'm'),    x   y  z
 0  1  11  a)

In [14]:
list(grouper)[0][0]

('a', 'm')

In [15]:
list(grouper)[0][1]

Unnamed: 0,x,y,z
0,1,11,a


In [16]:
"""默认聚合所有列(符合计算条件的)，比如sum计算所有数值列，count计算所有数值列和字符串列"""
grouper.count()

Unnamed: 0_level_0,Unnamed: 1_level_0,x,y
z,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
a,m,1,1
a,n,1,1
b,m,1,1
b,n,1,1


In [17]:
"""同df1['x'].groupby([df1['z'], list('mnmn')]).count()"""
grouper['x'].count()

z   
a  m    1
   n    1
b  m    1
   n    1
Name: x, dtype: int64

In [18]:
"""同df1[['x']].groupby([df1['z'], list('mnmn')]).count()"""
grouper[['x']].count()

Unnamed: 0_level_0,Unnamed: 1_level_0,x
z,Unnamed: 1_level_1,Unnamed: 2_level_1
a,m,1
a,n,1
b,m,1
b,n,1


In [19]:
"""size统计行数，永远返回一列(所以必返回series)。count将NaN,None,np.nan等计为0(空字符串等未测试)，但size会对整行的NaN,None计为1"""
grouper.size()  # 等价写法grouper[['x','y']].size()， 其实加[['x','y']]多余
"""分组describe"""
grouper.describe()
"""分组quantile"""
grouper.quantile(0.5)

Unnamed: 0_level_0,0.5,x,y
z,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
a,m,1.0,11.0
a,n,2.0,12.0
b,m,3.0,13.0
b,n,4.0,14.0


In [20]:
"""小技巧，切分不同类型的列，对行groupby，用dtypes"""
grp = df1.groupby(df1.dtypes, axis=1)
list(grp)[0][1]

Unnamed: 0,x,y
0,1,11
1,2,12
2,3,13
3,4,14


In [21]:
list(grp)[1][1]

Unnamed: 0,z
0,a
1,a
2,b
3,b


### grouper之aggregate只接受聚合函数，也就是返回标量的函数

In [185]:
df1 = pd.DataFrame({'x':range(1,5),'y':range(11,15),'z':list('aabb')}, index=range(4))
grouper = df1.groupby(['z', list('mnmn')], axis=0)

In [186]:
"""单个函数，对应多列"""
grouper.agg(sum)

Unnamed: 0_level_0,Unnamed: 1_level_0,x,y
z,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
a,m,1,11
a,n,2,12
b,m,3,13
b,n,4,14


In [187]:
"""多个函数，多应多列"""
grouper.agg([sum,max])

Unnamed: 0_level_0,Unnamed: 1_level_0,x,x,y,y
Unnamed: 0_level_1,Unnamed: 1_level_1,sum,max,sum,max
z,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
a,m,1,1,11,11
a,n,2,2,12,12
b,m,3,3,13,13
b,n,4,4,14,14


In [188]:
"""为函数取名，以及可使用lambda、自定义函数"""
grouper.agg([('yoursum',sum),('mysum',lambda x:sum(x))])

Unnamed: 0_level_0,Unnamed: 1_level_0,x,x,y,y
Unnamed: 0_level_1,Unnamed: 1_level_1,yoursum,mysum,yoursum,mysum
z,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
a,m,1,1,11,11
a,n,2,2,12,12
b,m,3,3,13,13
b,n,4,4,14,14


In [201]:
"""为每一列指定函数，不能为分组列指定函数"""
grouper.agg({'x':[('asum',sum),('amin',min)],'y':[('bsum',sum)]})

Unnamed: 0_level_0,Unnamed: 1_level_0,x,x,y
Unnamed: 0_level_1,Unnamed: 1_level_1,asum,amin,bsum
z,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
a,m,1,1,11
a,n,2,2,12
b,m,3,3,13
b,n,4,4,14


### grouper之apply可接受更丰富的函数，比如返回多个值的函数

In [235]:
df1 = pd.DataFrame({'x':range(1,5),'y':range(11,15),'z':list('aabb')}, index=range(4))
grouper = df1.groupby(['z', list('mnmn')], axis=0)

In [236]:
def customf(x):
    return pd.Series([x.min(), x.max()], index=['min','max'])

In [237]:
"""只接受单个函数"""
grouper.apply(sum)  # 等价于grouper.agg(sum)

Unnamed: 0_level_0,Unnamed: 1_level_0,x,y,z
z,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
a,m,1,11,a
a,n,2,12,a
b,m,3,13,b
b,n,4,14,b


In [238]:
grouper.apply(customf)  # grouper.agg(customf)会报错ValueError: Function does not reduce

Unnamed: 0_level_0,Unnamed: 1_level_0,min,max
z,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
a,m,x 1 y 11 z a dtype: object,x 1 y 11 z a dtype: object
a,n,x 2 y 12 z a dtype: object,x 2 y 12 z a dtype: object
b,m,x 3 y 13 z b dtype: object,x 3 y 13 z b dtype: object
b,n,x 4 y 14 z b dtype: object,x 4 y 14 z b dtype: object


In [36]:
"""grouper.apply()使用lambda有歧义，还是grouper.egg()使用lambda靠谱，不过egg只适用聚合函数
groupber.apply()使用函数相对靠谱"""
def mx(x):
    return x.max()
df1 = pd.DataFrame({'x':list('aabb'), 'y':range(4), 'u':range(11,15),})
grouper = df1.groupby('x')

In [37]:
print(grouper.agg(lambda x: max(x)))  # return dataframe
print(grouper.apply(lambda x: max(x)))  # return series 有歧义，max(dataframe)得到的是最大的列名
print(grouper.agg(sum))
print(grouper.apply(sum))
print(grouper.agg(mx))
print(grouper.apply(mx))

   y   u
x       
a  1  12
b  3  14
x
a    y
b    y
dtype: object
   y   u
x       
a  1  23
b  5  27
   y   u
x       
a  1  23
b  5  27
   y   u
x       
a  1  12
b  3  14
   y   u
x       
a  1  12
b  3  14


### grouper之transform用于将结果与原df拼在一起，所以只接受标量函数，或结果与原df等长的函数，以便拼接。

In [239]:
df1 = pd.DataFrame({'x':range(1,5),'y':range(11,15),'z':list('aabb')}, index=range(4))
grouper = df1.groupby(['z'], axis=0)

In [240]:
"""只接受单个函数"""
pd.concat([df1, grouper.transform(sum)], axis=1)

Unnamed: 0,x,y,z,x.1,y.1
0,1,11,a,3,23
1,2,12,a,3,23
2,3,13,b,7,27
3,4,14,b,7,27


In [276]:
pd.concat([df1, grouper.transform(lambda x:x.iloc[[0,1]])], axis=1)

Unnamed: 0,x,y,z,x.1,y.1
0,1,11,a,1,11
1,2,12,a,2,12
2,3,13,b,3,13
3,4,14,b,4,14


### grouper的as_index与group_keys

In [283]:
df1 = pd.DataFrame({'x':range(1,5),'y':range(11,15),'z':list('aabb')}, index=range(4))
grouper = df1.groupby(['z'], axis=0)
"""group_keys=False 可以禁用分组键所形成的索引，不会删去原始对象的索引。
as_index=False 可以禁用分组键作为索引的行为，同时自动给定一个索引。
当两者都是False的情况下，相同之处在于：都会禁用分组键。不同之处在于：as_index在消除分组键的同时会自动生成一个索引。
当调用聚合函数时，其本身的索引会失效，此时传递group_keys=False无效(与group_keys=True一样)
"""
grouper_grpkey = df1.groupby(['z'], axis=0, group_keys=False)
grouper_index = df1.groupby(['z'], axis=0, as_index=False)

In [297]:
grouper.sum()

Unnamed: 0_level_0,x,y
z,Unnamed: 1_level_1,Unnamed: 2_level_1
a,3,23
b,7,27


In [298]:
grouper.agg(sum)

Unnamed: 0_level_0,x,y
z,Unnamed: 1_level_1,Unnamed: 2_level_1
a,3,23
b,7,27


In [299]:
grouper.apply(sum)

Unnamed: 0_level_0,x,y
z,Unnamed: 1_level_1,Unnamed: 2_level_1
a,3,23
b,7,27


In [300]:
"""对于聚合函数，group_keys=False无效"""
grouper_grpkey.sum()

Unnamed: 0_level_0,x,y
z,Unnamed: 1_level_1,Unnamed: 2_level_1
a,3,23
b,7,27


In [301]:
grouper_grpkey.agg(sum)

Unnamed: 0_level_0,x,y
z,Unnamed: 1_level_1,Unnamed: 2_level_1
a,3,23
b,7,27


In [302]:
grouper_grpkey.apply(sum)

Unnamed: 0_level_0,x,y
z,Unnamed: 1_level_1,Unnamed: 2_level_1
a,3,23
b,7,27


In [303]:
"""as_index=False 可以禁用分组键作为索引的行为，同时自动给定一个索引。"""
"""as_index=False还可以让用于分组的列保留在结果中"""
grouper_index.sum()

Unnamed: 0,z,x,y
0,a,3,23
1,b,7,27


In [304]:
grouper_index.agg(sum)

Unnamed: 0,z,x,y
0,a,3,23
1,b,7,27


In [305]:
"""apply中的sum可用于字符串相加"""
grouper_index.apply(sum)

Unnamed: 0,x,y,z
0,3,23,aa
1,7,27,bb


In [284]:
"""非聚合函数，原始结果"""
grouper.apply(lambda x:x.iloc[[0,1]])

Unnamed: 0_level_0,Unnamed: 1_level_0,x,y,z
z,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
a,0,1,11,a
a,1,2,12,a
b,2,3,13,b
b,3,4,14,b


In [285]:
"""非聚合函数，group_keys=False有效，禁用分组键所形成的索引，不会删去原始对象的索引。"""
grouper_grpkey.apply(lambda x:x.iloc[[0,1]])

Unnamed: 0,x,y,z
0,1,11,a
1,2,12,a
2,3,13,b
3,4,14,b


In [286]:
"""非聚合函数，as_index=False 可以禁用分组键作为索引的行为，同时自动给定一个索引。"""
grouper_index.apply(lambda x:x.iloc[[0,1]])

Unnamed: 0,Unnamed: 1,x,y,z
0,0,1,11,a
0,1,2,12,a
1,2,3,13,b
1,3,4,14,b


# apply和map

In [53]:
df1 = pd.DataFrame(np.arange(6).reshape(2,3),columns=list('xyz'),index=list('ab'))

In [206]:
def customf(x):
    return pd.Series([x.min(), x.max()], index=['min','max'])

In [55]:
"""apply可接受自定义函数，lambda函数，内置函数。可指定axis。数据类型要能满足运算，否则报错"""
df1.apply(customf,axis=0)  # 每列计算返回series，所有列会组成dataframe返回

Unnamed: 0,x,y,z
min,0,1,2
max,3,4,5


In [56]:
df1.apply(lambda x:x.max() - x.min(), axis=0)

x    3
y    3
z    3
dtype: int64

In [57]:
"""applymap是应用到每个单元格"""
df1.applymap(lambda x: '%.1f' % x)

Unnamed: 0,x,y,z
a,0.0,1.0,2.0
b,3.0,4.0,5.0


In [58]:
"""Series可以map字典，但df的applymap不支持字典。map字典常用于修改df一列中的某些值"""
df1['y'].map(lambda x: x*2)  # create new
df1['y'].map({1:'a1',4:'a4'})  # create new

a    a1
b    a4
Name: y, dtype: object

### 运算

In [35]:
"""运算"""
df1 = pd.DataFrame(np.arange(6).reshape(2,3), columns=list('xyz'), index=list('ab'))
df2 = pd.DataFrame(np.ones([2,2]), columns=list('xy'), index=list('ac'))
sr1 = pd.Series([-6,-6], index=list('ax'))

In [36]:
df1.info()  # 显示每一列的缺失值数，以及列的数据类型

<class 'pandas.core.frame.DataFrame'>
Index: 2 entries, a to b
Data columns (total 3 columns):
x    2 non-null int32
y    2 non-null int32
z    2 non-null int32
dtypes: int32(3)
memory usage: 40.0+ bytes


In [37]:
df1.describe()

Unnamed: 0,x,y,z
count,2.0,2.0,2.0
mean,1.5,2.5,3.5
std,2.12132,2.12132,2.12132
min,0.0,1.0,2.0
25%,0.75,1.75,2.75
50%,1.5,2.5,3.5
75%,2.25,3.25,4.25
max,3.0,4.0,5.0


In [42]:
abs(df1)
-df1
(-df1).abs()
df1 - sr1  # 按索引对齐，未能匹配的返回NaN, 默认沿axis=0广播
df1 + df2  # 按索引对齐，未能匹配的返回NaN
"""df与series的add, sub, div, mul 操作, 只举了mul的例子，其他一样"""
df1.mul(sr1, axis=0)  # 按索引对齐，未能匹配的返回NaN, 默认沿axis=0广播
"""两个df之间的add, sub, div, mul 操作, 只举了add的例子，其他一样"""
df1.add(df2, fill_value=66)  # 二者仅1个有缺失值，则使用fill_value，如果2个frame都是NaN，则fill_value无效，单元格返回NaN。

Unnamed: 0,x,y,z
a,1.0,2.0,68.0
b,69.0,70.0,71.0
c,67.0,67.0,


In [44]:
"""dataframe支持的运算（series未测试）count, min, max, quantile(0.5), sum, mean, median, mad, var, std, 
skew, skurt, cumsum, cumprod, cummin, cummax"""
df1.count(axis=0, numeric_only=True)  # 默认axis=0, count是统计非空值的（非空定义未测试）, numeric_only是指的列类型为数值
"""仅series支持的idxmin, idxmax, values.argmin, values.argmax"""
df1['x'].idxmin()  # 返回对应的索引
df1['x'].values.argmin()  # 返回对应的位置，这里本质使用的numpy的方法。

0

In [45]:
"""行与行之间的计算"""
df1.diff(axis=0)  # 下一行减前一行的差值，可用于series
df1.pct_change(axis=0)  # 下一行除以上一行，再减去1
df1.corr()  # 相关系数，只有列之间的计算，且是所有列，不能筛选列
df1.cov()  # 协方差，用法同上
sr2 = df1.loc[:,'x']
sr2.corr(sr2)  # series之间计算相关系数
df1.corrwith(sr2, axis=0)  # df与series之间计算相关系数，要求索引对应上，且可以按行或列计算。

x    1.0
y    1.0
z    1.0
dtype: float64

In [16]:
"""unique只适用series，不适用df，如df1[['x']]"""
df1['x'].unique()  # return ndarray

array([0, 3], dtype=int64)

In [23]:
"""isin同时适用df和series，分别返回df或series"""
df1['x'].isin([0,1])
df1.isin([0,1])

Unnamed: 0,x,y,z
a,True,True,False
b,False,False,False


In [34]:
"""value_counts只适用于series，可通过apply用于df"""
df1['x'].value_counts()  # 统计各值的频次，数值也可以统计
pd.value_counts(df1['x'],sort=True)  # 顶级函数可排序
df1.apply(pd.value_counts,axis=1) # 计算各行或各列的计数，返回df

Unnamed: 0,0,1,2,3,4,5
a,1.0,1.0,1.0,,,
b,,,,1.0,1.0,1.0


### dataframe iter操作

In [48]:
df1 = pd.DataFrame(np.arange(6).reshape(2,3), columns=list('xyz'), index=list('ab'), dtype='int')  # 好像所有列只能指定一种类型

In [50]:
list(df1.iterrows())  # return iterator by rows, (index, Series)

[('a', x    0
  y    1
  z    2
  Name: a, dtype: int32), ('b', x    3
  y    4
  z    5
  Name: b, dtype: int32)]

In [51]:
list(df1.itertuples())  # return iterator by rows, tuple

[Pandas(Index='a', x=0, y=1, z=2), Pandas(Index='b', x=3, y=4, z=5)]

In [52]:
list(df1.iteritems())  # return iterator by columns, (column, Series)

[('x', a    0
  b    3
  Name: x, dtype: int32), ('y', a    1
  b    4
  Name: y, dtype: int32), ('z', a    2
  b    5
  Name: z, dtype: int32)]