## 分组(groupby)

分组即是根据某列取值将数据分组

In [9]:
import numpy as np
import pandas as pd
from pandas import DataFrame,Series


df1=DataFrame({'symbol':['001','001','002','002','003'],'tdate':['201901','201902','201901','201902','201901'],
              'open':np.random.randint(0,50,5),'close':np.random.randint(50,100,5)})
df1

Unnamed: 0,symbol,tdate,open,close
0,1,201901,23,87
1,1,201902,35,86
2,2,201901,23,53
3,2,201902,27,62
4,3,201901,28,98


In [12]:
#获取分组后,每组的组名和数据

grp1=df1.groupby('symbol')

for name,group in grp1:
    print(name)
    print(group)
    print('*'*30)

001
  symbol   tdate  open  close
0    001  201901    23     87
1    001  201902    35     86
******************************
002
  symbol   tdate  open  close
2    002  201901    23     53
3    002  201902    27     62
******************************
003
  symbol   tdate  open  close
4    003  201901    28     98
******************************


In [11]:
#根据两列数据将数据分组
grp2=df1.groupby(['symbol','tdate'])

for name,group in grp2:
    print(name)
    print(group)
    print('*'*30)

('001', '201901')
  symbol   tdate  open  close
0    001  201901    23     87
******************************
('001', '201902')
  symbol   tdate  open  close
1    001  201902    35     86
******************************
('002', '201901')
  symbol   tdate  open  close
2    002  201901    23     53
******************************
('002', '201902')
  symbol   tdate  open  close
3    002  201902    27     62
******************************
('003', '201901')
  symbol   tdate  open  close
4    003  201901    28     98
******************************


In [16]:
#通过组名访问 组名对应的数据

print(grp1.get_group('001'))
print('*'*30)
print(grp2.get_group(('001','201901')))

symbol   tdate  open  close
0    001  201901    23     87
1    001  201902    35     86
******************************
  symbol   tdate  open  close
0    001  201901    23     87


In [17]:
#计算分组后,每组中指定列的均值 三种等价写法

print(grp1.open.mean())
print('\n')
print(grp1.open.agg('mean')) #这里函数mean要加引号 如果是自定义函数不需要
print('\n')
print(grp1.agg({'open':'mean'})) #这里指定了列名 返回DataFrame而非Series

symbol
001    29
002    25
003    28
Name: open, dtype: int64


symbol
001    29
002    25
003    28
Name: open, dtype: int64


        open
symbol      
001       29
002       25
003       28


In [19]:
#计算指定列的指定聚合方法

def my_func(x):
    return max(x)-min(x)

print(grp1.open.agg(my_func))
print('\n')
print(grp1.open.agg(lambda x:max(x)-min(x))) #用匿名函数

symbol
001    12
002     4
003     0
Name: open, dtype: int64


symbol
001    12
002     4
003     0
Name: open, dtype: int64


In [22]:
#对指定列进行计算处理
grp1.open.apply(lambda x:x+100)

0    123
1    135
2    123
3    127
4    128
Name: open, dtype: int64

## 表连接

In [None]:
# merge()函数

# 1.默认情况下，merge函数实现的是两个表之间的内连接，即返回两张表中共同部分的数据。
# 2.可以通过how参数设置连接的方式，inner或空为内连接，left为左连接；right为右连接；outer为外连接。
# 3.内连接至显示有共同索引的，outer是全部显示

# on=用来指定连接轴,当两张表中的连接轴列名不同时,通过left_on, right_on进行连接
pd.merge(student, score, on='name', how=right)
# pd.merge(student, score, left_on='name',right_on='名字' how=right)
pd.merge(student, score, left_on='key', right_index=True)

# suffixes=(‘_x’,’_y’) 指的是当左右对象中存在除连接键外的同名列时，结果集中的区分方式，可以各加一个小尾巴。
pd.merge(left, right, on='key1', suffixes=('_left', '_right'))

In [None]:
# 表连接 join函数

# join默认是以索引连接，内连接

# 设置外连接
left2.join(right2, how='outer')

# 指定连接键
left1.join(right1, on='key')

# 只要right2, another中的索引有一个可以与left的索引匹配，就可以建立连接
left2.join([right2, another])

## 统计分析函数  

In [None]:
# 一般统计特征函数
d1.count() #非空元素计算
d1.min() #最小值
d1.max() #最大值
d1.idxmin() #最小值的位置
d1.idxmax() #最大值的位置
d1.quantile(0.1) #10%分位数
d1.sum() #求和
d1.mean() #均值
d1.median() #中位数
d1.mode() #众数
d1.var() #方差
d1.std() #标准差
d1.mad() #平均绝对偏差
d1.skew() #偏度
d1.kurt() #峰度
d1.describe() #一次性输出多个描述性统计指标

# 关于相关系数的计算可以调用pearson方法、kendell方法、spearman方法，默认使用pearson方法。计算的是任意两列的相关系数。
df.corr()

# 如果只想关注某一个变量与其余变量的相关系数的话，可以使用corrwith,如下方只关心x1与其余变量的相关系数:
df.corrwith(df['x1'])

# 数值型变量间的协方差矩阵
df.cov()

# 累计统计特征函数
# 使用格式
pd.rolling_mean(D, k)  #意思是每k个数计算一次均值。

## 函数使用:apply, agg,transform

In [None]:
# agg()

# 1.agg()和apply()区别
# agg函数内调用的函数只能对分组进行聚合使用，比如mean,sum。apply的应用更广泛，apply函数可以说是它的泛化，比如你可以用apply实现组内排序，但是#
# agg函数并不能。
 
# 2.agg()使用的多种形式
grouped_pct.agg(['mean', 'std', peak_to_peak])
 
#给计算结果一个别名
grouped_pct.agg([('foo', 'mean'), ('bar', np.std)])  
 
#列表形式
functions = ['count', 'mean', 'max']
result = grouped['tip_pct', 'total_bill'].agg(functions)
 
#元组形式
ftuples = [('Durchschnitt', 'mean'), ('Abweichung', np.var)]
grouped['tip_pct', 'total_bill'].agg(ftuples)
 
#字典形式
grouped.agg({'tip' : np.max, 'size' : 'sum'})
 
grouped.agg({'tip_pct' : ['min', 'max', 'mean',  'std'], 'size' : 'sum'})  #混合形式

In [None]:
# apply()

# apply()作用与数据的每一列，或者每一行

def stats(x):
    return pd.Series([x.count(),x.min(),x.idxmin()],index = ['Count','Min','Whicn_Min'])
#将df数据框的每一列应用status函数
df.apply(stats)

In [None]:
# transform()

# 一般函数性质
df.transform(lambda x: (x - x.mean()) / x.std())

# 特别函数性质
# 在groupby之后使用aggregate，transform则不对数据进行聚合，它会在对应行的位置生成聚合函数值。