In [8]:
# 汇总和计算描述统计
import numpy as np
import pandas as pd
import tushare as ts
from pandas import DataFrame
from pandas import Series

In [9]:
df = DataFrame([[1.4, np.nan],
                [7.1, -4.5],
                [np.nan, np.nan],
                [0.75, -1.3]],
               index=['a', 'b', 'c', 'd'],
               columns=['one', 'two'])
df

Unnamed: 0,one,two
a,1.4,
b,7.1,-4.5
c,,
d,0.75,-1.3


In [10]:
df.sum() # 默认沿着行方向，从上到下，也就是对每列求和。

one    9.25
two   -5.80
dtype: float64

In [11]:
df.sum(axis=1)

a    1.40
b    2.60
c    0.00
d   -0.55
dtype: float64

In [12]:
# 约简方法常用选项
# axis：  轴的方向，0=从下到下行方向，1=从左到右列方向。
# skipna：排除缺失值，默认为True。
# level： 如果使用层次化索引（MultiIndex），则根据level分组约简。

In [13]:
df.idxmax() # 每一列最大元素对应的行索引

one    b
two    d
dtype: object

In [14]:
# cumsum函数理解，因为默认axis=0，所以沿着行方向。
# 对于列one，
# one['a'] = 1.4
# one['b'] += one['a'] = 1.4 + 7.1 = 8.5
# one['c'] = NaN不动
# one['d'] += one['b'] = 8.5 + 0.75 = 9.25（因为one['c']为NaN，所以向上找。）
df.cumsum()

Unnamed: 0,one,two
a,1.4,
b,8.5,-4.5
c,,
d,9.25,-5.8


In [15]:
df.describe()

Unnamed: 0,one,two
count,3.0,2.0
mean,3.083333,-2.9
std,3.493685,2.262742
min,0.75,-4.5
25%,1.075,-3.7
50%,1.4,-2.9
75%,4.25,-2.1
max,7.1,-1.3


In [16]:
obj = Series(['a', 'a', 'b', 'c'] * 4)
obj.describe() # describe可以作用于非数值型

count     16
unique     3
top        a
freq       8
dtype: object

In [17]:
# 描述和汇总统计
# count: 非NA值得数量
# describe：针对Series和DataFrame列计算汇总统计
# min/max：最小/最大值
# argmin/argmax：计算能够获取最小/最大值的索引位置（整数）
# idxmin/idxmax：计算能够获取最小/最大值的索引值
# quantile：计算样本的分位数（0到1）
# sum：求和
# mean：求平均
# median：中位数
# mad：根据平均值计算平均绝对离差
# var：样本的方差
# std：样本的标准差
# skew：样本值的偏度（三阶矩）
# kurt：样本值的峰度（四阶矩）
# cumsum：累计和
# cummin/cummax：累计最小最大值
# cumprod：累计积
# diff：计算一阶差分（对时间序列很有用）
# pct_change：计算百分数变化

In [18]:
# 相关系数与协方差

In [19]:
gsyh = ts.get_hist_data('601398',start='2017-01-01',end='2017-06-30') # 工商银行
jsyh = ts.get_hist_data('601939',start='2017-01-01',end='2017-06-30') # 建设银行
jtyh = ts.get_hist_data('601328',start='2017-01-01',end='2017-06-30') # 交通银行

本接口即将停止更新，请尽快使用Pro版接口：https://waditu.com/document/2
本接口即将停止更新，请尽快使用Pro版接口：https://waditu.com/document/2
本接口即将停止更新，请尽快使用Pro版接口：https://waditu.com/document/2


In [20]:
change_df = DataFrame({'gsyh': gsyh['p_change'], 'jsyh': jsyh['p_change'], 'jtyh': jtyh['p_change']}, 
                      columns=['gsyh', 'jsyh', 'jtyh'])
change_df = change_df.iloc[::-1,]
change_df.head()

Unnamed: 0_level_0,gsyh,jsyh,jtyh
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1


In [21]:
change_df.corr() # 相关系数矩阵

Unnamed: 0,gsyh,jsyh,jtyh
gsyh,,,
jsyh,,,
jtyh,,,


In [22]:
change_df.corrwith(change_df.gsyh) # 计算与某一列数据的相关性

gsyh   NaN
jsyh   NaN
jtyh   NaN
dtype: float64

In [23]:
# 唯一值、值计数以及成员资格

In [24]:
obj = Series(['c', 'a', 'd', 'a', 'a', 'b', 'b', 'c', 'c'])
uniques = obj.unique()
uniques

array(['c', 'a', 'd', 'b'], dtype=object)

In [25]:
obj.value_counts() # 计数

c    3
a    3
b    2
d    1
dtype: int64

In [26]:
pd.value_counts(obj.values, sort=False) # 统计结果不排序

a    3
d    1
b    2
c    3
dtype: int64

In [27]:
mask = obj.isin(['b', 'c']) # 对每个元素进行检查
mask

0     True
1    False
2    False
3    False
4    False
5     True
6     True
7     True
8     True
dtype: bool

In [28]:
# 唯一值、值计数、成员资格方法
# isin：        计算一个表示“Series各值是否包含于传入的值序列中”的布尔型数组
# unique：      计算Series中的唯一值数组，按发现的顺序返回。
# value_counts：返回一个Series，其索引为唯一值，其值为频率，按计数值降序排列。

In [29]:
data = DataFrame({'Qu1': [1, 3, 4, 3, 4],
                  'Qu2': [2, 3, 1, 2, 3],
                  'Qu3': [1, 5, 2, 4, 4]})
data

Unnamed: 0,Qu1,Qu2,Qu3
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


In [30]:
result = data.apply(pd.value_counts).fillna(-1) # 使用-1更容易识别
result

Unnamed: 0,Qu1,Qu2,Qu3
1,1.0,1.0,1.0
2,-1.0,2.0,1.0
3,2.0,2.0,-1.0
4,2.0,-1.0,2.0
5,-1.0,-1.0,1.0
