pandas对象装配一个常用数学、统计学方法的集合。其中大部分属于规约或汇总统计的类别，这些方法从DataFrame的行或列中抽取一个Series或一系列的 单个值（如总和或平均值），与Numpy数组中的类似方法相比，它们内建了处理缺失值的功能。

In [3]:
import pandas as pd
import numpy as np

In [4]:
df = pd.DataFrame([[1.4,np.nan],[7.1,-4.5],[np.nan,np.nan],
                 [0.75,-1.3]],index=['a','b','c','d'],columns=['one','two'])

In [5]:
df

Unnamed: 0,one,two
a,1.4,
b,7.1,-4.5
c,,
d,0.75,-1.3


In [9]:
df.sum()  # 调用DataFrame的sum方法，返回一个包含列上加和的Series。
# ['axis=None', 'skipna=None', 'level=None', 'numeric_only=None', 'min_count=0', '**kwargs']

one    9.25
two   -5.80
dtype: float64

In [11]:
df.sum(axis='columns')  # 传入axis=‘columns’或者axis=1,则会将一行上各列的值相加

a    1.40
b    2.60
c    0.00
d   -0.55
dtype: float64

In [13]:
df.mean(axis='columns',skipna=False)  # skipna 禁用，来实现skipna不排除NA值，这样有NA的情况下就是NaN

a      NaN
b    1.300
c      NaN
d   -0.275
dtype: float64

在上述两个例子中的 Na值，除非整个切片（上述为行或列）都是NA，否则NA值是被自动排除的。上个例子中通过禁用skipna来实现不排除NA值

### 规约方法可以用到的参数列表
* axis    归约轴， 0为行向，1位列向
* skipna  排除缺失值，默认为True
* level   如果轴是多层索引的（MultiIndex），改参数可以缩减分组层级

idxmax和idxmin，返回的是间接统计信息，最大值或最小值的索引值

In [18]:
df.idxmax()  # 返回最大值的索引

one    b
two    d
dtype: object

In [19]:
df.idxmin()  # 返回最小值的索引

one    d
two    b
dtype: object

In [22]:
df.cumsum()  # 累积型方法，在列方向上，对每一行的值，进行累积。

Unnamed: 0,one,two
a,1.4,
b,8.5,-4.5
c,,
d,9.25,-5.8


describe，既不是归约型方法，也不是累积型方法，一次性产生多个汇总统计。当然相同的方法还有很多

In [24]:
df.describe()  # 由下面返回结果可以看到，返回各类统计结果

Unnamed: 0,one,two
count,3.0,2.0
mean,3.083333,-2.9
std,3.493685,2.262742
min,0.75,-4.5
25%,1.075,-3.7
50%,1.4,-2.9
75%,4.25,-2.1
max,7.1,-1.3


In [25]:
obj = pd.Series(['a','a','b','c','c','c','d','e','e'])

In [27]:
obj.describe() # 对于非数值型数据，会产生另外一种汇总统计。

count     9
unique    5
top       c
freq      3
dtype: object

### 描述性统计和汇总统计
* count          非NA值的个数
* describe       计算Series或DataFrame各列的汇总统计集合
* min,max        计算最小、最大值
* argmin,argmax  分别计算最小值、最大值所在的索引位置（整数）
* idxmin,idxmax  分别计算最小值或最大值所在的索引标签
* quantile       计算样本的从0到1间的分位数
* sum            加和
* mean           均值
* median         中位数（50%分位数）
* mad            平均值的平均绝对偏差
* prod           所有值的积
* var            值的样本方差
* std            值的样本标准差
* skew           样本偏度（第三时刻）值
* kurt           样本峰度（第四时刻）的值
* cumsum         累计值
* cummin,cummax  累计值的最小值或最大值
* cumprod        值的累计积
* diff           计算第一个算术差值（对时间序列有用）
* pct_change     计算百分比

In [28]:
obj = pd.Series([4,1,3,5,8,-1])

In [29]:
obj

0    4
1    1
2    3
3    5
4    8
5   -1
dtype: int64

In [30]:
obj.argmin()

will be corrected to return the positional minimum in the future.
Use 'series.values.argmin' to get the position of the minimum now.
  """Entry point for launching an IPython kernel.


5

In [31]:
obj.values.argmin()

5

In [32]:
obj.values.argmax()

4

In [34]:
df = pd.DataFrame([[4,3],[5,4],[6,4],[7,3]],columns=list('ab'))

In [35]:
df

Unnamed: 0,a,b
0,4,3
1,5,4
2,6,4
3,7,3


In [37]:
df.describe()

Unnamed: 0,a,b
count,4.0,4.0
mean,5.5,3.5
std,1.290994,0.57735
min,4.0,3.0
25%,4.75,3.0
50%,5.5,3.5
75%,6.25,4.0
max,7.0,4.0


In [38]:
df.idxmin()

a    0
b    0
dtype: int64

In [41]:
df.values.argmin() # 在DataFrame中直接使用df.argmin()会报错

1

In [42]:
obj.skew()

0.12045950756132616

In [43]:
df.skew()

a    0.0
b    0.0
dtype: float64

In [45]:
df.kurt()

a   -1.2
b   -6.0
dtype: float64

## 5.3.1 相关性和协方差

In [3]:
import pandas_datareader.data as web
import numpy as np
import pandas as pd

In [8]:
all_data = {ticker:web.get_data_yahoo(ticker)
           for ticker in ['AAPL','IBM','MSFT','GOOG']}
price = pd.DataFrame({ticker:data['Adj Close']
                     for ticker,data in all_data.items()})


In [9]:
volume = pd.DataFrame({ticker:data['Volume']
                      for ticker,data in all_data.items()})

In [11]:
returns = price.pct_change()

In [12]:
returns.tail()

Unnamed: 0_level_0,AAPL,IBM,MSFT,GOOG
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2019-06-19,-0.002923,0.005133,0.003921,-0.001151
2019-06-20,0.008036,0.012912,0.009286,0.008246
2019-06-21,-0.003409,0.002521,0.000146,0.009411
2019-06-24,-0.001006,0.001078,0.005914,-0.005669
2019-06-25,-0.015158,-0.007104,-0.031572,-0.026149


Series的corr方法计算的是两个Series中重叠的、非NA得、按索引对齐的值的相关性。相应的，cov 计算的是协方差

In [16]:
returns['MSFT'].corr(returns['IBM'])

0.4870579333972048

In [18]:
returns['MSFT'].cov(returns['IBM'])

8.680743356886965e-05

In [20]:
returns.MSFT.corr(returns.IBM)  # 由于MSFT是一个有效的PYTHON属性。所以可以使用简洁的语法来获得这些数据。

0.4870579333972048

另一个方面DataFrame的corr和cov方法会分别以DataFrame的形式返回相关性和协方差矩阵：

In [21]:
returns.corr()

Unnamed: 0,AAPL,IBM,MSFT,GOOG
AAPL,1.0,0.379376,0.453093,0.461116
IBM,0.379376,1.0,0.487058,0.403112
MSFT,0.453093,0.487058,1.0,0.538028
GOOG,0.461116,0.403112,0.538028,1.0


In [22]:
returns.cov()

Unnamed: 0,AAPL,IBM,MSFT,GOOG
AAPL,0.000266,7.6e-05,0.000107,0.000116
IBM,7.6e-05,0.000152,8.7e-05,7.7e-05
MSFT,0.000107,8.7e-05,0.000209,0.00012
GOOG,0.000116,7.7e-05,0.00012,0.000239


In [25]:
# 使用DataFrame的corrwith方法，可以计算出DataFrame中行或列与另一个序列或DataFrame的相关性。传入一个Series时，会返回一个含有为每列计算相关性值的Series：
returns.corrwith(returns.IBM)

# 结合上面的输出，可以看到，此方法计算出了每一列与IBM的相关性

AAPL    0.379376
IBM     1.000000
MSFT    0.487058
GOOG    0.403112
dtype: float64

In [26]:
returns.corrwith(volume)

AAPL   -0.061945
IBM    -0.156114
MSFT   -0.090037
GOOG   -0.020494
dtype: float64

传入axis='columns'会逐行地进行计算，在所有例子中，在计算相关性之前，数据点已经按标签进行了对齐

### 5.3.2 唯一值、计数和成员属性
另一类相关的方法可以从一维Series包含的数值中提取信息。

In [28]:
obj = pd.Series(['c','a','d','a','a','b','c','c'])

In [29]:
uniques = obj.unique()

In [30]:
uniques

array(['c', 'a', 'd', 'b'], dtype=object)

唯一值并不一定按照排序好的顺序返回，但是如果需要的话可以进行排序（uniques.sort()）。

相应的，value_counts计算Series包含的值的个数

In [32]:
obj.value_counts()  # 为了方便，默认Series会按照数量降序排序

a    3
c    3
d    1
b    1
dtype: int64

In [34]:
pd.value_counts(obj.values,sort=False)  # 返回结果不排序

c    3
b    1
d    1
a    3
dtype: int64

In [35]:
obj

0    c
1    a
2    d
3    a
4    a
5    b
6    c
7    c
dtype: object

In [36]:
mask = obj.isin(['b','c'])

In [37]:
mask

0     True
1    False
2    False
3    False
4    False
5     True
6     True
7     True
dtype: bool

In [38]:
obj[mask]

0    c
5    b
6    c
7    c
dtype: object

isin执行向量化的成员属性检查，还可以将数据集以Series或DataFrame一列的形式过滤为数据集的值子集。

与isin相关的Index.get_indexer方法,可以提供一个索引数组，这个索引数组可以将可能非唯一数值数组转换为另一个唯一数组。

In [39]:
to_match = pd.Series(['c','a','b','b','c','a'])

In [40]:
unique_vals = pd.Series(['c','b','a'])

In [42]:
pd.Index(unique_vals).get_indexer(to_match)

array([0, 2, 1, 1, 0, 2], dtype=int64)

### 唯一值、计数和集合成员属性方法
* isin       计算表征Series中每个值是否包含于传入序列的布尔值数组
* match      计算数组中每个值的整数索引，形成一个唯一值数组，有助于数据对齐和join类型的操作
* unique     计算Series值中的唯一数组，按照观察循序返回
* value_counts  返回一个Series，索引时唯一值序列，值是计数个数，按照个数降序排序

计算DataFrame多个相关列的直方图

In [44]:
data = pd.DataFrame({'Qu1':[1,3,4,3,4],
                    'Qu2':[2,3,1,2,3],
                    'Qu3':[1,5,2,4,4]})


In [45]:
data

Unnamed: 0,Qu1,Qu2,Qu3
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


In [46]:
# 将pandas.value_counts传入DataFrame的apply函数可以得到

result = data.apply(pd.value_counts).fillna(0)  

In [47]:
result

Unnamed: 0,Qu1,Qu2,Qu3
1,1.0,1.0,1.0
2,0.0,2.0,1.0
3,2.0,2.0,0.0
4,2.0,0.0,2.0
5,0.0,0.0,1.0


这里，结果中的行标签是所有列中出现的不同值，数值则是这些不同值在每个列中出现的次数。