# 汇总和计算描述性统计
pandas包含一系列汇总和统计函数。多数函数属于归纳或者汇总统计的范畴，这些函数从Series中计算出一个单值（如sum和mean函数），或从DataFrame的每行（列）抽取出一个Series对象。与Numpy中相对应的函数不一样的是，pandas的函数内建处理缺失值的能力。

In [5]:
import numpy as np
import pandas as pd
df = pd.DataFrame([[1.4, np.nan], [7.1, -4.5],[np.nan, np.nan], [0.75, -1.3]],index=['a', 'b', 'c', 'd'],columns=['one', 'two'])
df

Unnamed: 0,one,two
a,1.4,
b,7.1,-4.5
c,,
d,0.75,-1.3


In [6]:
 df.sum()   #按列统计每一行的和

one    9.25
two   -5.80
dtype: float64

In [7]:
df.sum(axis='columns') #指定轴为列，则计算每行各列的和

a    1.40
b    2.60
c    0.00
d   -0.55
dtype: float64

缺失值缺省情况下被排除于计算过程中。使用skipna参数修改这种行为。计算平均数的例子：

In [9]:
df.mean(axis='columns')

a    1.400
b    1.300
c      NaN
d   -0.275
dtype: float64

In [10]:
df.mean(axis='columns', skipna=False)  #只要包含Nan，则整行的平均值都是Nan。

a      NaN
b    1.300
c      NaN
d   -0.275
dtype: float64

另外一些函数，如idxmax和idxmin函数，返回最大值或最小值对应的索引。

In [11]:
df.idxmax()

one    b
two    d
dtype: object

还有一种是累积函数，如cumsum。

In [12]:
df.cumsum()

Unnamed: 0,one,two
a,1.4,
b,8.5,-4.5
c,,
d,9.25,-5.8


还有一种函数既非归纳性函数也非累加性函数。如describe函数，它计算出一些统计数据的汇总性描述数据。

In [13]:
df.describe()

Unnamed: 0,one,two
count,3.0,2.0
mean,3.083333,-2.9
std,3.493685,2.262742
min,0.75,-4.5
25%,1.075,-3.7
50%,1.4,-2.9
75%,4.25,-2.1
max,7.1,-1.3


对于非数值数据，describe函数给出替代性的描述信息。

In [15]:
obj = pd.Series(['a', 'a', 'b', 'c'] * 4)
obj

0     a
1     a
2     b
3     c
4     a
5     a
6     b
7     c
8     a
9     a
10    b
11    c
12    a
13    a
14    b
15    c
dtype: object

In [16]:
obj.describe() #给出总数、不重复的数的数量、第一个值、重复最多的数

count     16
unique     3
top        a
freq       8
dtype: object

描述性和汇总统计函数表

|函数| 说明|
|---|---|
|count | 个数（不包含缺失值）|
|describe| 汇总统计数值集合|
|min, max | 最小、最大值|
|argmin, argmax | 最小值、最大值所在的索引位置（整数）|
|idxmin, idxmax | 最小值、最大值所在的索引标签|
|quantile | 分位数|
|sum | 和|
|mean | 平均值|
|median | 中位数| 
|mad | 与绝对值之间的平均绝对偏差|
|prod | 阶乘| 
|var | 样本方差|
|std | 样本标准差| 
|skew | 样本偏度|
|kurt | 样本峰度|
|cumsum | 累加和|
|cummin, cummax | 累加最小值、累加最大值|
|cumprod | 累加乘积| 
|diff | 计算算数差（时间序列比较有用）| 
|pct_change | 计算百分比变化|

## 相关性和协方差
某些统计函数如相关性和协方差的函数是对成对参数进行计算。我们考虑一下，如果想要从Yahoo中获取股票价格和成交量的DataFrame，这需要安装另外的pandas-datareader包。如果还没有安装，可以使用`conda install pandas-datareader`安装。

In [19]:
import pandas_datareader.data as web
all_data = {ticker: web.get_data_yahoo(ticker) for ticker in ['AAPL', 'IBM', 'MSFT', 'GOOG']}

In [20]:
price = pd.DataFrame({ticker: data['Adj Close'] for ticker, data in all_data.items()})
volume = pd.DataFrame({ticker: data['Volume'] for ticker, data in all_data.items()})

In [21]:
returns = price.pct_change()
returns.tail()   #Yahoo已经被Verizon收购了，竟然还能取得数据，太神奇了！！！

Unnamed: 0_level_0,AAPL,GOOG,IBM,MSFT
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2017-12-22,0.0,-0.0033,0.006601,0.000117
2017-12-26,-0.02537,-0.003188,0.002164,-0.001286
2017-12-27,0.000176,-0.006974,0.001963,0.00363
2017-12-28,0.002814,-0.001172,0.005943,0.000117
2017-12-29,-0.010814,-0.00166,-0.004025,-0.0021


corr函数计算两个序列之间的相关系数。cov计算协方差。

In [22]:
returns['MSFT'].corr(returns['IBM'])

0.46607663413008699

In [23]:
returns['MSFT'].cov(returns['IBM'])

7.7153494329051242e-05

因为MSFT是一个合法的python属性，所以也可以用属性访问的方式：

In [24]:
returns.MSFT.corr(returns.IBM)

0.46607663413008699

DataFrame的corr和cov函数可以计算两两之间的相关系统和协方差。

In [25]:
returns.corr()

Unnamed: 0,AAPL,GOOG,IBM,MSFT
AAPL,1.0,0.416158,0.355443,0.396363
GOOG,0.416158,1.0,0.379598,0.480037
IBM,0.355443,0.379598,1.0,0.466077
MSFT,0.396363,0.480037,0.466077,1.0


In [26]:
returns.cov()

Unnamed: 0,AAPL,GOOG,IBM,MSFT
AAPL,0.000254,0.0001,6.7e-05,8.9e-05
GOOG,0.0001,0.000228,6.8e-05,0.000102
IBM,6.7e-05,6.8e-05,0.000139,7.7e-05
MSFT,8.9e-05,0.000102,7.7e-05,0.000197


使用corrwith函数，DataFrame的行或列可以与其他DataFrame或Series计算配对的相关性。  
传入一个Series对象，则返回一个每列与之配对计算相关系数的Series对象。

In [28]:
returns.corrwith(returns.IBM)

AAPL    0.355443
GOOG    0.379598
IBM     1.000000
MSFT    0.466077
dtype: float64

传入一个DataFrame对象，计算列名匹配的相关系数。

In [29]:
returns.corrwith(volume)

AAPL   -0.068543
GOOG   -0.013207
IBM    -0.158880
MSFT   -0.085835
dtype: float64

**可以使用`axis='columns'`参数按行计算。**