# 5.3 Summarizing and Computing Descriptive Statistics

pandas有很多数学和统计方法。大部分可以归类为降维（reduction）或汇总统计（summary statistics），这些方法是用来从series中提取单个值（比如sum或mean）。还有一些方法来处理缺失值：

In [1]:
import os
import numpy as np
import pandas as pd

ROOT_PATH = "../"

In [2]:
df = pd.DataFrame([[1.4, np.nan], [7.1, -4.5],
                   [np.nan, np.nan], [0.75, -1.3]],
                  index=['a', 'b', 'c', 'd'],
                  columns=['one', 'two'])
df

Unnamed: 0,one,two
a,1.4,
b,7.1,-4.5
c,,
d,0.75,-1.3


使用sum的话，会返回一个按列来求和的series:

In [3]:
df.sum()

one    9.25
two   -5.80
dtype: float64

使用axis='columns' or axis=1，计算按行求和：

In [4]:
df.sum(axis=1)

a    1.40
b    2.60
c     NaN
d   -0.55
dtype: float64

计算的时候，NA（即缺失值）会被除外，除非整个切片全是NA。我们可以用skipna来跳过计算NA：

In [7]:
df.sum(axis=1, skipna=True)

a    1.40
b    2.60
c     NaN
d   -0.55
dtype: float64

In [8]:
df.sum(axis=1, skipna=False)

a     NaN
b    2.60
c     NaN
d   -0.55
dtype: float64

In [9]:
df.mean(axis='columns', skipna=False)

a      NaN
b    1.300
c      NaN
d   -0.275
dtype: float64

一些reduction方法：

![](http://oydgk2hgw.bkt.clouddn.com/pydata-book/n95fy.png)

一些方法，比如idxmin和idxmax，能返回间接的统计值，比如index value：

In [10]:
df.idxmax()

one    b
two    d
dtype: object

还能计算累加值：

In [11]:
df.cumsum()

Unnamed: 0,one,two
a,1.4,
b,8.5,-4.5
c,,
d,9.25,-5.8


另一种类型既不是降维，也不是累加。describe能一下子产生多维汇总数据：

In [12]:
df.describe()

Unnamed: 0,one,two
count,3.0,2.0
mean,3.083333,-2.9
std,3.493685,2.262742
min,0.75,-4.5
25%,1.075,-3.7
50%,1.4,-2.9
75%,4.25,-2.1
max,7.1,-1.3


对于非数值性的数据，describe能产生另一种汇总统计：

In [13]:
obj = pd.Series(['a', 'a', 'b', 'c'] * 4)
obj.describe()

count     16
unique     3
top        a
freq       8
dtype: object

下表是一些描述和汇总统计数据：

![](http://oydgk2hgw.bkt.clouddn.com/pydata-book/wygi1.png)

## 1. Correlation and Covariance

一些summary statistics，比如相关性和协方差是从一对参数计算出来的。我们将用从Yahoo! Finance获得的股价和股票数量构成的Dataframe。这些数据取自yahoo finace，用padas-datareader包能加载。如果没有的话，用conda或pip来下载这个包：

> conda install pandas-datareader
    
> import pandas_datareader.data as web
    
> all_data = {ticker: web.get_data_yahoo(ticker)
            for ticker in ['AAPL', 'IBM', 'MSFT', 'GOOG']}

> price = pd.DataFrame({ticker: data['Adj Close']
                      for ticker, data in all_data.items()})

> volumn = pd.DataFrame({ticker: data['Volumn']
                       for ticker, data in all_data.items()})
                       
上面的代码无法直接从yahoo上爬取数据，因为yahoo被verizon收购后，好像是不能用了。于是这里我们直接从下好的数据包里加载。

In [2]:
DATA_PATH = os.path.join(ROOT_PATH, "Data", "Example")

price = pd.read_pickle(os.path.join(DATA_PATH, "yahoo_price.pkl"))
volume = pd.read_pickle(os.path.join(DATA_PATH, "yahoo_volume.pkl"))

In [11]:
price.head()

Unnamed: 0_level_0,AAPL,GOOG,IBM,MSFT
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2010-01-04,27.990226,313.062468,113.304536,25.884104
2010-01-05,28.038618,311.683844,111.935822,25.892466
2010-01-06,27.592626,303.826685,111.208683,25.733566
2010-01-07,27.541619,296.753749,110.823732,25.465944
2010-01-08,27.724725,300.709808,111.935822,25.641571


In [9]:
volume.head()

Unnamed: 0_level_0,AAPL,GOOG,IBM,MSFT
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2010-01-04,123432400,3927000,6155300,38409100
2010-01-05,150476200,6031900,6841400,49749600
2010-01-06,138040000,7987100,5605300,58182400
2010-01-07,119282800,12876600,5840600,50559700
2010-01-08,111902700,9483900,4197200,51197400


现在我们计算一下价格百分比的变化：

> pct_change(): 这个函数用来计算同colnums两个相邻的数字之间的变化率

In [17]:
returns = price.pct_change()
returns.head()

Unnamed: 0_level_0,AAPL,GOOG,IBM,MSFT
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2010-01-04,,,,
2010-01-05,0.001729,-0.004404,-0.01208,0.000323
2010-01-06,-0.015906,-0.025209,-0.006496,-0.006137
2010-01-07,-0.001849,-0.02328,-0.003462,-0.0104
2010-01-08,0.006648,0.013331,0.010035,0.006897


series的corr方法计算两个，重合的，Non-NA的，通过index排列好的两个Series的相关性。相似的，cov计算协方差：

In [18]:
returns["MSFT"].corr(returns["IBM"])

0.49976361144151138

In [19]:
returns["MSFT"].cov(returns["IBM"])

8.8706554797035462e-05

因为MSFT是一个有效的python属性，我们可以通过更简洁的属性的方法来选中columns：

In [20]:
returns.MSFT.corr(returns.IBM)

0.49976361144151138

DataFrame的corr和cov方法，能返回一个完整的相似性或方差矩阵：

In [21]:
returns.corr()

Unnamed: 0,AAPL,GOOG,IBM,MSFT
AAPL,1.0,0.407919,0.386817,0.389695
GOOG,0.407919,1.0,0.405099,0.465919
IBM,0.386817,0.405099,1.0,0.499764
MSFT,0.389695,0.465919,0.499764,1.0


In [22]:
returns.cov()

Unnamed: 0,AAPL,GOOG,IBM,MSFT
AAPL,0.000277,0.000107,7.8e-05,9.5e-05
GOOG,0.000107,0.000251,7.8e-05,0.000108
IBM,7.8e-05,7.8e-05,0.000146,8.9e-05
MSFT,9.5e-05,0.000108,8.9e-05,0.000215


用Dataframe的corrwith方法，我们可以计算dataframe中不同columns之间，或row之间的相似性。传递一个series：

In [23]:
returns.corrwith(returns.IBM)

AAPL    0.386817
GOOG    0.405099
IBM     1.000000
MSFT    0.499764
dtype: float64

若传入一个Dataframe能计算匹配的column names的相似性。这里我计算volume中百分比变化的相似性：

In [24]:
returns.corrwith(volume)

AAPL   -0.075565
GOOG   -0.007067
IBM    -0.204849
MSFT   -0.092950
dtype: float64

传入axis='columns'能做到row-by-row计算。在correlation被计算之前，所有的数据会根据label先对齐。

## 2.1 Unique Values, Value Counts, and Membership

这里介绍另一种从一维series中提取信息的方法：

In [25]:
obj = pd.Series(['c', 'a', 'd', 'a', 'a', 'b', 'b', 'c', 'c'])

第一个函数时unique，能告诉我们series里unique values有哪些：

In [26]:
uniques = obj.unique()
uniques

array(['c', 'a', 'd', 'b'], dtype=object)

In [28]:
uniques.sort()
uniques

array(['a', 'b', 'c', 'd'], dtype=object)

返回的unique values不是有序的，但我们可以排序，uniques.sort()。相对的，value_counts能计算series中值出现的频率：

In [30]:
obj.value_counts()

c    3
a    3
b    2
d    1
dtype: int64

返回的结果是按降序处理的。vaule_counts也是pandas中的方法，能用在任何array或sequence上：

In [31]:
pd.value_counts(obj.values, sort=False)

a    3
b    2
c    3
d    1
dtype: int64

isin 能实现一个向量化的集合成员关系检查，能用于过滤数据集，检查一个子集，是否在series的values中，或在dataframe的column中：

In [32]:
obj

0    c
1    a
2    d
3    a
4    a
5    b
6    b
7    c
8    c
dtype: object

In [33]:
mask = obj.isin(['b', 'c'])
mask

0     True
1    False
2    False
3    False
4    False
5     True
6     True
7     True
8     True
dtype: bool

In [34]:
obj[mask]

0    c
5    b
6    b
7    c
8    c
dtype: object

与isin相对的另一个方法是Index.get_indexer，能返回一个index array，告诉我们有重复值的values(to_match)，在非重复的values(unique_vals)中对应的索引值：

In [35]:
to_match = pd.Series(['c', 'a', 'b', 'b', 'c', 'a'])
unique_vals = pd.Series(['c', 'b', 'a'])
pd.Index(unique_vals).get_indexer(to_match)

array([0, 2, 1, 1, 0, 2])

Unique, value counts, and set membership methods：

![](http://oydgk2hgw.bkt.clouddn.com/pydata-book/0v120.png)

在某些情况下，你可能想要计算一下dataframe中多个column的histogram：

In [36]:
data = pd.DataFrame({'Qu1': [1, 3, 4, 3, 4],
                     'Qu2': [2, 3, 1, 2, 3],
                     'Qu3': [1, 5, 2, 4, 4]})
data

Unnamed: 0,Qu1,Qu2,Qu3
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


把padas.value_counts传递给dataframe的apply函数：

In [37]:
result = data.apply(pd.value_counts)
result

Unnamed: 0,Qu1,Qu2,Qu3
1,1.0,1.0,1.0
2,,2.0,1.0
3,2.0,2.0,
4,2.0,,2.0
5,,,1.0


In [38]:
result = data.apply(pd.value_counts).fillna(0)
result

Unnamed: 0,Qu1,Qu2,Qu3
1,1.0,1.0,1.0
2,0.0,2.0,1.0
3,2.0,2.0,0.0
4,2.0,0.0,2.0
5,0.0,0.0,1.0


每一行的laebls(即1，2，3，4，5)其实就是整个data里出现过的值，从1到5。而对应的每个方框里的值，则是表示该值在当前列中出现的次数。比如，(2, Qu1)的值是Nan，说明2这个数字没有在Qu1这一列出现过。(2, Qu2)的值是2，说明2这个数字在Qu2这一列出现过2次。(2, Qu3)的值是1，说明2这个数字在Qu3这一列出现过1次。