# 5.3 Summarizing and Computing Descriptive Statistics

pandas有很多数学和统计方法。大部分可以归类为降维（reduction）或汇总统计（summary statistics），这些方法是用来从series中提取单个值（比如sum或mean）。还有一些方法来处理缺失值：

In [1]:
import numpy as np
import pandas as pd

In [2]:
df = pd.DataFrame([[1.4, np.nan], [7.1, -4.5],
                   [np.nan, np.nan], [0.75, -1.3]],
                  index=['a', 'b', 'c', 'd'],
                  columns=['one', 'two'])
df

Unnamed: 0,one,two
a,1.4,
b,7.1,-4.5
c,,
d,0.75,-1.3


使用sum的话，会返回一个按列来求和的series:

In [3]:
df.sum()

one    9.25
two   -5.80
dtype: float64

使用axis='columns' or axis=1，计算按行求和：

In [4]:
df.sum(axis=1)

a    1.40
b    2.60
c     NaN
d   -0.55
dtype: float64

计算的时候，NA（即缺失值）会被除外，除非整个切片全是NA。我们可以用skipna来跳过计算NA：

In [7]:
df.sum(axis=1, skipna=True)

a    1.40
b    2.60
c     NaN
d   -0.55
dtype: float64

In [8]:
df.sum(axis=1, skipna=False)

a     NaN
b    2.60
c     NaN
d   -0.55
dtype: float64

In [9]:
df.mean(axis='columns', skipna=False)

a      NaN
b    1.300
c      NaN
d   -0.275
dtype: float64

一些reduction方法：

![](http://oydgk2hgw.bkt.clouddn.com/pydata-book/n95fy.png)

一些方法，比如idxmin和idxmax，能返回间接的统计值，比如index value：

In [10]:
df.idxmax()

one    b
two    d
dtype: object

还能计算累加值：

In [11]:
df.cumsum()

Unnamed: 0,one,two
a,1.4,
b,8.5,-4.5
c,,
d,9.25,-5.8


另一种类型既不是降维，也不是累加。describe能一下子产生多维汇总数据：

In [12]:
df.describe()

Unnamed: 0,one,two
count,3.0,2.0
mean,3.083333,-2.9
std,3.493685,2.262742
min,0.75,-4.5
25%,1.075,-3.7
50%,1.4,-2.9
75%,4.25,-2.1
max,7.1,-1.3


对于非数值性的数据，describe能产生另一种汇总统计：

In [13]:
obj = pd.Series(['a', 'a', 'b', 'c'] * 4)
obj.describe()

count     16
unique     3
top        a
freq       8
dtype: object

下表是一些描述和汇总统计数据：

![](http://oydgk2hgw.bkt.clouddn.com/pydata-book/wygi1.png)

In [14]:
import pandas_datareader.data as web

all_data = {ticker: web.get_data_yahoo(ticker)
            for ticker in ['AAPL', 'IBM', 'MSFT', 'GOOG']}

price = pd.DataFrame({ticker: data['Adj Close']
                      for ticker, data in all_data.items()})

volumn = pd.DataFrame({ticker: data['Volumn']
                       for ticker, data in all_data.items()})

KeyError: 'Volumn'