In [20]:
import numpy as np

In [21]:
import pandas as pd

In [22]:
#描述性统计的概述与计算

In [23]:
df = pd.DataFrame([[1.4, np.nan], [7.1, -4.5], [np.nan, np.nan], [0.75, -1.3]],
                 index = ['a', 'b', 'c', 'd'],
                 columns = ['one', 'two'])

In [24]:
df

Unnamed: 0,one,two
a,1.4,
b,7.1,-4.5
c,,
d,0.75,-1.3


In [25]:
df.sum()      #返回一个包含列上加和的Series

one    9.25
two   -5.80
dtype: float64

In [26]:
df.sum(axis = 'columns')    #返回一个行上加和的Series（axis=1）

a    1.40
b    2.60
c    0.00
d   -0.55
dtype: float64

In [27]:
#除了整个切片（一个完整的计算体，也就是上例中的一行或者一列）上都是NA，否则NA值被自动排除。

In [28]:
df.mean(axis = 'columns', skipna = False)      #禁用skipna实现不排除NA值

a      NaN
b    1.300
c      NaN
d   -0.275
dtype: float64

In [29]:
#规约方法的参数除了axis, skipna外还有level。

In [30]:
#level参数：如果轴是多层索引的(MultiIndex), 该参数可以缩减分组层级。

In [31]:
df.idxmax()    #返回最小值（返回的是间接统计信息）

one    b
two    d
dtype: object

In [32]:
df.cumsum()    #累计值（积累性方法）

Unnamed: 0,one,two
a,1.4,
b,8.5,-4.5
c,,
d,9.25,-5.8


In [33]:
df.describe()   #计算Series或DataFrame各列的汇总统计集合。(产生多个汇总统计，不属于前两种方法类型)

Unnamed: 0,one,two
count,3.0,2.0
mean,3.083333,-2.9
std,3.493685,2.262742
min,0.75,-4.5
25%,1.075,-3.7
50%,1.4,-2.9
75%,4.25,-2.1
max,7.1,-1.3


In [34]:
obj = pd.Series(['a', 'a', 'b', 'c'] * 4)

In [35]:
obj.describe()    #对于非数值型数据，产生另一种汇总统计。

count     16
unique     3
top        a
freq       8
dtype: object

In [36]:
#相关性和协方差

In [37]:
import pandas_datareader.data as web   #从网上获取数据

In [None]:
all_data = {ticker : web.get_data_yahoo(ticker)               #从Yahoo!Finance上获取包含股价和交易量的DataFrame
           for ticker in ['AAPL', 'IBM', 'MSFT', 'GOOG']}

In [None]:
price = pd.DataFrame({ticker : data['Adj Close']
                     for ticker, data in all_data.items()})

In [None]:
volume = pd.DataFrame({ticker : data['Volume']
                      for ticker, data in all_data.items()})

In [None]:
returns = price.pct_change()     #计算同colnums两个相邻的数字之间的变化率。

In [None]:
returns.tail()         #显示末尾五行

In [None]:
returns['MSFT'].corr(returns['IBM'])    #计算两个Series中重叠的，非NA的，按索引对齐的值的相关性。

In [None]:
returns['MSFT'].cov(returns['IBM'])    #计算协方差

In [None]:
returns.MSFT.corr(returns.IBM)        #因为MSFT是一个有效的属性，也可以这样写。

In [None]:
returns.corr()        #对于DataFrame的corr和cov方法会返回DataFrame形式的相关性和协方差矩阵

In [None]:
returns.cov()

In [None]:
#corrwith方法可以计算出DataFrame中的行或列与另一个序列或DataFrame的相关性。

In [None]:
returns.corrwith(returns.IBM)        #传入一个Series时，会返回一个含有为每列计算相关性值的Series

In [None]:
returns.corrwith(volume)       #传入一个DataFrame时，会计算匹配到列明的相关性数值。

In [None]:
#传入axis = 'columns'会逐行的进行计算。在计算相关性之前，数据点已经按标签进行了对齐。

In [None]:
#唯一值，计数和成员属性

In [None]:
obj = pd.Series(['c', 'a', 'd', 'a', 'a', 'b', 'b', 'c', 'c'])

In [None]:
uniques = obj.unique()          #从Series中提取唯一值（去重）

In [None]:
uniques

In [None]:
obj.value_counts()     #计算Series包含的值的个数，返回的Series会按照数量降序排列

In [None]:
pd.value_counts(obj.values, sort = False)    #是pandas顶层方法，可以用于任意数组或序列。

In [None]:
obj

In [None]:
mask = obj.isin(['b', 'c'])       #isin执行向量化的成员属性检查

In [None]:
mask

In [None]:
obj[mask]                        #可以将数据集以Series或DataFrame一列的形式过滤为数据集的值子集

In [None]:
to_match = pd.Series(['c', 'a', 'b', 'b', 'c', 'a'])

In [None]:
unique_vals = pd.Series(['c','b', 'a'])

In [None]:
pd.Index(unique_vals).get_indexer(to_match)        #表示to_match 中的字符，在 unoque_vals 中的位置索引

In [None]:
data = pd.DataFrame({'Qu1' : [1, 3, 4, 3, 4],
                     'Qu2' : [2, 3, 1, 2, 3],
                     'Qu3' : [1, 5, 2, 4, 4]})

In [None]:
data

In [None]:
result = data.apply(pd.value_counts).fillna(0)      #将每一列Series传入apply（）内的函数，遍历执行。将所有Series的执行结果组成一个DataFrame。
                                                    #fillna（）函数填充NA值。

In [None]:
result                 #结果中的行标签是所有列中出现的不同值，数值是这些不同值在每个列中出现的次数

In [None]:
df1 = pd.DataFrame(np.arange(12.).reshape((3, 4)), columns = list('abcd'))

In [None]:
df2 = pd.DataFrame(np.arange(20.).reshape((4, 5)), columns = list('abcd'))