In [2]:
import numpy as np

In [3]:
import pandas as pd

In [4]:
#描述性统计的概述与计算

In [5]:
df = pd.DataFrame([[1.4, np.nan], [7.1, -4.5], [np.nan, np.nan], [0.75, -1.3]],
                 index = ['a', 'b', 'c', 'd'],
                 columns = ['one', 'two'])

In [6]:
df

Unnamed: 0,one,two
a,1.4,
b,7.1,-4.5
c,,
d,0.75,-1.3


In [7]:
df.sum()      #返回一个包含列上加和的Series

one    9.25
two   -5.80
dtype: float64

In [8]:
df.sum(axis = 'columns')    #返回一个行上加和的Series（axis=1）

a    1.40
b    2.60
c    0.00
d   -0.55
dtype: float64

In [9]:
#除了整个切片（一个完整的计算体，也就是上例中的一行或者一列）上都是NA，否则NA值被自动排除。

In [10]:
df.mean(axis = 'columns', skipna = False)      #禁用skipna实现不排除NA值

a      NaN
b    1.300
c      NaN
d   -0.275
dtype: float64

In [11]:
#规约方法的参数除了axis, skipna外还有level。

In [12]:
#level参数：如果轴是多层索引的(MultiIndex), 该参数可以缩减分组层级。

In [13]:
df.idxmax()    #返回最小值（返回的是间接统计信息）

one    b
two    d
dtype: object

In [14]:
df.cumsum()    #累计值（积累性方法）

Unnamed: 0,one,two
a,1.4,
b,8.5,-4.5
c,,
d,9.25,-5.8


In [15]:
df.describe()   #计算Series或DataFrame各列的汇总统计集合。(产生多个汇总统计，不属于前两种方法类型)

Unnamed: 0,one,two
count,3.0,2.0
mean,3.083333,-2.9
std,3.493685,2.262742
min,0.75,-4.5
25%,1.075,-3.7
50%,1.4,-2.9
75%,4.25,-2.1
max,7.1,-1.3


In [16]:
obj = pd.Series(['a', 'a', 'b', 'c'] * 4)

In [17]:
obj.describe()    #对于非数值型数据，产生另一种汇总统计。

count     16
unique     3
top        a
freq       8
dtype: object

In [18]:
#相关性和协方差

In [19]:
import pandas_datareader.data as web   #从网上获取数据

In [20]:
all_data = {ticker : web.get_data_yahoo(ticker)               #从Yahoo!Finance上获取包含股价和交易量的DataFrame
           for ticker in ['AAPL', 'IBM', 'MSFT', 'GOOG']}

In [21]:
price = pd.DataFrame({ticker : data['Adj Close']
                     for ticker, data in all_data.items()})

In [22]:
volume = pd.DataFrame({ticker : data['Volume']
                      for ticker, data in all_data.items()})

In [32]:
returns = price.pct_change()     #计算同colnums两个相邻的数字之间的变化率。

In [37]:
returns.tail()         #显示末尾五行

Unnamed: 0_level_0,AAPL,IBM,MSFT,GOOG
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2019-02-04,0.028405,0.008128,0.028799,0.019851
2019-02-05,0.017109,0.002663,0.013997,0.011644
2019-02-06,0.000345,0.005681,-0.011099,-0.026841
2019-02-07,-0.018939,-0.011577,-0.007168,-0.014813
2019-02-08,0.001175,0.003904,0.0038,-0.003322


In [39]:
returns['MSFT'].corr(returns['IBM'])    #计算两个Series中重叠的，非NA的，按索引对齐的值的相关性。

0.48651358755230956

In [40]:
returns['MSFT'].cov(returns['IBM'])    #计算协方差

8.764927113496062e-05

In [41]:
returns.MSFT.corr(returns.IBM)        #因为MSFT是一个有效的属性，也可以这样写。

0.48651358755230956

In [45]:
returns.corr()        #对于DataFrame的corr和cov方法会返回DataFrame形式的相关性和协方差矩阵

Unnamed: 0,AAPL,IBM,MSFT,GOOG
AAPL,1.0,0.372186,0.450676,0.457333
IBM,0.372186,1.0,0.486514,0.408082
MSFT,0.450676,0.486514,1.0,0.538409
GOOG,0.457333,0.408082,0.538409,1.0


In [48]:
returns.cov()

Unnamed: 0,AAPL,IBM,MSFT,GOOG
AAPL,0.000272,7.6e-05,0.000108,0.000117
IBM,7.6e-05,0.000153,8.8e-05,7.8e-05
MSFT,0.000108,8.8e-05,0.000212,0.000121
GOOG,0.000117,7.8e-05,0.000121,0.000239


In [None]:
#corrwith方法可以计算出DataFrame中的行或列与另一个序列或DataFrame的相关性。

In [58]:
returns.corrwith(returns.IBM)        #传入一个Series时，会返回一个含有为每列计算相关性值的Series

AAPL    0.372186
IBM     1.000000
MSFT    0.486514
GOOG    0.408082
dtype: float64

In [66]:
returns.corrwith(volume)       #传入一个DataFrame时，会计算匹配到列明的相关性数值。

AAPL   -0.059627
IBM    -0.153069
MSFT   -0.088947
GOOG   -0.016778
dtype: float64

In [67]:
#传入axis = 'columns'会逐行的进行计算。在计算相关性之前，数据点已经按标签进行了对齐。

In [68]:
#唯一值，计数和成员属性

In [69]:
obj = pd.Series(['c', 'a', 'd', 'a', 'a', 'b', 'b', 'c', 'c'])

In [70]:
uniques = obj.unique()          #从Series中提取唯一值（去重）

In [71]:
uniques

array(['c', 'a', 'd', 'b'], dtype=object)

In [72]:
obj.value_counts()     #计算Series包含的值的个数，返回的Series会按照数量降序排列

c    3
a    3
b    2
d    1
dtype: int64

In [76]:
pd.value_counts(obj.values, sort = False)    #是pandas顶层方法，可以用于任意数组或序列。

a    3
c    3
b    2
d    1
dtype: int64

In [123]:
obj

0    c
1    a
2    d
3    a
4    a
5    b
6    b
7    c
8    c
dtype: object

In [124]:
mask = obj.isin(['b', 'c'])       #isin执行向量化的成员属性检查

In [125]:
mask

0     True
1    False
2    False
3    False
4    False
5     True
6     True
7     True
8     True
dtype: bool

In [126]:
obj[mask]                        #可以将数据集以Series或DataFrame一列的形式过滤为数据集的值子集

0    c
5    b
6    b
7    c
8    c
dtype: object

In [127]:
to_match = pd.Series(['c', 'a', 'b', 'b', 'c', 'a'])

In [128]:
unique_vals = pd.Series(['c','b', 'a'])

In [130]:
pd.Index(unique_vals).get_indexer(to_match)        #表示to_match 中的字符，在 unoque_vals 中的位置索引

array([0, 2, 1, 1, 0, 2], dtype=int64)

In [135]:
data = pd.DataFrame({'Qu1' : [1, 3, 4, 3, 4],
                     'Qu2' : [2, 3, 1, 2, 3],
                     'Qu3' : [1, 5, 2, 4, 4]})

In [136]:
data

Unnamed: 0,Qu1,Qu2,Qu3
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


In [137]:
result = data.apply(pd.value_counts).fillna(0)      #将每一列Series传入apply（）内的函数，遍历执行。将所有Series的执行结果组成一个DataFrame。
                                                    #fillna（）函数填充NA值。

In [138]:
result                 #结果中的行标签是所有列中出现的不同值，数值是这些不同值在每个列中出现的次数

Unnamed: 0,Qu1,Qu2,Qu3
1,1.0,1.0,1.0
2,0.0,2.0,1.0
3,2.0,2.0,0.0
4,2.0,0.0,2.0
5,0.0,0.0,1.0
