# 第八单元 Pandas数据特征分析

## 一、数据的排序

### 1、对一组数据的理解

    一组数据                               基本统计（含排序）
                  ——>   摘要   ——>       分布/累计统计 
    表达一个或  （数据形成有损特征的过程）   数据特征
     多个含义                               相关性、周期等
                                          数据挖掘（形成知识）
                           
                                  

### 2、Pandas库的数据排序
 
#### 法一：
.sort_index()方法在指定轴上根据索引进行排序，默认升序

    .sort_index(axis=0, ascending=True)

In [1]:
import numpy as np
import pandas as pd

b = pd.DataFrame(np.arange(20).reshape(4,5),index=['c','a','d','b'])
b

Unnamed: 0,0,1,2,3,4
c,0,1,2,3,4
a,5,6,7,8,9
d,10,11,12,13,14
b,15,16,17,18,19


In [2]:
b.sort_index()  # 默认轴0 ，且a,b,c,d升序

Unnamed: 0,0,1,2,3,4
a,5,6,7,8,9
b,15,16,17,18,19
c,0,1,2,3,4
d,10,11,12,13,14


In [3]:
b.sort_index(ascending=False) # FALSE为降序

Unnamed: 0,0,1,2,3,4
d,10,11,12,13,14
c,0,1,2,3,4
b,15,16,17,18,19
a,5,6,7,8,9


In [5]:
c = b.sort_index(axis=1,ascending=False)
c

Unnamed: 0,4,3,2,1,0
c,4,3,2,1,0
a,9,8,7,6,5
d,14,13,12,11,10
b,19,18,17,16,15


In [7]:
c.sort_index()

Unnamed: 0,4,3,2,1,0
a,9,8,7,6,5
b,19,18,17,16,15
c,4,3,2,1,0
d,14,13,12,11,10


In [8]:
c = c.sort_index()
c

Unnamed: 0,4,3,2,1,0
a,9,8,7,6,5
b,19,18,17,16,15
c,4,3,2,1,0
d,14,13,12,11,10


#### 法二：
.sort_values()方法在指定轴上根据数值进行排序，默认升序
    
    Series.sort_values(axis=0,ascending=True)
    
    DataFrame.sort_values(by,axis=0,ascending=True)
by:axis轴上的某个索引或索引列表

#### 当值表中有NaN时，统一放在排序末尾（横排和竖排）

In [9]:
import numpy as np
import pandas as pd
b = pd.DataFrame(np.arange(20).reshape(4,5),index=['c','a','d','b'])
b

Unnamed: 0,0,1,2,3,4
c,0,1,2,3,4
a,5,6,7,8,9
d,10,11,12,13,14
b,15,16,17,18,19


In [10]:
c = b.sort_values(2,ascending=False)
c

Unnamed: 0,0,1,2,3,4
b,15,16,17,18,19
d,10,11,12,13,14
a,5,6,7,8,9
c,0,1,2,3,4


e = c.sort_values(1,ascending=False)
e

In [14]:
c = c.sort_values('a',axis=1,ascending=False)
c

Unnamed: 0,4,3,2,1,0
b,19,18,17,16,15
d,14,13,12,11,10
a,9,8,7,6,5
c,4,3,2,1,0


## 二、数据的基本统计分析

## 基本的统计分析函数
### 适用于Series和DataFrame类型

方法：
     
     .sum()       计算数据的总和，按0轴计算，下同
     
     .count()      非NaN值的数量
     
     .mean() .median()  计算数据的算术平均值、算术中位数
     
     .var()  .std()  计算数据的方差、标准差
     
     .min()  .max()  计算数据的最小值、最大值
     
     .describe()    针对0轴（各列）的统计汇总
     
### 适用于Series类型

方法：
    
     .argmin() .argmax()  计算数据最大值、最小值所在位置的索引位置（自动索引）
     
     .idxmin() .idxmax()  计算数据最大值、最小值所在位置的索引（自定义索引）

In [16]:
import pandas as pd
a = pd.Series([9,8,7,6],index=['a','b','c','d'])
a

a    9
b    8
c    7
d    6
dtype: int64

In [17]:
a.describe()  #针对0轴（各列）的统计汇总

count    4.000000
mean     7.500000
std      1.290994
min      6.000000
25%      6.750000
50%      7.500000
75%      8.250000
max      9.000000
dtype: float64

In [18]:
type(a.describe())

pandas.core.series.Series

In [19]:
a.describe()['count']

4.0

In [21]:
a.describe()['max']

9.0

In [23]:
b = pd.DataFrame(np.arange(20).reshape(4,5),index=['c','a','d','b'])
b

Unnamed: 0,0,1,2,3,4
c,0,1,2,3,4
a,5,6,7,8,9
d,10,11,12,13,14
b,15,16,17,18,19


In [24]:
b.describe()

Unnamed: 0,0,1,2,3,4
count,4.0,4.0,4.0,4.0,4.0
mean,7.5,8.5,9.5,10.5,11.5
std,6.454972,6.454972,6.454972,6.454972,6.454972
min,0.0,1.0,2.0,3.0,4.0
25%,3.75,4.75,5.75,6.75,7.75
50%,7.5,8.5,9.5,10.5,11.5
75%,11.25,12.25,13.25,14.25,15.25
max,15.0,16.0,17.0,18.0,19.0


In [25]:
type(b.describe())

pandas.core.frame.DataFrame

In [26]:
b.describe().ix['max']

.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/indexing.html#deprecate_ix
  if __name__ == '__main__':


0    15.0
1    16.0
2    17.0
3    18.0
4    19.0
Name: max, dtype: float64

In [27]:
b.describe()[2]

count     4.000000
mean      9.500000
std       6.454972
min       2.000000
25%       5.750000
50%       9.500000
75%      13.250000
max      17.000000
Name: 2, dtype: float64

## 三、数据的累计统计分析

## 累计统计分析函数：
### 适用于Series和DataFrame类型，累计计算
方法： 

    .cumsum()    依次给出前1、2、3、……、n个数的和
    .cumprod()   依次给出前1、2、3、……、n个数的积
    .cummax()    依次给出前1、2、3、……、n个数的最大值
    .cummin()    依次给出前1、2、3、……、n个数的最小值

In [28]:
import numpy as np
import pandas as pd
b = pd.DataFrame(np.arange(20).reshape(4,5),index=['c','a','d','b'])
b

Unnamed: 0,0,1,2,3,4
c,0,1,2,3,4
a,5,6,7,8,9
d,10,11,12,13,14
b,15,16,17,18,19


In [29]:
b.cumsum() # 竖着加

Unnamed: 0,0,1,2,3,4
c,0,1,2,3,4
a,5,7,9,11,13
d,15,18,21,24,27
b,30,34,38,42,46


In [30]:
b.cumprod()

Unnamed: 0,0,1,2,3,4
c,0,1,2,3,4
a,0,6,14,24,36
d,0,66,168,312,504
b,0,1056,2856,5616,9576


In [34]:
b.cummin()

Unnamed: 0,0,1,2,3,4
c,0,1,2,3,4
a,0,1,2,3,4
d,0,1,2,3,4
b,0,1,2,3,4


In [35]:
b.cummax()

Unnamed: 0,0,1,2,3,4
c,0,1,2,3,4
a,5,6,7,8,9
d,10,11,12,13,14
b,15,16,17,18,19


### 适用于Series和DataFrame类型，滚动计算（窗口计算）
方法：
    
     .rolling(w).sum()      依次计算相邻w个元素的和
     .rolling(w).mean()     依次计算相邻w个元素的算术平均值
     .rolling(w).var()      依次计算相邻w个元素的方差
     .rolling(w).std()      依次计算相邻w个元素的标准差
     .rolling(w).min() .max() 依次计算相邻w个元素的最大和最小值
     

In [36]:
import numpy as np
import pandas as pd
b = pd.DataFrame(np.arange(20).reshape(4,5),index=['c','a','d','b'])
b

Unnamed: 0,0,1,2,3,4
c,0,1,2,3,4
a,5,6,7,8,9
d,10,11,12,13,14
b,15,16,17,18,19


In [37]:
b.rolling(2).sum()

Unnamed: 0,0,1,2,3,4
c,,,,,
a,5.0,7.0,9.0,11.0,13.0
d,15.0,17.0,19.0,21.0,23.0
b,25.0,27.0,29.0,31.0,33.0


In [38]:
b.rolling(3).sum()

Unnamed: 0,0,1,2,3,4
c,,,,,
a,,,,,
d,15.0,18.0,21.0,24.0,27.0
b,30.0,33.0,36.0,39.0,42.0


## 四、数据的相关分析

###        相关分析
     两个事物，表示为X和Y，如何判断它们之间的存在相关性？
相关性                           
                              
     X增大，Y增大，正相关 （协方差>0）  0.8-1.0 极强相关  
                                        0.6-0.8 强相关 
     X增大，Y减小，负相关 （协方差<0）  0.4-0.6 中等程度相关   （相关系数r [-1,1]）
                                        0.2-0.4 弱相关
     X增大，Y无视，不相关 （协方差=0）  0.0-0.2 极弱相关或无相关

### 相关分析函数
#### 适用于Series和DataFrame类型
     .cov()    计算协方差矩阵
     
     .corr()   计算相关系数矩阵，Pearson,Spearman,Kendall等系数

In [41]:
# 房价增幅与M2增幅的相关性
import pandas as pd

hprice = pd.Series([3.04 ,22.93 ,12.75 ,22.6 ,12.33],index=['2008','2009','2010','2011','2012'])

m2 = pd.Series([8.18,18.38,9.13,7.82,6.69],index=['2008','2009','2010','2011','2012'])


In [42]:
hprice.corr(m2)  #中等程度相关

0.5239439145220387

## 单元总结
Pandas数据特征分析
             
             排序       .sort_index()  .sort_values()
             基本统计函数  .describe()
一组数据的摘要    
           
             累计统计函数  .cum*()  .rolling().*()
             相关性分析   .corr()  .cov()