In [1]:
import numpy as np
import pandas as pd


In [2]:
# 在本章中，我们将讨论如何切割和丢弃日期，并获取Pandas中大对象的子集。

# Python和NumPy索引运算符"[]"和属性运算符"."。 
# 可以在广泛的用例中快速轻松地访问Pandas数据结构。
# 然而，由于要访问的数据类型不是预先知道的，所以直接使用标准运算符具有一些优化限制。
# 对于生产环境的代码，我们建议利用本章介绍的优化Pandas数据访问方法。


# Pandas现在支持三种类型的多轴索引; 这三种类型在下表中提到 -

# 编号	索引	描述
# 1	.loc()	基于标签
# 2	.iloc()	基于整数
# 3	.ix()	基于标签和整数

In [7]:
# .loc()
# Pandas提供了各种方法来完成基于标签的索引。 切片时，也包括起始边界。整数是有效的标签，但它们是指标签而不是位置。
# .loc()具有多种访问方式，如 -
# 单个标量标签
# 标签列表
# 切片对象
# 一个布尔数组
# loc需要两个单/列表/范围运算符，用","分隔。第一个表示行，第二个表示列。

df=pd.DataFrame(np.random.randn(8,4),index=['a','b','c','d','e','f','g','h'],columns=['A','B','C','D'])
print(df)
print('对某一列选中所有的行')
print(df.loc[:,'A'])

print('***'*15)
print(df.loc[:,['A','C']])

          A         B         C         D
a -0.068024 -0.481531  0.278873 -0.758177
b -0.277650 -0.084704  0.861845  0.774227
c  1.998851  0.011858  0.784318 -0.051009
d -0.421201  0.327331 -0.347275 -0.221816
e  0.034190  0.813177 -0.271812  1.947802
f -1.745067 -1.042280 -0.971085  0.614041
g  1.042788 -2.054164  1.070037  0.105989
h  0.829093  0.059185  1.003071 -0.011625
对某一列选中所有的行
a   -0.068024
b   -0.277650
c    1.998851
d   -0.421201
e    0.034190
f   -1.745067
g    1.042788
h    0.829093
Name: A, dtype: float64
*********************************************
          A         C
a -0.068024  0.278873
b -0.277650  0.861845
c  1.998851  0.784318
d -0.421201 -0.347275
e  0.034190 -0.271812
f -1.745067 -0.971085
g  1.042788  1.070037
h  0.829093  1.003071


In [11]:
#为多列选出个别行
print(df.loc[['a','b','f','h'],['A','C']])

          A         C
a -0.068024  0.278873
b -0.277650  0.861845
f -1.745067 -0.971085
h  0.829093  1.003071


In [13]:
#多列选出所有行
print(df.loc[:,['A','B']])

          A         B
a -0.068024 -0.481531
b -0.277650 -0.084704
c  1.998851  0.011858
d -0.421201  0.327331
e  0.034190  0.813177
f -1.745067 -1.042280
g  1.042788 -2.054164
h  0.829093  0.059185


In [15]:
# 为所有列选出行的片段
print(df.loc['a':'h'])

          A         B         C         D
a -0.068024 -0.481531  0.278873 -0.758177
b -0.277650 -0.084704  0.861845  0.774227
c  1.998851  0.011858  0.784318 -0.051009
d -0.421201  0.327331 -0.347275 -0.221816
e  0.034190  0.813177 -0.271812  1.947802
f -1.745067 -1.042280 -0.971085  0.614041
g  1.042788 -2.054164  1.070037  0.105989
h  0.829093  0.059185  1.003071 -0.011625


In [16]:
#获取值得布尔序列
print(df.loc['a']>0)

A    False
B    False
C     True
D    False
Name: a, dtype: bool


In [17]:
# .iloc()
# Pandas提供了各种方法，以获得纯整数索引。像python和numpy一样，第一个位置是基于0的索引。
# 各种访问方式如下 -
# 整数
# 整数列表
# 系列值
df=pd.DataFrame(np.random.randn(8,4),columns=['A','B','C','D'])
#为截取的行片段选出所有的列
print(df.iloc[:4])

          A         B         C         D
0 -0.602167  0.183540 -0.367796  0.501259
1 -0.714867 -0.622311  1.179281  1.104762
2 -1.301469 -1.011961  0.568023 -0.251795
3 -0.498000 -0.028184 -0.233226  2.196305


In [27]:
#整数分割
print(df.iloc[:4])

print('**'*20)
print(df.iloc[1:5,1:3])

print('**'*20)
print(df.iloc[[1,3,5],[1,3]])

print('**'*20)
print(df.iloc[1:3,:])

print('**'*20)
print(df.iloc[:,1:3])

          A         B         C         D
0 -0.602167  0.183540 -0.367796  0.501259
1 -0.714867 -0.622311  1.179281  1.104762
2 -1.301469 -1.011961  0.568023 -0.251795
3 -0.498000 -0.028184 -0.233226  2.196305
****************************************
          B         C
1 -0.622311  1.179281
2 -1.011961  0.568023
3 -0.028184 -0.233226
4 -1.913726  0.223459
****************************************
          B         D
1 -0.622311  1.104762
3 -0.028184  2.196305
5  0.266342 -0.563958
****************************************
          A         B         C         D
1 -0.714867 -0.622311  1.179281  1.104762
2 -1.301469 -1.011961  0.568023 -0.251795
****************************************
          B         C
0  0.183540 -0.367796
1 -0.622311  1.179281
2 -1.011961  0.568023
3 -0.028184 -0.233226
4 -1.913726  0.223459
5  0.266342  1.980607
6  0.018170  0.216871
7  0.440290 -0.600146


In [28]:
# .ix()
# 除了基于纯标签和整数之外，Pandas还提供了一种使用.ix()运算符进行选择和子集化对象的混合方法。

#整数分割
print(df.ix[:4])

          A         B         C         D
0 -0.602167  0.183540 -0.367796  0.501259
1 -0.714867 -0.622311  1.179281  1.104762
2 -1.301469 -1.011961  0.568023 -0.251795
3 -0.498000 -0.028184 -0.233226  2.196305
4 -0.927138 -1.913726  0.223459  0.092348


.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/indexing.html#ix-indexer-is-deprecated
  """


In [29]:
print(df.ix[:,'A'])

0   -0.602167
1   -0.714867
2   -1.301469
3   -0.498000
4   -0.927138
5    0.281520
6    0.424127
7   -0.915129
Name: A, dtype: float64


In [37]:
# 使用符号

# 使用多轴索引从Pandas对象获取值可使用以下符号 -

# 对象	索引	描述
# Series	s.loc[indexer]	标量值
# DataFrame	df.loc[row_index,col_index]	标量对象
# Panel	p.loc[item_index,major_index, minor_index]	p.loc[item_index,major_index, minor_index]
# 注意 - .iloc()和.ix()应用相同的索引选项和返回值。
# 现在来看看如何在DataFrame对象上执行每个操作。这里使用基本索引运算符[] -

print(df['A'])

print('***'*15)
print(df[['A','B']])

print('***'*15)
print(df[2:2])


# 属性访问
# 可以使用属性运算符.来选择列。
print(df.A)

0   -0.602167
1   -0.714867
2   -1.301469
3   -0.498000
4   -0.927138
5    0.281520
6    0.424127
7   -0.915129
Name: A, dtype: float64
*********************************************
          A         B
0 -0.602167  0.183540
1 -0.714867 -0.622311
2 -1.301469 -1.011961
3 -0.498000 -0.028184
4 -0.927138 -1.913726
5  0.281520  0.266342
6  0.424127  0.018170
7 -0.915129  0.440290
*********************************************
Empty DataFrame
Columns: [A, B, C, D]
Index: []
0   -0.602167
1   -0.714867
2   -1.301469
3   -0.498000
4   -0.927138
5    0.281520
6    0.424127
7   -0.915129
Name: A, dtype: float64


In [39]:
# 统计方法有助于理解和分析数据的行为。现在我们将学习一些统计函数，可以将这些函数应用到Pandas的对象上。

# pct_change()函数
# 系列，DatFrames和Panel都有pct_change()函数。此函数将每个元素与其前一个元素进行比较，并计算变化百分比。

s=pd.Series([1,2,3,4,5,4])
print(s.pct_change())

df=pd.DataFrame(np.random.randn(5,2))
print(df.pct_change())
# 默认情况下，pct_change()对列进行操作; 如果想应用到行上，那么可使用axis = 1参数。

0         NaN
1    1.000000
2    0.500000
3    0.333333
4    0.250000
5   -0.200000
dtype: float64
           0         1
0        NaN       NaN
1  -0.907588  2.027004
2   8.117182 -0.577801
3  -0.960669 -1.874012
4  14.299571 -1.051798


In [40]:
# 协方差
# 协方差适用于系列数据。Series对象有一个方法cov用来计算序列对象之间的协方差。
# NA将被自动排除。
# Cov系列示例
s1=pd.Series(np.random.randn(10))
s2=pd.Series(np.random.randn(10))
print(s1.cov(s2))

-0.180766618019


In [41]:
frame=pd.DataFrame(np.random.randn(10,5),columns=['a','b','c','d','e'])
print(frame['a'].cov(frame['b']))
print(frame.cov())

-0.35370490788
          a         b         c         d         e
a  1.242840 -0.353705 -0.490068  0.554176 -0.339829
b -0.353705  1.092451  0.188553  0.179817  0.198006
c -0.490068  0.188553  1.215012 -0.174806 -0.222520
d  0.554176  0.179817 -0.174806  0.928444 -0.087384
e -0.339829  0.198006 -0.222520 -0.087384  0.525602


In [42]:
# 相关性
# 相关性显示了任何两个数值(系列)之间的线性关系。
# 有多种方法来计算pearson(默认)，spearman和kendall之间的相关性。
print(frame['a'].corr(frame['b']))
print(frame.corr())
# 如果DataFrame中存在任何非数字列，则会自动排除。

-0.303551561047
          a         b         c         d         e
a  1.000000 -0.303552 -0.398803  0.515896 -0.420460
b -0.303552  1.000000  0.163660  0.178547  0.261306
c -0.398803  0.163660  1.000000 -0.164584 -0.278452
d  0.515896  0.178547 -0.164584  1.000000 -0.125091
e -0.420460  0.261306 -0.278452 -0.125091  1.000000


In [55]:
# 数据排名
# 数据排名为元素数组中的每个元素生成排名。在关系的情况下，分配平均等级。
s=pd.Series(np.random.randn(5),index=list('abcde'))
print(s)
s['d']=s['b']
print(s)
print(s.rank())
print(s.rank())

a   -0.422260
b    0.776948
c   -1.749068
d    1.986586
e   -1.578202
dtype: float64
a   -0.422260
b    0.776948
c   -1.749068
d    0.776948
e   -1.578202
dtype: float64
a    3.0
b    4.5
c    1.0
d    4.5
e    2.0
dtype: float64
a    3.0
b    4.5
c    1.0
d    4.5
e    2.0
dtype: float64


In [None]:
# Rank可选地使用一个默认为true的升序参数; 当错误时，数据被反向排序，也就是较大的值被分配较小的排序。

# Rank支持不同的tie-breaking方法，用方法参数指定 -

# average - 并列组平均排序等级
# min - 组中最低的排序等级
# max - 组中最高的排序等级
# first - 按照它们出现在数组中的顺序分配队列