pandas为我们提供了多种切片方法，而要是不太了解这些方法，就会经常容易混淆。
下面举例对这些切片方法进行说明。

# 准备数据

先随机生成一组数据：

In [7]:
from pandas import Series,DataFrame
import pandas as pd
import numpy as np
import random

In [8]:
rnd_1 = [random.randrange(1,20) for x in range(1000)]
rnd_2 = [random.randrange(1,20) for x in range(1000)]
rnd_3 = [random.randrange(1,20) for x in range(1000)]
fecha = pd.date_range('2012-4-10', '2015-1-4')

data = pd.DataFrame({'fecha':fecha, 'rnd_1': rnd_1, 'rnd_2': rnd_2, 'rnd_3': rnd_3})

In [10]:
data.describe()

Unnamed: 0,rnd_1,rnd_2,rnd_3
count,1000.0,1000.0,1000.0
mean,10.357,10.006,10.102
std,5.547822,5.374835,5.431676
min,1.0,1.0,1.0
25%,5.0,5.0,5.0
50%,11.0,10.0,10.0
75%,15.0,15.0,15.0
max,19.0,19.0,19.0


# []切片方法

使用方括号能够对DataFrame进行切片，有点类似于python的列表切片。
按照索引能够实现行选择或列选择或区块选择。

In [12]:
# 行选择
data[1:5]

Unnamed: 0,fecha,rnd_1,rnd_2,rnd_3
1,2012-04-11,14,17,5
2,2012-04-12,17,16,18
3,2012-04-13,13,1,4
4,2012-04-14,17,19,2


In [14]:
# 列选择
data[['rnd_1', 'rnd_3']]

Unnamed: 0,rnd_1,rnd_3
0,11,9
1,14,5
2,17,18
3,13,4
4,17,2
5,13,10
6,3,4
7,12,18
8,15,16
9,8,12


In [15]:
# 区块选择
data[:7][['rnd_1', 'rnd_2']]

Unnamed: 0,rnd_1,rnd_2
0,11,8
1,14,17
2,17,16
3,13,1
4,17,19
5,13,2
6,3,12


不过对于多列选择，不能像行选择时一样使用1：5这样的方法来选择。

In [16]:
data[['rnd_1':'rnd_3']]

SyntaxError: invalid syntax (<ipython-input-16-6d57d09184e7>, line 1)

# loc

loc可以让你按照索引来进行行列选择。

In [17]:
data.loc[1:5]

Unnamed: 0,fecha,rnd_1,rnd_2,rnd_3
1,2012-04-11,14,17,5
2,2012-04-12,17,16,18
3,2012-04-13,13,1,4
4,2012-04-14,17,19,2
5,2012-04-15,13,2,10


这里需要注意的是，loc与第一种方法不同之处在于会把第5行也选择进去，
而第一种方法只会选择到第4行为止。

In [18]:
data.loc[2:4, ['rnd_2', 'fecha']]

Unnamed: 0,rnd_2,fecha
2,16,2012-04-12
3,1,2012-04-13
4,19,2012-04-14


loc能够选择在两个特定日期之间的数据，需要注意的是这两个日期必须都要在索引中。

In [19]:
data_fecha = data.set_index('fecha')
data_fecha.head()

Unnamed: 0_level_0,rnd_1,rnd_2,rnd_3
fecha,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2012-04-10,11,8,9
2012-04-11,14,17,5
2012-04-12,17,16,18
2012-04-13,13,1,4
2012-04-14,17,19,2


In [27]:
from datetime import datetime
# 生成两个特定日期
fecha_1 =datetime(2013, 4, 14)
fecha_2 =datetime(2013, 4, 18)

# 生成切片数据
data_fecha.loc[fecha_1: fecha_2]

Unnamed: 0_level_0,rnd_1,rnd_2,rnd_3
fecha,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2013-04-14,16,17,14
2013-04-15,10,3,2
2013-04-16,6,7,3
2013-04-17,19,8,19
2013-04-18,7,3,19


如果没有特殊需求，强烈建议使用loc而尽量少使用[]，
因为loc在对DataFrame进行重新赋值操作时会避免chained indexing问题，
使用[]时编译器很可能会给出SettingWithCopy的警告。具体可以参见官方文档：
http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy

# iloc

如果说loc是按照索引（index）的值来选取的话，那么iloc就是按照索引的位置来进行选取。
iloc不关心索引的具体值是多少，只关心位置是多少，所以使用iloc时方括号中只能使用数值。

In [29]:
# 行选择
data_fecha[10: 15]

Unnamed: 0_level_0,rnd_1,rnd_2,rnd_3
fecha,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2012-04-20,10,15,4
2012-04-21,14,11,11
2012-04-22,10,7,16
2012-04-23,9,8,11
2012-04-24,18,2,2


In [31]:
# 列选择
data_fecha.iloc[:,[1,2]].head()

Unnamed: 0_level_0,rnd_2,rnd_3
fecha,Unnamed: 1_level_1,Unnamed: 2_level_1
2012-04-10,8,9
2012-04-11,17,5
2012-04-12,16,18
2012-04-13,1,4
2012-04-14,19,2


In [32]:
# 切片选择
data_fecha.iloc[[1,12,34],[0,2]]

Unnamed: 0_level_0,rnd_1,rnd_3
fecha,Unnamed: 1_level_1,Unnamed: 2_level_1
2012-04-11,14,5
2012-04-22,10,16
2012-05-14,8,5


# at

In [33]:
timeit data_fecha.at[fecha_1,'rnd_1']

7.25 µs ± 90.7 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


In [34]:
timeit data_fecha.loc[fecha_1,'rnd_1']

9.9 µs ± 182 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


In [35]:
data_fecha.at[fecha_1,'rnd_1']

16

# iat

iat对于iloc的关系就像at对于loc的关系，
是一种更快的基于索引位置的选择方法，同at一样只能访问单个元素。

In [36]:
data_fecha.iat[1,0]

14

In [37]:
timeit data_fecha.iat[1,0]

4.87 µs ± 109 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


In [38]:
timeit data_fecha.iloc[1,0]

7.52 µs ± 308 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


# ix

以上说过的几种方法都要求查询的秩在索引中，或者位置不超过长度范围，
而ix允许你得到不在DataFrame索引中的数据。

In [40]:
date_1 = datetime(2013, 1, 10, 8, 30)
date_2 = datetime(2013, 1, 13, 4, 20)

# 生成切片数据
data_fecha.ix[date_1: date_2]

.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/indexing.html#ix-indexer-is-deprecated
  """


Unnamed: 0_level_0,rnd_1,rnd_2,rnd_3
fecha,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2013-01-11,18,6,7
2013-01-12,3,2,16
2013-01-13,17,14,17


如上面的例子所示，2013年1月10号并没有被选择进去，因为这个时间点被看作为0点0分，比8点30分要早一些。