# Pandas 索引和选择数据

Python 和 NumPy 索引运算符 "[]" 和属性运算符 "." , 可以在广泛的用例中快速轻松地访问 Pandas 数据结构。然而，由于要访问的数据类型不是预先知道的，所以直接使用标准运算符具有一些优化限制。对于生产环境的代码，建议使用以下方式访问:

| 编号 | 索引 | 描述 |
| :--: | :--: | :--: |
| 1 | .loc() | 基于标签 |
| 2 | .iloc() | 基于整数 |
| 3 | .ix() | 基于标签和整数 |

## .loc[]

Pandas 提供了各种方法来完成基于标签的索引。切片时，也包括起始边界。整数是有效的标签，但他们是指标签而不是位置。

.loc() 具有多种访问方式, 如:

* 单个标量标签
* 标签列表
* 切片对象
* 一个布尔数组

loc 需要两个 单/列表/范围运算符， 用 "," 分隔。 第一个表示行， 第二个表示列

In [23]:
import pandas as pd
import numpy as np

df = pd.DataFrame(np.random.randn(8, 4), index=list('abcdefgh'),columns=list('ABCD'))

print(df.loc[:, 'A'])
print(df.loc[:, ['A', ]])

a    1.147041
b    2.402093
c   -1.478781
d    0.616398
e   -0.143899
f    0.252945
g    0.494418
h    0.583473
Name: A, dtype: float64
          A
a  1.147041
b  2.402093
c -1.478781
d  0.616398
e -0.143899
f  0.252945
g  0.494418
h  0.583473


In [24]:
print(df.loc[:, ['A', 'C']])

          A         C
a  1.147041  0.583073
b  2.402093 -0.058520
c -1.478781  1.720831
d  0.616398  1.439457
e -0.143899 -1.604595
f  0.252945 -1.409469
g  0.494418  0.923601
h  0.583473  2.177962


In [25]:
print(df.loc[['a', 'b', 'f', 'h'], ['A', 'C']])

          A         C
a  1.147041  0.583073
b  2.402093 -0.058520
f  0.252945 -1.409469
h  0.583473  2.177962


In [26]:
# 当不需要管列的时候，只有行标签需要特定，那么就可以省略行的中括号[]
print(df.loc['a':'h']) 

          A         B         C         D
a  1.147041 -0.490869  0.583073  0.157302
b  2.402093 -0.169182 -0.058520  2.013655
c -1.478781  0.475381  1.720831  0.230368
d  0.616398  0.346943  1.439457  0.360982
e -0.143899  0.424886 -1.604595  2.153160
f  0.252945  0.072648 -1.409469  0.558853
g  0.494418 -1.112541  0.923601  0.131683
h  0.583473 -0.732978  2.177962 -0.880422


## 布尔数组选择数据

In [27]:
print(df.loc['a'] > 0)
# 布尔数组选择
print(df.loc[df.A > 0, ['A', 'B', 'C']])
# 布尔数组多条件选择使用 () & () 的方式
print(df.loc[(df.A > 0) & (df['B'] > 0), ['A', 'B', 'C']])

A     True
B    False
C     True
D     True
Name: a, dtype: bool
          A         B         C
a  1.147041 -0.490869  0.583073
b  2.402093 -0.169182 -0.058520
d  0.616398  0.346943  1.439457
f  0.252945  0.072648 -1.409469
g  0.494418 -1.112541  0.923601
h  0.583473 -0.732978  2.177962
          A         B         C
d  0.616398  0.346943  1.439457
f  0.252945  0.072648 -1.409469


## .iloc[]

Pandas 提供了各种方法，以获得纯数字索引， 像 python 和 numpy 一样， 第一个位置是基于 0 的索引，各种访问方式如下:

* 整数
* 整数列表
* 系列值

In [28]:
df = pd.DataFrame(np.random.randn(8, 4), columns=list('ABCD'))
print(df.iloc[: 4])

          A         B         C         D
0 -1.939895  1.236807 -0.547924 -0.371304
1 -2.647820  0.675064  0.312163  0.815570
2  1.258317 -2.129883 -0.948328 -0.996933
3 -1.181300 -1.001866 -1.021580  1.144481


In [29]:
print(df.iloc[1:5, 2:4])

          C         D
1  0.312163  0.815570
2 -0.948328 -0.996933
3 -1.021580  1.144481
4  0.808363  0.818595


In [30]:
print(df.iloc[[1, 3, 5], [1, 3]])
print(df.iloc[1:3, :])
print(df.iloc[:, 1:3])

          B         D
1  0.675064  0.815570
3 -1.001866  1.144481
5  0.375830  2.226572
          A         B         C         D
1 -2.647820  0.675064  0.312163  0.815570
2  1.258317 -2.129883 -0.948328 -0.996933
          B         C
0  1.236807 -0.547924
1  0.675064  0.312163
2 -2.129883 -0.948328
3 -1.001866 -1.021580
4  0.115891  0.808363
5  0.375830  1.163729
6 -0.945527 -0.353690
7 -0.705620  0.494362


## .ix[]
除了基于纯标签和整数之外， Pandas 还提供了一种使用 .ix[] 运算符进行选择和子集化对象的混合方法。

In [31]:
df = pd.DataFrame(np.random.randn(8, 4), columns=list('ABCD'))
print(df.ix[:4])

          A         B         C         D
0 -0.545586  1.291499  0.092545  2.271656
1  0.600505 -0.485367 -0.412404 -0.066897
2 -1.553795 -0.594337 -1.313909 -0.024510
3  1.267564  0.312133  0.142518  0.621480
4 -1.112668 -0.933478  0.948755  1.209582


.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/indexing.html#ix-indexer-is-deprecated
  


In [32]:
print(df.ix[:, 'A'])

0   -0.545586
1    0.600505
2   -1.553795
3    1.267564
4   -1.112668
5    1.081415
6   -0.285230
7   -0.488537
Name: A, dtype: float64


## 属性访问
可以使用属性运算符 . 来选择列

In [33]:
print(df.A)

0   -0.545586
1    0.600505
2   -1.553795
3    1.267564
4   -1.112668
5    1.081415
6   -0.285230
7   -0.488537
Name: A, dtype: float64
