<!--NAVIGATION-->
< [Introducing Pandas Objects](03.01-Introducing-Pandas-Objects.ipynb) | [Contents](Index.ipynb) | [Operating on Data in Pandas](03.03-Operations-in-Pandas.ipynb) >

# 3.3 数据取值与选择

第2章具体介绍了获取、设置、调整NumPy数组数值的方法与工具，包括取值操作（如``arr[2, 1]``）、切片操作（如``arr[:, 1:5]``）、掩码操作（如 ``arr[arr > 0]``）、花哨的索引操作（如``arr[0, [1, 5]]``），以及组合操作（如``arr[:, [1, 5]]``）。

下面介绍 Pandas 的``Series``和``DataFrame``对象相似的数据获取与调整操作。如果你用过NumPy操作模式，就会非常熟悉Pandas的操作模式，只是有几个细节需要注意一下。

我们将从简单的一维``Series``对象开始，然后再用比较复杂的二维``DataFrame``对象进行演示。

## 3.3.1 Series数据选择方法

如前所述，``Series``对象与一维NumPy数组和标准Python字典在许多方面都一样。只要牢牢记住这两个类比，就可以帮助我们更好地理解Series对象的数据索引与选择模式。

### 1. 将Series看作字典

和字典一样，``Series``对象提供了键值对的映射：

In [1]:
import pandas as pd
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=['a', 'b', 'c', 'd'])
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

In [2]:
data['b']

0.5

我们还可以用Python字典的**表达式**和**方法**来检测键/索引和值：

In [3]:
'a' in data

True

In [4]:
data.keys() #keys()是Python字典的方法，以列表形式返回字典所有的键。但他们不是真正的列表，不能被修改，没有append()方法。

Index(['a', 'b', 'c', 'd'], dtype='object')

In [5]:
list(data.items()) #items()是Python字典的方法，以列表返回字典所有的键-值对。
#items()方法返回的dict_items值中，包含的是键和值的元组。如果希望通过该方法获得一个真正的列表，就把类似列表的返回值传递给list函数。

[('a', 0.25), ('b', 0.5), ('c', 0.75), ('d', 1.0)]

``Series``对象还可以用字典语法调整数据。就像你可以通过增加新的键扩展字典一样，你也可以通过增加新的索引值扩展``Series``：

In [6]:
data['e'] = 1.25
data

a    0.25
b    0.50
c    0.75
d    1.00
e    1.25
dtype: float64

Series对象的**可变性**是一个非常方便的特性： Pandas 在底层已经为可能发生的内存布局和数据复制自动决策，用户不需要担心这些问题。

### 2. 将Series看作一维数组

``Series``不仅有着和字典一样的接口，而且还具备和NumPy数组一样的数组数据选择功能，包括*索引、掩码、花哨的索引*等操作，具体示例如下所示：

In [7]:
# 将显式索引作为切片
data['a':'c']

a    0.25
b    0.50
c    0.75
dtype: float64

In [8]:
# 将隐式整数索引作为切片
data[0:2]

a    0.25
b    0.50
dtype: float64

In [9]:
# 掩码
data[(data > 0.3) & (data < 0.8)]

b    0.50
c    0.75
dtype: float64

In [10]:
# 花哨的索引
data[['a', 'e']]

a    0.25
e    1.25
dtype: float64

以上示例中，切片最容易引起混淆。

注意：当使用显式索引（i.e.,``data['a':'c']``）作切片时，结果**包含**最后一个索引；而当使用隐式索引（i.e.,``data[0:2]``）作切片时，结果**不包含**最后一个索引。

### 3. 索引器： loc、 iloc和ix

这些切片和取值的习惯用法经常会造成混乱。

例如，如果你的``Series``是显式整数索引，那么``data[1]``这样的取值操作会使用显式索引，而``data[1:3]``这样的切片操作却会使用隐式索引。

In [11]:
data = pd.Series(['a', 'b', 'c'], index=[1, 3, 5])
data

1    a
3    b
5    c
dtype: object

In [12]:
# 取值操作是显式索引
data[1]

'a'

In [13]:
#  切片操作是隐式索引
data[1:3]

3    b
5    c
dtype: object

由于整数索引很容易造成混淆，所以Pandas提供了一些索引器（indexer）属性来作为取值的方法。它们不是``Series``对象的函数方法，而是暴露切片接口的属性。

第一种索引器是``loc``属性，表示取值和切片都是**显式**的：

In [14]:
data.loc[1]

'a'

In [15]:
data.loc[1:3]

1    a
3    b
dtype: object

第二种是``iloc``属性，表示取值和切片都是Python形式的隐式索引（从 0 开始，左闭右开区间）：

In [16]:
data.iloc[1]

'b'

In [17]:
data.iloc[1:3]

3    b
5    c
dtype: object

第三种取值属性是``ix``，它是前两种索引器的混合形式，在``Series``对象中``ix``等价于标准的``[]``（Python列表）取值方式。``ix``索引器主要用于``DataFrame``对象，后面将会介绍。

Python代码的设计原则之一是“显式优于隐式”。使用``loc``和``iloc``可以让代码更容易维护，可读性更高。特别是在处理整数索引的对象时，我强烈推荐使用这两种索引器。它们既可以让代码阅读和理解起来更容易，也能避免因误用索引/切片而产生的小bug。

## 3.3.2 DataFrame数据选择方法

前面曾提到，``DataFrame``在有些方面像二维或结构化数组，在有些方面又像一个共享索引的若干``Series``对象构成的字典。

这两种类比可以帮助我们更好地掌握这种数据结构的数据选择方法。

### 1. 将DataFrame看作字典

第一种类比是把``DataFrame``当作一个由若干``Series``对象构成的字典。让我们用之前的美国五州面积与人口数据来演示：

In [18]:
population = pd.Series({'重庆': 3101.79,'上海': 2423.78,'北京': 2154.2,
                   '成都': 1633,'天津': 1559.60})
GDP = pd.Series({'重庆': 20363.19, '上海': 32679.87, '北京': 30320.00,
             '成都': 15342.77, '天津': 188099.64})
data = pd.DataFrame({'pop':population, 'GDP':GDP})
data

Unnamed: 0,pop,GDP
重庆,3101.79,20363.19
上海,2423.78,32679.87
北京,2154.2,30320.0
成都,1633.0,15342.77
天津,1559.6,188099.64


两个``Series``分别构成``DataFrame``的一列，可以通过对列名进行字典形式（dictionary-style）的取值获取数据：

In [19]:
data['GDP']

重庆     20363.19
上海     32679.87
北京     30320.00
成都     15342.77
天津    188099.64
Name: GDP, dtype: float64

同样，也可以用属性形式（attribute-style）选择**纯字符串**列名的数据：

In [20]:
data.GDP

重庆     20363.19
上海     32679.87
北京     30320.00
成都     15342.77
天津    188099.64
Name: GDP, dtype: float64

对同一个对象进行属性形式与字典形式的列数据，结果是相同的：

In [21]:
data.GDP is data['GDP']

True

虽然属性形式的数据选择方法很方便，但是它**并不是通用**的。

如果列名**不是纯字符串**，或者列名与``DataFrame``的方法**同名**，那么就**不能**用属性索引。例如，``DataFrame``有一个``pop()``方法，如果用``data.pop``就不会获取``"pop"``列，而是显示为方法：

In [22]:
data.pop is data['pop']

False

另外，还应该**避免**对用属性形式选择的列直接赋值（即可以用``data['pop'] = z``，但不要用``data.pop = z``）。

和前面介绍的``Series``对象一样，还可以用字典形式的语法调整对象，如果要增加一列可以这样做：

In [23]:
data['GDP per capita'] = data['GDP']/ data['pop']#单位：万元/人
data

Unnamed: 0,pop,GDP,GDP per capita
重庆,3101.79,20363.19,6.56498
上海,2423.78,32679.87,13.483018
北京,2154.2,30320.0,14.074831
成都,1633.0,15342.77,9.39545
天津,1559.6,188099.64,120.607617


这里演示了两个``Series``对象算术运算的简便语法，我们将在下节进行详细介绍。

### 2. 将DataFrame看作二维数组

前面曾提到，可以把``DataFrame``看成是一个增强版的二维数组，用``values``属性按行查看数组数据：

In [24]:
data.values

array([[3.10179000e+03, 2.03631900e+04, 6.56498022e+00],
       [2.42378000e+03, 3.26798700e+04, 1.34830183e+01],
       [2.15420000e+03, 3.03200000e+04, 1.40748306e+01],
       [1.63300000e+03, 1.53427700e+04, 9.39545009e+00],
       [1.55960000e+03, 1.88099640e+05, 1.20607617e+02]])

理解了这一点，就可以把许多数组操作方式用在``DataFrame``上。例如，可以对``DataFrame``进行**行列转置**：

In [25]:
data.T

Unnamed: 0,重庆,上海,北京,成都,天津
pop,3101.79,2423.78,2154.2,1633.0,1559.6
GDP,20363.19,32679.87,30320.0,15342.77,188099.64
GDP per capita,6.56498,13.483018,14.074831,9.39545,120.607617


通过字典形式对列进行取值显然会限制我们把``DataFrame``作为NumPy数组可以获得的能力，尤其是当我们在``DataFrame``数组中使用单个行索引获取一行数据时：

In [26]:
data.values[0]

array([3.10179000e+03, 2.03631900e+04, 6.56498022e+00])

而获取一列数据就需要向``DataFrame``传递单个列索引：

In [27]:
data['pop']

重庆    3101.79
上海    2423.78
北京    2154.20
成都    1633.00
天津    1559.60
Name: pop, dtype: float64

因此，在进行数组形式的取值时，我们就需要用另一种方法——前面介绍过的Pandas索引器``loc``, ``iloc``和 ``ix``了。通过``iloc``索引器，我们就可以像对待NumPy数组一样索引Pandas的底层数组（Python的隐式索引），``DataFrame``的行列标签会自动保留在结果中：

In [28]:
data.iloc[:3, :2]

Unnamed: 0,pop,GDP
重庆,3101.79,20363.19
上海,2423.78,32679.87
北京,2154.2,30320.0


通过``loc``索引器，我们可以使用显式索引：

In [29]:
data.loc[:'北京', :'pop']

Unnamed: 0,pop
重庆,3101.79
上海,2423.78
北京,2154.2


使用``ix``索引器可以实现一种混合效果：

In [30]:
data.ix[:3, :'pop']

.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/indexing.html#ix-indexer-is-deprecated
  """Entry point for launching an IPython kernel.


Unnamed: 0,pop
重庆,3101.79
上海,2423.78
北京,2154.2


需要注意的是，``ix``索引器对于整数索引的处理和之前在``Series``对象中介绍的一样，都容易让人混淆。

任何用于处理NumPy形式数据的方法都可以用于这些索引器。例如，可以在``loc``索引器中结合使用掩码与花哨的索引方法：

In [31]:
data.loc[data['GDP per capita'] > 0.07, ['pop', 'GDP']]

Unnamed: 0,pop,GDP
重庆,3101.79,20363.19
上海,2423.78,32679.87
北京,2154.2,30320.0
成都,1633.0,15342.77
天津,1559.6,188099.64


任何一种取值方法都可以用于调整数据，这一点和NumPy的常用方法是相同的：

In [32]:
data.iloc[0, 2] = 2
data

Unnamed: 0,pop,GDP,GDP per capita
重庆,3101.79,20363.19,2.0
上海,2423.78,32679.87,13.483018
北京,2154.2,30320.0,14.074831
成都,1633.0,15342.77,9.39545
天津,1559.6,188099.64,120.607617


如果你想熟练使用Pandas的数据操作方法，我建议你花点时间在一个简单的``DataFrame``上练习不同的取值方法，包括查看索引类型、切片、掩码和花哨的索引操作。

### 3. 其他取值方法

还有一些取值方法和前面介绍过的方法不太一样。它们虽然看着有点奇怪，但是在实践中还是很好用的。首先，如果对单个标签取值就选择列，而对多个标签用切片就选择行：

In [33]:
data['上海':'北京']

Unnamed: 0,pop,GDP,GDP per capita
上海,2423.78,32679.87,13.483018
北京,2154.2,30320.0,14.074831


切片也可以不用索引值，而直接用行数来实现：

In [34]:
data[1:3]

Unnamed: 0,pop,GDP,GDP per capita
上海,2423.78,32679.87,13.483018
北京,2154.2,30320.0,14.074831


与之类似，掩码操作也可以直接对每一行进行过滤，而不需要使用``loc``索引器：

In [35]:
data[data.GDP > 30000]

Unnamed: 0,pop,GDP,GDP per capita
上海,2423.78,32679.87,13.483018
北京,2154.2,30320.0,14.074831
天津,1559.6,188099.64,120.607617


这两种操作方法其实与NumPy数组的语法类似，虽然它们与Pandas的操作习惯不太一致，但是在实践中非常好用。

<!--NAVIGATION-->
< [Introducing Pandas Objects](03.01-Introducing-Pandas-Objects.ipynb) | [Contents](Index.ipynb) | [Operating on Data in Pandas](03.03-Operations-in-Pandas.ipynb) >