## 3.3　数据取值与选择

下面介绍Pandas 的Series 和 DataFrame 对象相似的数据获取与调整操作。如果你用过NumPy 操作模式，就会非常熟悉 Pandas 的操作模式，只是有几个细节需要注意一下。

### 3.3.1　Series数据选择方法
Series 对象与一维NumPy 数组和标准Python 字典在许多方面都一样。
<br>只要牢牢记住这两个类比，就可以帮助我们更好地理解Series 对象的数据索引与选择模式。

**1. 将Series看作字典**
<br>和字典一样，Series 对象**提供了键值对的映射**：

In [2]:
import pandas as pd
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=['a', 'b', 'c', 'd'])
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

In [3]:
data['b']

0.5

In [5]:
# 还可以用Python 字典的表达式和方法来检测键/ 索引和值：
print("'a' in data is: ", 'a' in data)
print("data.keys is ", data.keys())
print("list(data.items()) is: ", list(data.items()))

'a' in data is:  True
data.keys is  Index(['a', 'b', 'c', 'd'], dtype='object')
list(data.items()) is:  [('a', 0.25), ('b', 0.5), ('c', 0.75), ('d', 1.0)]


Series 对象还可以**用字典语法调整数据**。
<br>就像你可以通过增加新的键扩展字典一样，你也可以通过增加新的索引值扩展Series：


In [6]:
data['e'] = 1.25
data

a    0.25
b    0.50
c    0.75
d    1.00
e    1.25
dtype: float64

**Series 对象的可变性**是一个非常方便的特性：Pandas 在底层已经为可能发生的内存布局和数据复制自动决策，用户不需要担心这些问题。

**2. 将Series看作一维数组**

Series 不仅有着和字典一样的接口，而且还具备和NumPy 数组一样的数组数据选择功能，包括索引、掩码、花哨的索引等操作: 

In [None]:
# 将显式索引作为切片
data['a':'c']

In [None]:
# 将隐式整数索引作为切片
data[0:2]

In [None]:
# 掩码
data[(data > 0.3) & (data < 0.8)]

In [None]:
# 花哨的索引
data[['a', 'e']]

在以上示例中， **切片是绝大部分混乱之源**。
<br>需要注意的是:
* 当使用显式索引（ 即`data['a':'c']`）作切片时，结果包含最后一个索引；
* 而当使用隐式索引（即`data[0:2]`）作切片时，结果不包含最后一个索引。

**3. 索引器：loc、iloc和ix**

这些切片和取值的习惯用法经常会造成混乱。
<br>例如，如果你的Series 是显式整数索引
* 那么`data[1]` 这样的取值操作会使用显式索引，
* 而`data[1:3]` 这样的切片操作却会使用隐式索引。

In [7]:
data = pd.Series(['a', 'b', 'c'], index=[1, 3, 5])
data

1    a
3    b
5    c
dtype: object

In [8]:
# 取值操作是显式索引
data[1]

'a'

In [9]:
# 切片操作是隐式索引
data[1:3]

3    b
5    c
dtype: object

由于整数索引很容易造成混淆，所以Pandas 提供了一些**索引器（indexer）属性**来作为取值的方法。它们不是Series 对象的函数方法，而是暴露切片接口的属性。

第一种索引器是**loc 属性**，表示取值和切片都是**显式**的：

In [10]:
data.loc[1]

'a'

In [11]:
data.loc[1:3]

1    a
3    b
dtype: object

第二种是**iloc 属性**，表示取值和切片都是Python 形式的**隐式**索引：

In [12]:
data.iloc[1]

'b'

In [13]:
data.iloc[1:3]

3    b
5    c
dtype: object

第三种取值属性是**ix**，它是前两种索引器的混合形式，在Series 对象中ix 等价于标准的[]（Python 列表）取值方式。
<br>ix 索引器主要用于DataFrame 对象，后面将会介绍。

Python 代码的设计原则之一是“**显式优于隐式**”。
<br>使用loc 和iloc 可以让代码更容易维护，可读性更高。特别是在处理整数索引的对象时，我强烈推荐使用这两种索引器。它们既可以让代码阅读和理解起来更容易，也能避免因误用索引/ 切片而产生的小bug。

### 3.3.2　DataFrame数据选择方法

前面曾提到，DataFrame 在有些方面像二维或结构化数组，在有些方面又像一个共享索引的若干Series 对象构成的字典。
<br>这两种类比可以帮助我们更好地掌握这种数据结构的数据选择方法。

**1. 将DataFrame看作字典**
<br>第一种类比是把DataFrame 当作一个由若干Series 对象构成的字典。

In [14]:
area = pd.Series({'California': 423967, 'Texas': 695662,
'New York': 141297, 'Florida': 170312,
'Illinois': 149995})
pop = pd.Series({'California': 38332521, 'Texas': 26448193,
'New York': 19651127, 'Florida': 19552860,
'Illinois': 12882135})
data = pd.DataFrame({'area':area, 'pop':pop})
data

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127
Florida,170312,19552860
Illinois,149995,12882135


两个Series 分别构成DataFrame 的一列，可以通过对列名进行**字典形式（dictionary-style）**的取值获取数据：

In [15]:
data['area']

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

也可以用**属性形式（attribute-style）**选择纯字符串列名的数据：

In [16]:
data.area

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

In [17]:
# 对同一个对象进行属性形式与字典形式的列数据，结果是相同的：
data.area is data['area']

True

虽然属性形式的数据选择方法很方便，但是它并不是通用的。
<br>如果列名不是纯字符串，或者列名与DataFrame 的方法同名，那么就不能用属性索引。

In [18]:
data.pop is data['pop']

False

另外，还应该避免对用属性形式选择的列直接赋值（即可以用`data['pop'] = z`，但不要用`data.pop = z`）。

还可以用字典形式的语法调整对象，如果要增加一列可以这样做：

In [19]:
data['density'] = data['pop'] / data['area']
data

Unnamed: 0,area,pop,density
California,423967,38332521,90.413926
Texas,695662,26448193,38.01874
New York,141297,19651127,139.076746
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763


**2. 将DataFrame看作二维数组**

可以把DataFrame 看成是一个增强版的二维数组，用values 属性按行查看数组数据：

In [21]:
data.values

array([[4.23967000e+05, 3.83325210e+07, 9.04139261e+01],
       [6.95662000e+05, 2.64481930e+07, 3.80187404e+01],
       [1.41297000e+05, 1.96511270e+07, 1.39076746e+02],
       [1.70312000e+05, 1.95528600e+07, 1.14806121e+02],
       [1.49995000e+05, 1.28821350e+07, 8.58837628e+01]])

理解了这一点，就可以把许多数组操作方式用在DataFrame上。例如，可以对DataFrame进行行列转置：

In [22]:
data.T

Unnamed: 0,California,Texas,New York,Florida,Illinois
area,423967.0,695662.0,141297.0,170312.0,149995.0
pop,38332520.0,26448190.0,19651130.0,19552860.0,12882140.0
density,90.41393,38.01874,139.0767,114.8061,85.88376


通过字典形式对列进行取值显然会限制我们把DataFrame 作为NumPy 数组可以获得的能力，尤其是当我们在DataFrame 数组中使用单个行索引获取一行数据时：

In [23]:
data.values[0]

array([4.23967000e+05, 3.83325210e+07, 9.04139261e+01])

而获取一列数据就需要向DataFrame 传递单个列索引：

In [24]:
data['area']

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

因此，在进行数组形式的取值时，我们就需要用另一种方法——前面介绍过的Pandas 索引器loc、iloc 和ix 了。

通过iloc 索引器，我们就可以像对待NumPy 数组一样索引Pandas的底层数组（Python 的隐式索引），DataFrame 的行列标签会自动保留在结果中：

In [25]:
data.iloc[:3, :2]

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127


In [26]:
data.loc[:'Illinois', :'pop']

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127
Florida,170312,19552860
Illinois,149995,12882135


使用ix 索引器可以实现一种混合效果：

In [27]:
data.ix[:3, :'pop']

.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/indexing.html#ix-indexer-is-deprecated
  """Entry point for launching an IPython kernel.


Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127


任何用于处理NumPy 形式数据的方法都可以用于这些索引器。例如，可以在loc 索引器中结合使用掩码与花哨的索引方法：

In [28]:
data.loc[data.density > 100, ['pop', 'density']]

Unnamed: 0,pop,density
New York,19651127,139.076746
Florida,19552860,114.806121


任何一种取值方法都可以用于调整数据，这一点和NumPy 的常用方法是相同的：

In [29]:
data.iloc[0, 2] = 90
data

Unnamed: 0,area,pop,density
California,423967,38332521,90.0
Texas,695662,26448193,38.01874
New York,141297,19651127,139.076746
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763


**3. 其他取值方法**

首先，如果对单个标签取值就选择列，而对多个标签用切片就选择行：

In [30]:
data['Florida':'Illinois']

Unnamed: 0,area,pop,density
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763


切片也可以不用索引值，而直接用行数来实现：

In [31]:
data[1:3]

Unnamed: 0,area,pop,density
Texas,695662,26448193,38.01874
New York,141297,19651127,139.076746


掩码操作也可以直接对每一行进行过滤，而不需要使用loc 索引器：

In [32]:
data[data.density > 100]

Unnamed: 0,area,pop,density
New York,141297,19651127,139.076746
Florida,170312,19552860,114.806121
