# 数据取值与选择

In [1]:
import numpy as np
import pandas as pd

## 1. Series数据选择方法

`Series` 对象与一维 `NumPy` 数组和标准 `Python` 字典在许多方面都一样。  
只要牢牢记住这两个类比，就可以帮助我们更好地理解 `Series` 对象的数据索引与选择模式。

### 1.1. 将Series看作字典

In [2]:
data = pd.Series([0.25, 0.5, 0.75, 1.0], index=['a', 'b', 'c', 'd'])
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

In [3]:
data['b']

0.5

In [4]:
'a' in data

True

In [5]:
data.keys()

Index(['a', 'b', 'c', 'd'], dtype='object')

In [6]:
list(data.items())

[('a', 0.25), ('b', 0.5), ('c', 0.75), ('d', 1.0)]

In [7]:
data['e'] = 1.25
data

a    0.25
b    0.50
c    0.75
d    1.00
e    1.25
dtype: float64

### 1.2. 将Series看作一维数组

`Series` 不仅有着和字典一样的接口，而且还具备和 `NumPy` 数组一样的数组数据选择功能，包括索引、掩码、花哨的索引等操作。

在下面的示例中，切片是绝大部分混乱之源。需要注意的是，当使用显式索引（即 `data['a':'c']`）作切片时，结果包含最后一个索引；  
而当使用隐式索引（即 `data[0:2]`）作切片时，结果不包含最后一个索引。

In [8]:
data['a':'c']                  # 将显式索引作为切片

a    0.25
b    0.50
c    0.75
dtype: float64

In [9]:
data[0:2]                      # 将隐式整数索引作为切片

a    0.25
b    0.50
dtype: float64

In [10]:
data[(data>0.3) & (data<0.8)]  # 掩码

b    0.50
c    0.75
dtype: float64

In [11]:
data[['a', 'e']]               # 花哨的索引

a    0.25
e    1.25
dtype: float64

### 1.3. 索引器：loc、iloc和ix

In [12]:
data = pd.Series(['a', 'b', 'c'], index=[1, 3, 5])
data

1    a
3    b
5    c
dtype: object

In [13]:
data[1]    # 取值操作是显式索引

'a'

In [14]:
data[1:3]  # 切片操作是隐式索引

3    b
5    c
dtype: object

由于整数索引很容易造成混淆，所以 `Pandas` 提供了一些索引器（indexer）属性来作为取值的方法。  
它们不是 `Series` 对象的函数方法，而是暴露切片接口的属性。

#### 第一种索引器是 loc 属性，表示取值和切片都是显式的：

In [15]:
data.loc[1]

'a'

In [16]:
data.loc[1:3]

1    a
3    b
dtype: object

#### 第二种是 iloc 属性，表示取值和切片都是 Python 形式的隐式索引：

In [17]:
data.iloc[1]

'b'

In [18]:
data.iloc[1:3]

3    b
5    c
dtype: object

#### 第三种取值属性是 ix，它是前两种索引器的混合形式：

在 `Series` 对象中 `ix` 等价于标准的 `[]（Python 列表）` 取值方式。  
`ix` 索引器主要用于 `DataFrame` 对象，后面将会介绍。

`Python` 代码的设计原则之一是“显式优于隐式”。使用 `loc` 和 `iloc` 可以让代码更容易维护，可读性更高。  
特别是在处理整数索引的对象时，我强烈推荐使用这两种索引器。它们既可以让代码阅读和理解起来更容易，也能避免因误用索引 \/ 切片而产生的小 bug。

## 2. DataFrame数据选择方法

`DataFrame` 在有些方面像二维或结构化数组，在有些方面又像一个共享索引的若干 `Series` 对象构成的字典。  
这两种类比可以帮助我们更好地掌握这种数据结构的数据选择方法。

### 2.1. 将DataFrame看做字典

第一种类比是把 `DataFrame` 当作一个由若干 `Series` 对象构成的字典。

In [19]:
area = pd.Series({'California': 423967, 'Texas': 695662, 'New York': 141297, 'Florida': 170312, 'Illinois': 149995})
pop = pd.Series({'California': 38332521, 'Texas': 26448193, 'New York': 19651127, 'Florida': 19552860, 'Illinois': 12882135})
data = pd.DataFrame({'area':area, 'pop':pop})
data

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127
Florida,170312,19552860
Illinois,149995,12882135


In [20]:
data['area']  # 通过对列名进行字典形式（dictionary-style）的取值获取数据

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

In [21]:
data.area  # 用属性形式（attribute-style）选择纯字符串列名的数据

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

In [22]:
data.area is data['area']  # 对同一个对象进行属性形式与字典形式的列数据，结果是相同的

True

In [23]:
data.pop is data['pop']

False

In [24]:
data['density'] = data['pop'] / data['area']
data

Unnamed: 0,area,pop,density
California,423967,38332521,90.413926
Texas,695662,26448193,38.01874
New York,141297,19651127,139.076746
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763


### 2.2. 将DataFrame看做二维数组

可以把 `DataFrame` 看成是一个增强版的二维数组，用 `values` 属性按行查看数组数据。

In [25]:
data.values

array([[4.23967000e+05, 3.83325210e+07, 9.04139261e+01],
       [6.95662000e+05, 2.64481930e+07, 3.80187404e+01],
       [1.41297000e+05, 1.96511270e+07, 1.39076746e+02],
       [1.70312000e+05, 1.95528600e+07, 1.14806121e+02],
       [1.49995000e+05, 1.28821350e+07, 8.58837628e+01]])

In [26]:
data.T  # 可以对 DataFrame 进行行列转置

Unnamed: 0,California,Texas,New York,Florida,Illinois
area,423967.0,695662.0,141297.0,170312.0,149995.0
pop,38332520.0,26448190.0,19651130.0,19552860.0,12882140.0
density,90.41393,38.01874,139.0767,114.8061,85.88376


In [27]:
data.values[0]  # 获取 DataFrame 的一行，用数组索引

array([4.23967000e+05, 3.83325210e+07, 9.04139261e+01])

In [28]:
data['area']    # 获取 DataFrame 的一列，用列标签

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

In [29]:
data.iloc[:3, :2]

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127


In [30]:
data.loc[:'Illinois', :'pop']

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127
Florida,170312,19552860
Illinois,149995,12882135


In [31]:
# data.ix[:3, :'pop']  # 使用 ix 索引器可以实现一种混合效果
# ix 索引器容易产生混淆，已经在1.0.0版本被废弃，可以使用 loc 或 iloc 替代

In [32]:
data.loc[data.density>100, ['pop', 'density']]  # 任何用于处理 NumPy 形式数据的方法都可以用于这些索引器

Unnamed: 0,pop,density
New York,19651127,139.076746
Florida,19552860,114.806121


In [33]:
data.iloc[0, 2] = 90  # 任何一种取值方法都可以用于调整数据，这一点和 NumPy 的常用方法是相同的
data

Unnamed: 0,area,pop,density
California,423967,38332521,90.0
Texas,695662,26448193,38.01874
New York,141297,19651127,139.076746
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763


### 2.3. 其他取值方法

In [34]:
data['Florida':'Illinois']  # 如果对单个标签取值就选择列，而对多个标签用切片就选择行

Unnamed: 0,area,pop,density
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763


In [35]:
data[1:3]  # 切片也可以不用索引值，而直接用行数来实现

Unnamed: 0,area,pop,density
Texas,695662,26448193,38.01874
New York,141297,19651127,139.076746


In [36]:
data[data.density > 100]  # 掩码操作也可以直接对每一行进行过滤，而不需要使用 loc 索引器

Unnamed: 0,area,pop,density
New York,141297,19651127,139.076746
Florida,170312,19552860,114.806121
