# 数据选取

Pandas 提供`Series`与`DataFrame`结构类型来住址管理一个有序、可变、可重复、有映射的数据集。对于一个数据集，经常要做的事就是从中选取数据。`DataFrame`是一个表格式结构（如下图所示），意味着会有如下数据选择：
- 选择指定行与列的数据，如红框所示；
- 选择某列中的数据，如黄框所示 ；
- 选择某行中的数据，如绿框所示 ；
- 选择指定行列范围中的数据，如蓝框所示 ；

![数据选取](../images/pandas_table_select.png)

与 Numpy 数组相比，`Series`与`DataFrame`中的数据有序，有映射。可以像数组那样使用整数索引来选取，还能够使用行列标签（有时也称为索引）来选择数据。Pandas 提供了如下方法来选取数据：
- `df[col]`：返回指定列
- `df[[col1, col2]]`：返回指定多列
- `s.loc['index_one']`：按索引选取数据
- `s.iloc[0]`：按位置选取数据
- `df.iloc[0,:]`：返回第1行
- `df.iloc[0,0]`：返回第1列的第1个元素

本节介绍如何从`Series`与`DataFrame`对象中选取数据。

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline

## `Series`对象

Numpy 数组用于同质、有序、无映射的数据集。可以使用整数位置、索引数组、布尔数组来访问其中数据。与数组对象相比，`Series` 对象是有映射的，也就是可以使用标签来访问 `Series` 对象的元素。下面创建几个`Series`对象：

In [None]:
from datetime import datetime

# 索引: RangeIndex
s0 = pd.Series([60, 70, 65, 100, 230, 150, 100, 300, 250, 150])

# 索引: 整数序列
times = np.array([6, 7, 8, 11, 12, 13, 18, 19, 20, 21])
s1 = pd.Series([60, 70, 65, 100, 230, 150, 100, 300, 250, 150], index=times)

# 索引: 字符串序列
times = ['6h', '7h', '8h', '11h', '12h', '13h', '18h', '19h', '20h', '21h']
s2 = pd.Series([60, 70, 65, 100, 230, 150, 100, 300, 250, 150], index=times)

# 索引: 日期索引
times = [datetime(2018, 10, 10, 6), datetime(2018, 10, 10, 7), 
         datetime(2018, 10, 10, 8), datetime(2018, 10, 10, 11), 
         datetime(2018, 10, 10, 12), datetime(2018, 10, 10, 13), 
         datetime(2018, 10, 10, 18), datetime(2018, 10, 10, 19), 
         datetime(2018, 10, 10, 20), datetime(2018, 10, 10, 21)]
s3 = pd.Series([60, 70, 65, 100, 230, 150, 100, 300, 250, 150], index=times)

### 使用标签选取数据

`Series`对象可是使用标签来选取数据，使用 `s[idx]` 来访问数据，返回的是单个数据：

In [None]:
# 访问单个数据
s0[0], s1[6], s2['6h'], s3['2018-10-10 06']

对于日期索引，访问单个数据可以是使用日期的字符串形式，会自动进行转化。

### 索引数组

使用标签组成的数组，即索引数组（标签数组），可以访问多个数据，返回的是一个序列对象：

In [None]:
# 访问多个数据
s0[[0, 1, 2]], s1[[6, 11, 18]], s2[['6h', '7h', '18h']]

对于日期索引，此时就需要使用日期组成的索引数组：

In [None]:
idx = [datetime(2018, 10, 10, 6), datetime(2018, 10, 10, 7), datetime(2018, 10, 10, 8)]
s3[idx]

### 布尔数组

与数组对象一样，`Series`对象可以使用布尔数组来选取数组，让人返回一个`Serirs`对象：

In [None]:
s0[s0 > 200]

In [None]:
s1[s1.index > 13]

In [None]:
s3[s3.index > '2018-10-10 12']

### 使用`iloc`运算符选取数据

`Series`对象的数据是有序的，因此可以使用第1个数据，或倒数第1个数据，或者切片的方式来选取数据。例如对于变量`s3`，可以直接使用整数位置来选取数据：

In [None]:
s3[0], s3[-1]

不过，这里有一个问题，当序列对象的序列是整数，就会出现不确定性。对于此种情况，Pandas 会以索引进行选择。当给出的整数值不在索引时，就会抛出异常。例如，下面语句想选取最后一个数据：

In [None]:
for i, s in enumerate([s0, s1, s2, s3]):
    try:
        s[-1]
    except KeyError:
        print('s{} has KeyError'.format(i))

对于这种情况，Pandas 创建了特殊运算符，即整数索引符号`iloc`来选取数据： 

In [None]:
s0.iloc[-1], s1.iloc[0], s2.iloc[2], s3.iloc[3]

使用`iloc`运算符，可以使用类似切片的方法：

In [None]:
s0.iloc[2:3], s1.iloc[::3]

### 使用`loc`运算符选取数据

Pandas 还创建了`loc`运算符，用于基于标签的索引：

In [None]:
# 访问多个数据
s0.loc[[0, 1, 2]], s1.loc[[6, 11, 18]], s2.loc[['6h', '7h', '18h']]

In [None]:
# 访问多个数据
s3.loc[s3.index > '2018-10-10 12']

##  `DataFrame`对象

与 `Series` 对象类似，差别在于`DataFrame`对象用于表格式数据集，多了列索引（标签）。下面创建 `DataFrame`对象，用于选取数据：

In [None]:
from datetime import datetime

# 时间
times = [datetime(2018, 10, 10, 6), datetime(2018, 10, 10, 7), 
         datetime(2018, 10, 10, 8), datetime(2018, 10, 10, 11), 
         datetime(2018, 10, 10, 12), datetime(2018, 10, 10, 13), 
         datetime(2018, 10, 10, 18), datetime(2018, 10, 10, 19), 
         datetime(2018, 10, 10, 20), datetime(2018, 10, 10, 21)]
# 餐时标识，顾客人数、平均消费、总消费
meals = np.array(['B', 'B', 'B', 'L', 'L', 'L', 'D', 'D', 'D', ''])
customers = np.array([60, 70, 65, 100, 230, 150, 100, 300, np.nan, 300])
costs = np.array([6.5, 7, 8, 24, 23, 26, 45, 55.5, 45, np.nan])
total_costs = customers * costs

# 创建DataFrame对象
data = {'meals': meals, 'customers': customers, 'costs': costs, 'total_costs': total_costs}
df = pd.DataFrame(data, index=times)

In [None]:
df.info()

下面介绍：
- 如何选取列
- 如何选取行
- 如何选取单个标量
- 如何选取多行多列

### 选取列数据

可以使用标签选取列：

In [None]:
# 选取单个列，返回Series对象
df['costs']

单独选取一列时，还可以使用`.`运算符：

In [None]:
df.costs

In [None]:
# 选取多列，返回DataFrame对象
df[['customers', 'costs']]

### 选取行数据

使用 `loc` 运算符，传入 `DataFrame` 行标签来选择指定行数据：

In [None]:
# 使用`loc`运算符，传入行标签，返回序列对象
df.loc['2018-10-10 08']

使用 `iloc` 运算符，传入行的整数位置来选择指定行数据：

In [None]:
# 传入整数位置，返回序列对象
df.iloc[-2]

使用布尔数组来选择多行数据：

In [None]:
df[df['customers'] > 250]

可以使用切片方式来选择多行数据：

In [None]:
# 使用切片方式选择多行数据
df.iloc[0:3]

### 选择单个标量

通过列标签来选取列（Series对象），再指定列标签前来选择单个标量数据：

In [None]:
df['costs']['2018-10-10 07']

使用`loc`与`iloc`运算符更为方便，须注意前面为行，后面为列：

In [None]:
# loc运算符 
df.loc['2018-10-10 07', 'costs']

In [None]:
# iloc运算符 
df.iloc[0, -1]

除了使用`loc`, `iloc`运算符外，Pandas还提供了 `at` 与 `iat` 运算符，专门用于选取单个数据。`at`运算符基于行列标签，`iat`基于行列整数位置：

In [None]:
# at运算符 
df.at[datetime(2018, 10, 10, 7), 'costs']

In [None]:
# iat运算符 
df.iat[0, -1]

### 选择多行与多列（`M*N`）

使用`loc`运算符来选择多行与多列，前为行后为列，可以使用标签，也可使用布尔数：

In [None]:
idx = [datetime(2018, 10, 10, 6), datetime(2018, 10, 10, 7), datetime(2018, 10, 10, 8)]
df.loc[idx, ['customers', 'costs']]

In [None]:
conds = df.index > '2018-10-10 12' 
df.loc[conds, ['customers', 'costs']]

使用`iloc`运算符来选择多行与多列，前为行后为列：

In [None]:
# 使用位置数组
df.iloc[[0, 3, 6], [0, 1, 3]]

In [None]:
# 使用切片
df.iloc[::2, ::2]

## 其它选取方法

`DataFrame`对象提供有`select_dtypes()`方法，通过列的数据类型选择数据，其使用语法为：
```python
df.select_dtypes(include=None, exclude=None)
```
参数说明：
- `include`，包括数据类型
- `exclude`，排除数据类型

例如，只选择数据类型为`object`的列：

In [None]:
df.select_dtypes(include=['object'])

`DataFrame`对象提供有`filter()`方法，通过匹配行列名称来选择某些行或者某些列，其使用语法为：
```python
df.filter(items=None, like=None, regex=None, axis=None)
```
参数说明：
- `items`, `like`,  `regex` 互斥，只能3选1
- `items`：具体索引名称列表
- `like`：匹配包含like字符串的索引名称
- `regex`：匹配符合正则表达式的索引名称
- `axis`：0 表示匹配行，1表示匹配列

In [None]:
df.filter(like='c')

In [None]:
df.filter(regex='co.*')

## 小结

Pandas 的 `Series` 与 `DataFrame` 用于有序、有映射的数据集，故而可以使用标签（索引）或整数位置来选取数据。`DataFrame`对象有包括行列标签，使得数据选择灵活多变，有时也显得有些困难。只要根据选取目标即选取哪些数据，再加上选取方法（标签亦或整数），即可按图索骥，获得自己想要的数据。