<center><h1>第三章 索引</h1></center>

In [1]:
import numpy as np
import pandas as pd

## 一、索引器
### 1. 表的列索引
列索引是最常见的索引形式，一般通过`[]`来实现。通过`[列名]`可以从`DataFrame`中取出相应的列，返回值为`Series`，例如从表中取出姓名一列：

In [3]:
df = pd.read_csv('data/learn_pandas.csv', usecols = ['School', 'Grade', 'Name', 'Gender', 'Weight', 'Transfer'])
df['Name'].head()

0      Gaopeng Yang
1    Changqiang You
2           Mei Sun
3      Xiaojuan Sun
4       Gaojuan You
Name: Name, dtype: object

如果要取出多个列，则可以通过`[列名组成的列表]`，其返回值为一个`DataFrame`，例如从表中取出性别和姓名两列：

In [4]:
df[['Gender', 'Name']].head()

Unnamed: 0,Gender,Name
0,Female,Gaopeng Yang
1,Male,Changqiang You
2,Male,Mei Sun
3,Female,Xiaojuan Sun
4,Male,Gaojuan You


此外，若要取出单列，且列名中不包含空格，则可以用`.列名`取出，这和`[列名]`是等价的：

In [5]:
df.Name.head()

0      Gaopeng Yang
1    Changqiang You
2           Mei Sun
3      Xiaojuan Sun
4       Gaojuan You
Name: Name, dtype: object

### 2. 序列的行索引

【a】以字符串为索引的`Series`

如果取出单个索引的对应元素，则可以使用`[item]`，若`Series`只有单个值对应，则返回这个标量值，如果有多个值对应，则返回一个`Series`：

In [6]:
s = pd.Series([1, 2, 3, 4, 5, 6], index=['a', 'b', 'a', 'a', 'a', 'c'])
s['a']

a    1
a    3
a    4
a    5
dtype: int64

In [7]:
s['a']

a    1
a    3
a    4
a    5
dtype: int64

如果取出多个索引的对应元素，则可以使用`[items的列表]`：

In [8]:
s[['c', 'b']]

c    6
b    2
dtype: int64

如果想要取出某两个索引之间的元素，并且这两个索引是在整个索引中唯一出现，则可以使用切片,，同时需要注意这里的切片会包含两个端点：

In [9]:
s['c':'b':-2]

c    6
a    4
b    2
dtype: int64

In [10]:
s['c':'b':2]

Series([], dtype: int64)

In [11]:
s['b':'c':2]

b    2
a    4
c    6
dtype: int64

In [13]:
s[::-1]

c    6
a    5
a    4
a    3
b    2
a    1
dtype: int64

【b】以整数为索引的`Series`

在使用数据的读入函数时，如果不特别指定所对应的列作为索引，那么会生成从0开始的整数索引作为默认索引。当然，任意一组符合长度要求的整数都可以作为索引。

和字符串一样，如果使用`[int]`或`[int_list]`，则可以取出对应索引**元素**的值：

In [14]:
s = pd.Series(['a', 'b', 'c', 'd', 'e', 'f'], index=[1, 3, 1, 2, 5, 4])
s[1]

1    a
1    c
dtype: object

In [15]:
s[[2,3]]

2    d
3    b
dtype: object

如果使用整数切片，则会取出对应索引**位置**的值，注意这里的整数切片同`Python`中的切片一样不包含右端点：

In [16]:
s[1:-1:2]

3    b
2    d
dtype: object

In [17]:
s[1:-1:1]

3    b
1    c
2    d
5    e
dtype: object

#### 【WARNING】关于索引类型的说明

如果不想陷入麻烦，那么请不要把纯浮点以及任何混合类型（字符串、整数、浮点类型等的混合）作为索引，否则可能会在具体的操作时报错或者返回非预期的结果，并且在实际的数据分析中也不存在这样做的动机。

#### 【END】

### 3. loc索引器

前面讲到了对`DataFrame`的列进行选取，下面要讨论其行的选取。对于表而言，有两种索引器，一种是基于**元素**的`loc`索引器，另一种是基于**位置**的`iloc`索引器。

`loc`索引器的一般形式是`loc[*, *]`，其中第一个`*`代表行的选择，第二个`*`代表列的选择，如果省略第二个位置写作`loc[*]`，这个`*`是指行的筛选。其中，`*`的位置一共有五类合法对象，分别是：单个元素、元素列表、元素切片、布尔列表以及函数，下面将依次说明。

为了演示相应操作，先利用`set_index`方法把`Name`列设为索引，关于该函数的其他用法将在多级索引一章介绍。