# 数据排序

In [None]:
import pandas as pd

很多时候需要对数据集中的数据进行排序操作，按照递增/递减的方式将数据依据某个条件进行排序。

## 排序

### `sort_index()`

In [None]:
df = pd.read_csv('data/sales.csv')
df

`sort_index()`用于按**索引**进行排序。

`sort_index(axis=0, level=None, ascending=True, inplace=False, kind='quicksort', na_position='last', sort_remaining=True, ignore_index=False, key=None)`

| 参数 | 说明 |
| --- | --- |
| axis | `0`表示行索引，`1`表示列索引 |
| ascending | `True`表示升序，`False`表示降序 |

In [None]:
df.sort_index(axis=0, ascending=False)

In [None]:
df.sort_index(axis=1, ascending=True)

【例】将`students.csv`中的数据根据行序号逆序排序

In [None]:
df = pd.read_csv('data/students.csv')
df

In [None]:
df.sort_index(axis=0, ascending=False)

### `sort_values()`

In [None]:
df = pd.read_csv('data/sales.csv')
df

`sort_values()`用于进行**数据值**的排序。

`sort_values(by, axis=0, ascending=True, inplace=False, kind='quicksort', na_position='last', ignore_index=False, key=None)`

| 参数 | 说明 |
| --- | --- |
| by | 指定列或行 |
| axis | `0`表示行索引，`1`表示列索引 |
| ascending | `True`表示升序，`False`表示降序 |
| na_position | 缺失值显示的位置，有`first`和`last`（默认） |

In [None]:
df.sort_values(by='Total', ascending=False)

In [None]:
df.sort_values(by=['Number', 'Price'])

【例】将`students.csv`中的数据根据`年龄`升序排序，如果`年龄`相同，再根据`成绩`升序排序

In [None]:
df = pd.read_csv('data/students.csv')
df

In [None]:
df.sort_values(by=['年龄', '成绩'])

## 排名

### `rank()`

In [None]:
df = pd.read_csv('data/sales.csv')
df

排名可在排序基础上进一步给出**名次**，排名时可以定义等值数据的处理方式，如并列取值可取名次的最小值/最大值/均值。

`rank(axis=0, method='average', numeric_only=None, na_option='keep', ascending=True, pct=False)`

| 参数 | 说明 |
| --- | --- |
| axis | `0`表示行索引，`1`表示列索引 |
| method | 平级排序的方式 |

`method`参数有4个取值：

- `average`：取平均排名
- `min`：使用最小排名
- `max`：使用最大排名
- `first`：按在原始数据中的出现顺序排名

In [None]:
df['Number'].rank(method='min')

In [None]:
df['Number'].rank(method='max')

【例】为`students.csv`中的数据添加一列`排名`

提示：`astype()`可以修改数据类型

In [None]:
df = pd.read_csv('data/students.csv')
df

In [None]:
df['排名'] = df['成绩'].rank(method='min', ascending=False).astype(int)
df