# 从pandas官方文档中学习

    https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.sort_values.html?highlight=sort_value

## 如果想要按照某一列的值进行排序，那么可以使用sort_values()方法，它接受一个或多个列名作为参数

In [1]:
import pandas as pd
import numpy as np

In [2]:
df = pd.DataFrame({
    'col1': ['A', 'A', 'B', np.nan, 'D', 'C'],
    'col2': [2, 1, 9, 8, 7, 4],
    'col3': [0, 1, 9, 4, 2, 3],
    'col4': ['a', 'B', 'c', 'D', 'e', 'F']
})

In [3]:
df

Unnamed: 0,col1,col2,col3,col4
0,A,2,0,a
1,A,1,1,B
2,B,9,9,c
3,,8,4,D
4,D,7,2,e
5,C,4,3,F


### 如果想按照第一列排序

In [4]:
df.sort_values(by=['col1'])

Unnamed: 0,col1,col2,col3,col4
0,A,2,0,a
1,A,1,1,B
2,B,9,9,c
5,C,4,3,F
4,D,7,2,e
3,,8,4,D


### 如果想让index重排可以使用ignore_index参数

In [5]:
df.sort_values(by=['col1'], ignore_index=True)

Unnamed: 0,col1,col2,col3,col4
0,A,2,0,a
1,A,1,1,B
2,B,9,9,c
3,C,4,3,F
4,D,7,2,e
5,,8,4,D


### 如果想先按照第一列排序，再按照第二列排序

In [6]:
df.sort_values(by=['col1', 'col2'])

Unnamed: 0,col1,col2,col3,col4
1,A,1,1,B
0,A,2,0,a
2,B,9,9,c
5,C,4,3,F
4,D,7,2,e
3,,8,4,D


### 如果打算降序排列

In [7]:
df.sort_values(by='col1', ascending=False)

Unnamed: 0,col1,col2,col3,col4
4,D,7,2,e
5,C,4,3,F
2,B,9,9,c
0,A,2,0,a
1,A,1,1,B
3,,8,4,D


### 如果想把NaN放在第一位

In [8]:
df.sort_values(by='col1', ascending=True, na_position='first')

Unnamed: 0,col1,col2,col3,col4
3,,8,4,D
0,A,2,0,a
1,A,1,1,B
2,B,9,9,c
5,C,4,3,F
4,D,7,2,e


## 这里介绍一个非常有用的参数key，这个参数可以使一列数据按照自定义的方式排序

### 对比官方文档提供的例子观察两种排序的不同

In [9]:
df.sort_values(by='col4')

Unnamed: 0,col1,col2,col3,col4
1,A,1,1,B
3,,8,4,D
5,C,4,3,F
0,A,2,0,a
2,B,9,9,c
4,D,7,2,e


In [10]:
df.sort_values(by='col4', key=lambda col: col.str.lower())

Unnamed: 0,col1,col2,col3,col4
0,A,2,0,a
1,A,1,1,B
2,B,9,9,c
3,,8,4,D
4,D,7,2,e
5,C,4,3,F


### 可以发现，排序时是按照key参数输入的匿名函数的输出来排序的，实际看一下这个匿名函数的输出是什么

In [11]:
df['col4'].str.lower()

0    a
1    b
2    c
3    d
4    e
5    f
Name: col4, dtype: object

In [12]:
type(df['col4'].str.lower())

pandas.core.series.Series

### 可以看到输出了一个经过str.lower处理的Series类型的单列表格

### 因此，可以利用这个机制进行较为复杂的排序，例如

In [13]:
DF = pd.DataFrame({
    'col1': ['num_1','num_2','num_11','num_12','num_22','num_23'],
    'col2': [2, 1, 9, 8, 7, 4],
    'col3': [0, 1, 9, 4, 2, 3],
    'col4': ['a', 'B', 'c', 'D', 'e', 'F']
})

In [14]:
DF 

Unnamed: 0,col1,col2,col3,col4
0,num_1,2,0,a
1,num_2,1,1,B
2,num_11,9,9,c
3,num_12,8,4,D
4,num_22,7,2,e
5,num_23,4,3,F


### 如果直接对‘col1’排序，会按照字符串排序的方式进行排序

In [15]:
DF.sort_values(by='col1')

Unnamed: 0,col1,col2,col3,col4
0,num_1,2,0,a
2,num_11,9,9,c
3,num_12,8,4,D
1,num_2,1,1,B
4,num_22,7,2,e
5,num_23,4,3,F


### 如果想要按照num_* 中* 对应的数字大小进行排序，可以进行如下操作

In [16]:
def key_(num: pd.Series):
    num_list = []
    for i in num:
        sub_list = i.split('_')
        num_list.append(int(sub_list[1]))
    return pd.Series(num_list)

In [17]:
DF.sort_values(by='col1', ignore_index=True, key= lambda num: key_(num))

Unnamed: 0,col1,col2,col3,col4
0,num_1,2,0,a
1,num_2,1,1,B
2,num_11,9,9,c
3,num_12,8,4,D
4,num_22,7,2,e
5,num_23,4,3,F


### key= lambda num: key_(num) 的可以拆解为如下含义：
    lambda匿名函数把sort_values函数的by参数调用的列作为key_()函数的输入
    最终key_()函数的输出作为sort_values函数的key参数输入到sort_values函数内
    然后按照key_()函数的输出结果进行排序
    key_()的输出是一个Series

In [18]:
key_(DF['col1'])

0     1
1     2
2    11
3    12
4    22
5    23
dtype: int64

In [19]:
type(key_(DF['col1']))

pandas.core.series.Series