# 6 数组排序搜索

NumPy中提供了各种排序相关功能。 这些排序函数实现不同的排序算法，每个排序算法的特征在于执行速度，最坏情况性能，所需的工作空间和算法的稳定性。 下表显示了三种排序算法的比较。

种类

    种类	                速度	    最坏情况	工作空间	稳定性
    'quicksort'（快速排序）	1	   O(n^2)	     0	      否
    'mergesort'（归并排序）	2	   O(n*log(n))	 ~n/2	  是
    'heapsort' （堆排序）	  3	   O(n*log(n))	0	      否

## 6.2 sort 函数

sort()函数返回输入数组的排序副本。 它有以下参数：

numpy.sort(a, axis, kind, order)

其中：

    序号	参数及描述
    1.	a 要排序的数组
    2.	axis 沿着它排序数组的轴，如果没有数组会被展开，沿着最后的轴排序
    3.	kind 默认为'quicksort'（快速排序）
    4.	order 如果数组包含字段，则是要排序的字段

先看这个例子：

In [1]:
%pylab

Using matplotlib backend: Qt5Agg
Populating the interactive namespace from numpy and matplotlib


In [2]:
names = array(['bob', 'sue', 'jan', 'ad'])
weights = array([20.8, 93.2, 53.4, 61.8])

sort(weights)

array([ 20.8,  53.4,  61.8,  93.2])

`sort` 返回的结果是从小到大排列的。

## 6.3 argsort 函数

`argsort` 返回从小到大的排列在数组中的索引位置：

这个索引数组用于构造排序后的数组

In [5]:
ordered_indices = argsort(weights)
ordered_indices

array([0, 2, 3, 1], dtype=int64)

可以用它来进行索引：

In [6]:
weights[ordered_indices]

array([ 20.8,  53.4,  61.8,  93.2])

In [7]:
names[ordered_indices]

array(['bob', 'jan', 'ad', 'sue'],
      dtype='<U3')

使用函数并不会改变原来数组的值：

In [8]:
weights

array([ 20.8,  93.2,  53.4,  61.8])

## 6.4 sort 和 argsort 方法

数组也支持方法操作：

In [9]:
data = array([20.8,  93.2,  53.4,  61.8])
data.argsort()

array([0, 2, 3, 1], dtype=int64)

`argsort` 方法与 `argsort` 函数的使用没什么区别，也不会改变数组的值。

In [8]:
data

array([ 20.8,  93.2,  53.4,  61.8])

但是 `sort`方法会改变数组的值：

In [10]:
data.sort()

In [11]:
data

array([ 20.8,  53.4,  61.8,  93.2])

## 6.5 二维数组排序

对于多维数组，sort方法默认沿着最后一维开始排序：

In [12]:
a = array([
        [.2, .1, .5], 
        [.4, .8, .3],
        [.9, .6, .7]
    ])
a

array([[ 0.2,  0.1,  0.5],
       [ 0.4,  0.8,  0.3],
       [ 0.9,  0.6,  0.7]])

对于二维数组，默认相当于对每一行进行排序：

In [13]:
sort(a)

array([[ 0.1,  0.2,  0.5],
       [ 0.3,  0.4,  0.8],
       [ 0.6,  0.7,  0.9]])

改变轴，对每一列进行排序：（第一维）

In [15]:
sort(a, axis = 0)

array([[ 0.2,  0.1,  0.3],
       [ 0.4,  0.6,  0.5],
       [ 0.9,  0.8,  0.7]])

## 6.6 searchsorted 函数

    searchsorted(sorted_array, values)

`searchsorted` 接受两个参数，其中，第一个必需是已排序的数组。

In [17]:
sorted_array = linspace(0,1,5)  # 在指定的间隔内返回均匀间隔的数字
values = array([.1,.8,.3,.12,.5,.25])

In [18]:
searchsorted(sorted_array, values)

array([1, 4, 2, 1, 2, 1], dtype=int64)

排序数组：

|0|1|2|3|4|
|-|-|-|-|-|
|0.0|0.25|0.5|0.75|1.0

数值：

|值|0.1|0.8|0.3|0.12|0.5|0.25|
|-|-|-|-|-|-|-|
|插入位置|1|4|2|1|2|1|

`searchsorted` 返回的值相当于保持第一个数组的排序性质不变，将第二个数组中的值插入第一个数组中的位置：

例如 `0.1` 在 [0.0, 0.25) 之间，所以插入时应当放在第一个数组的索引 `1` 处，故第一个返回值为 `1`。

In [19]:
from numpy.random import rand
data = rand(100)
data.sort()

不加括号，默认是元组：

In [20]:
bounds = .4, .6
bounds

(0.4, 0.6)

返回这两个值对应的插入位置：

In [21]:
low_idx, high_idx = searchsorted(data, bounds)

利用插入位置，将数组中所有在这两个值之间的值提取出来：

In [19]:
data[low_idx:high_idx]

array([ 0.41122674,  0.4395727 ,  0.45609773,  0.45707137,  0.45772076,
        0.46029997,  0.46757401,  0.47525517,  0.4969198 ,  0.53068779,
        0.55764166,  0.56288568,  0.56506548,  0.57003042,  0.58035233,
        0.59279233,  0.59548555])

## 6.7 numpy.nonzero()

函数返回输入数组中非零元素的索引

In [12]:
a = np.array([[30,40,0],[0,20,10],[50,0,60]])  
print('我们的数组是：')
print(a)
print('\n')  
print('调用 nonzero() 函数：')
print(np.nonzero(a))

我们的数组是：
[[30 40  0]
 [ 0 20 10]
 [50  0 60]]


调用 nonzero() 函数：
(array([0, 0, 1, 1, 2, 2], dtype=int64), array([0, 1, 1, 2, 0, 2], dtype=int64))


## 6.9 numpy.where()

where()函数返回输入数组中满足给定条件的元素的索引。

In [27]:
import numpy as np 
x = np.arange(9.).reshape(3,  3)  
print('我们的数组是：')
print(x)
print('大于 3 的元素的索引：')
y = np.where(x >  3)  
print(y)
print('使用这些索引来获取满足条件的元素：')
print(x[y])

我们的数组是：
[[ 0.  1.  2.]
 [ 3.  4.  5.]
 [ 6.  7.  8.]]
大于 3 的元素的索引：
(array([1, 1, 2, 2, 2], dtype=int64), array([1, 2, 0, 1, 2], dtype=int64))
使用这些索引来获取满足条件的元素：
[ 4.  5.  6.  7.  8.]


## 6.10 numpy.extract()

extract()函数返回满足任何条件的元素。

In [28]:
import numpy as np 
x = np.arange(9.).reshape(3,  3)  
print('我们的数组是：')
print(x)
# 定义条件 
condition = (np.mod(x,2)  ==  0)
print('按元素的条件值：')
print(condition) 
print('使用条件提取元素：')
print(np.extract(condition, x))

我们的数组是：
[[ 0.  1.  2.]
 [ 3.  4.  5.]
 [ 6.  7.  8.]]
按元素的条件值：
[[ True False  True]
 [False  True False]
 [ True False  True]]
使用条件提取元素：
[ 0.  2.  4.  6.  8.]
