Сортировка — центральный элемент более сложных приложений, таких как коммерческие расчеты, планирование процессов в операционных системах (очереди по приоритету) и поисковые алгоритмы. К счастью, библиотека NumPy предоставляет самые разнообразные алгоритмы сортировки. По умолчанию используется популярный алгоритм быстрой сортировки.  Однако в следующем примере мы будем придерживаться более высокоуровневого подхода и рассматривать функцию сортировки как «черный ящик», на входе которого — массив NumPy, а на выходе — все он же, но уже отсортированный.

Но зачастую бывает необходимо получить массив индексов, преобразующий неупорядоченный массив в отсортированный. Например, пусть индекс элемента 1 неупорядоченного массива — 7. Поскольку элемент 1 — первый элемент отсортированного массива, его индекс 7 будет первым элементом индексов отсортированного массива. Именно для этого и служит функция argsort(): она создает новый массив индексов исходного массива после сортировки. Попросту говоря, этими индексами можно
воспользоваться для сортировки элементов исходного массива. С помощью данного массива можно восстановить как отсортированный, так и исходный массив.

In [1]:
import numpy as np 
a = np.array([10, 6, 8, 2, 5, 4, 9, 1])
print(np.sort(a))

[ 1  2  4  5  6  8  9 10]


In [2]:
print(np.argsort(a))

[7 3 5 4 1 2 6 0]


Функция sort() библиотеки NumPy отличается от функции sorted() языка Python тем, что может сортировать и многомерные массивы!
У данного массива — две оси координат: ось 0 (строки) и ось 1 (столбцы). Сортировать можно либо по оси 0 (так называемая вертикальная сортировка), либо по оси 1 (так называемая горизонтальная сортировка). Вообще говоря, ключевое слово axis задает направление, по которому происходит операция NumPy.

In [3]:
import numpy as np 

a = np.array([[1, 6, 2], 
              [5, 1, 1], 
              [8, 0, 1]])

print(np.sort(a, axis=0))

[[1 0 1]
 [5 1 1]
 [8 6 2]]


In [4]:
print(np.sort(a, axis=1))

[[1 2 6]
 [1 1 5]
 [0 1 8]]


Следующий пример выясняет имена трех абитуриентов с самыми высокими оценками SAT. Обратите внимание, что нам нужны имена абитуриентов, а не отсортированные оценки SAT.

In [18]:
import numpy as np
## Данные: оценки за экзамен SAT для различных абитуриентов
sat_scores = np.array([1100, 1256, 1543, 1043, 989, 1412, 1343])
students = np.array(["John", "Bob", "Alice", "Joe", "Jane", "Frank", "Carl"])

top_3 = students[np.argsort(sat_scores)]
print(top_3[-3::]) # выведи три персонажа от начала в конец

['Carl' 'Frank' 'Alice']


In [13]:
top_3 = students[np.argsort(sat_scores)][:-4:-1]
print(top_3)

['Alice' 'Frank' 'Carl']


Наши исходные данные состоят из оценок SAT абитуриентов в виде одномерного массива данных и еще одного массива с соответствующими именами абитуриентов. Например, Джон набрал на этом экзамене вполне приличную оценку в 1100, а Фрэнк показал великолепный результат — 1412.
Наша задача — выяснить имена трех лучших абитуриентов. Для этого мы не просто отсортировали оценки SAT, а воспользовались функцией argsort(), чтобы получить массив с исходными индексами в новых, отсортированных позициях.
Вот результаты работы функции argsort() для оценок SAT:

In [19]:
print(np.argsort(sat_scores))

[4 3 0 1 6 5 2]


Индексы необходимо сохранить, чтобы узнать имена абитуриентов из массива students, соответствующие исходным позициям в массиве. На первой позиции результата находится индекс 4, поскольку у Джейн самая низкая оценка SAT, равная 989 баллам. Обратите внимание, что и sort(), и argsort() сортируют в порядке возрастания, от самых низких значений к самым высоким.

Получив отсортированные индексы, можно узнать имена соответствующих абитуриентов с помощью доступа по индексу к массиву students:

In [20]:
print(students[np.argsort(sat_scores)])

['Jane' 'Joe' 'John' 'Bob' 'Carl' 'Frank' 'Alice']


Возможность библиотеки NumPy переупорядочивать последовательность с помощью расширенного доступа по индексу очень удобна. Если указать последовательность индексов, то NumPy запускает расширенный доступ по индексу и возвращает новый массив NumPy с элементами, переупорядоченными так, как указано в этой последовательности. Например, результат вычисления команды students[np.argsort(sat_scores)] равен students[[4 3 0 1 6 5 2]], вследствие чего NumPy создает следующий новый массив:
[students[4] students[3] students[0] students[1] students[6] students[5] students[2]]
Из этого ясно, что у Джейн самые низкие оценки SAT, а у Алисы — самые высокие. Осталось только инвертировать список и извлечь из него трех лучших абитуриентов с помощью простого среза:

In [22]:
top_3 = students[np.argsort(sat_scores)][:-4:-1]
print(top_3)

['Alice' 'Frank' 'Carl']
