In [1]:
import numpy as np
import timeit

# Реализую алгоритм быстрой сортировки с использованием массивов numpy [2] и на чистом питоне [3]. Интересно сравнить скорость

In [2]:
def np_quicksort(array):
    
    if len(array) <= 1:
        return array
    
    pivot = array[0]
    left_array = np.empty(0)
    right_array = np.empty(0)
    
    for element in array[1:]:
        if element <= pivot:
#            left_array = np.hstack([left_array, element])
            left_array = np.append(left_array, element)
        elif element > pivot:
#            right_array = np.hstack([right_array, element])
            right_array = np.append(right_array, element)

    return np.hstack([np_quicksort(left_array), pivot, np_quicksort(right_array)])

In [3]:
def python_quicksort(lst):
    
    if len(lst) <= 1:
        return lst
    
    pivot = lst[0]
    left_list = []
    right_list = []
    
    for element in lst[1:]:
        if element <= pivot:
            left_list.append(element)
        elif element > pivot:
            right_list.append(element)
    
    return python_quicksort(left_list) + [pivot] + python_quicksort(right_list)

# Протестируем результаты, после чего сравним время выполнения

In [29]:
test_size = 1000

np_arr = np.random.randint(256, size = test_size, dtype = 'int16')
assert np.all(np_quicksort(np_arr) == np.sort(np_arr)), 'Функция np_quicksort вернула неверное значение'
np_arr = np.random.randint(256, size = test_size, dtype = 'int16')
assert np.all(np_quicksort(np_arr) == np.sort(np_arr)), 'Функция np_quicksort вернула неверное значение'
np_arr = np.random.randint(256, size = test_size, dtype = 'int16')
assert np.all(np_quicksort(np_arr) == np.sort(np_arr)), 'Функция np_quicksort вернула неверное значение'
np_arr = np.random.randint(256, size = test_size, dtype = 'int16')
assert np.all(np_quicksort(np_arr) == np.sort(np_arr)), 'Функция np_quicksort вернула неверное значение'
np_arr = np.random.randint(256, size = test_size, dtype = 'int16')
assert np.all(np_quicksort(np_arr) == np.sort(np_arr)), 'Функция np_quicksort вернула неверное значение'

py_lst = [i for i in np.random.randint(256, size = test_size, dtype = 'int16')]
assert python_quicksort(py_lst) == list(np.sort(py_lst)), 'Функция np_quicksort вернула неверное значение'
py_lst = [i for i in np.random.randint(256, size = test_size, dtype = 'int16')]
assert python_quicksort(py_lst) == list(np.sort(py_lst)), 'Функция np_quicksort вернула неверное значение'
py_lst = [i for i in np.random.randint(256, size = test_size, dtype = 'int16')]
assert python_quicksort(py_lst) == list(np.sort(py_lst)), 'Функция np_quicksort вернула неверное значение'
py_lst = [i for i in np.random.randint(256, size = test_size, dtype = 'int16')]
assert python_quicksort(py_lst) == list(np.sort(py_lst)), 'Функция np_quicksort вернула неверное значение'
py_lst = [i for i in np.random.randint(256, size = test_size, dtype = 'int16')]
assert python_quicksort(py_lst) == list(np.sort(py_lst)), 'Функция np_quicksort вернула неверное значение'

print('Тесты успешно пройдены!')

Тесты успешно пройдены!


In [27]:
x_np = np.random.RandomState(34).randint(256, size = 1000, dtype = 'int')

x_py = [i for i in x_np]

print('Время выполнения функции, использующей массивы numpy:')
%timeit np_quicksort(x_np)
print('\nВремя выполнения функции, использующей питоновские листы:')
%timeit python_quicksort(x_py)
#print('\nВремя выполнения встроенной сортировки numpy (так же использующей алгоритм квиксорт):')
#%timeit np.sort(x_np)

Время выполнения функции, использующей массивы numpy:
67.6 ms ± 8.2 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)

Время выполнения функции, использующей питоновские листы:
1.75 ms ± 103 µs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)


# Квиксорт, реализованный на списках питона, выполняется на порядок быстрее реализованного на массивах нампи. Сравним второй с сортировщиком, встроенным в numpy:

In [26]:
x_np = np.random.RandomState(34).randint(256, size = 1000, dtype = 'int')

x_py = [i for i in x_np]

#print('Время выполнения функции, использующей массивы numpy:')
#%timeit np_quicksort(x_np)
print('\nВремя выполнения функции, использующей питоновские листы:')
%timeit python_quicksort(x_py)
print('\nВремя выполнения встроенной сортировки numpy (так же использующей алгоритм квиксорт):')
%timeit np.sort(x_np)


Время выполнения функции, использующей питоновские листы:
1.78 ms ± 84.2 µs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)

Время выполнения встроенной сортировки numpy (так же использующей алгоритм квиксорт):
20 µs ± 689 ns per loop (mean ± std. dev. of 7 runs, 100,000 loops each)


# Встроенная функция выполняется на два порядка быстрее. Увеличим размер входа в 500 раз. 

In [22]:
x_np = np.random.RandomState(34).randint(256, size = 500000, dtype = 'int')

x_py = [i for i in x_np]

#print('Время выполнения функции, использующей массивы numpy:')
#%timeit np_quicksort(x_np)
print('\nВремя выполнения функции, использующей питоновские листы:')
%timeit python_quicksort(x_py)
print('\nВремя выполнения встроенной сортировки numpy (так же использующей алгоритм квиксорт):')
%timeit np.sort(x_np)


Время выполнения функции, использующей питоновские листы:
52.5 s ± 1.58 s per loop (mean ± std. dev. of 7 runs, 1 loop each)

Время выполнения встроенной сортировки numpy (так же использующей алгоритм квиксорт):
23.2 ms ± 1.47 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


# Разница скорости достигает трех порядков. При этом оба алгоритма - quicksort'ы с одинаковым О большим - лучшим O(n*log(n)) и худшим O(n**2). Учитывая, что np.sort( ) работает на С++, делаю очевидный вывод:
# О большое не стоит использовать для оценки алгоритмов, написанных на разных языках.