<img src="../imgs/python.png" align="left" height="140" width="140"><img src="../imgs/mts.jpeg" align="right" height="140" width="140"><center><h1> Python for Data Analysis MTSBank</h1><h2>Структуры данных/Алгоритмы</h2></center>

## Часть 2. Алгоритм бинарного поиска в списке и сортировка списков

In [1]:
# Python 2 and 3 compatibility
# pip install future
from __future__ import (absolute_import, division,
                        print_function, unicode_literals)
from builtins import *

## Бинарный поиск
Классический алгоритм поиска элемента в отсортированном списке, использующий дробление массива на половины. 
Продемонстрируем версию для отсортированных списков без повторяющихся элементов. Сложность алгоритма - O(log(n)), где n - длина списка на входе

In [103]:
def binfind(a_list, x, left, right):
    if left > right or len(a_list) == 0:
        return -1
    middle = (left + right) // 2
    if a_list[middle] == x:
        return middle
    elif (a_list[middle] < x):
        return binfind(a_list, x, middle + 1, right)
    else:       # a_list[middle] > x
        return binfind(a_list, x, left, middle - 1)

In [98]:
a = range(6,14)
for i in a:
    print("Elem: {0}, Index: {1}".format(i, binfind(a, i, 0, len(a)-1)))

Elem: 6, Index: 0
Elem: 7, Index: 1
Elem: 8, Index: 2
Elem: 9, Index: 3
Elem: 10, Index: 4
Elem: 11, Index: 5
Elem: 12, Index: 6
Elem: 13, Index: 7


Несмотря на кажущуюся элементарность алгоритма, часто допускают ошибки, не учитывая многие ситуации.
Частые ошибки:
 - не работает с массивом из 0/1/2 элементов
 - не находит первый или последний элемент

In [101]:
a = []
for i in a:
    print("Elem: {0}, Index: {1}".format(i, binfind(a, i, 0, len(a)-1)))

In [104]:
a = []
binfind(a, 3, 0, 0)

-1

- некорректно работает, если элемента в массиве нет


In [105]:
binfind(range(10), 125, 0, len(a)-1)

-1

См. статьи  <a href="http://habrahabr.ru/post/91605/">Только 10% программистов способны написать двоичный поиск</a> и <a href="http://habrahabr.ru/post/146228/">Я не могу написать бинарный поиск</a> на Хабрахабре.  

### Линейный поиск

Простейший алгоритм поиска элемента в списке, также известен, как метод перебора или "грубой силы". Работает за время O(n), где n - длина списка на входе (понятно  и по названию алгоритма)

In [71]:
def linear_search(a_list, x):
    i, length = 0, len(a_list)
    while i < length and x != a_list[i]:
        i += 1
    return i if i < length else -1

In [73]:
a = range(10)
for i in a:
    print("Elem: {0}, Index: {1}".format(i, linear_search(a, i)))

Elem: 0, Index: 0
Elem: 1, Index: 1
Elem: 2, Index: 2
Elem: 3, Index: 3
Elem: 4, Index: 4
Elem: 5, Index: 5
Elem: 6, Index: 6
Elem: 7, Index: 7
Elem: 8, Index: 8
Elem: 9, Index: 9


В случае повторяющихся элементов алгоритм вернет индекс первого попавшегося элемента

In [96]:
a = [32, 1, 3, 4, 2, 1]
linear_search(a, 4)

3

## Алгоритмы сортировки

Задача сортировки - одна из первых в информатике, всегда служила и тестом на производительность компьютеров.

Большой список алгоритмов сортировки - в английской  <a href="https://en.wikipedia.org/wiki/Sorting_algorithm">Википедии</a>.

Сайт с анимацией алогитмов сортировки - <a href="http://sorting.at">sorting.at</a>.

Неформальное <a href="http://habrahabr.ru/post/263765/#first_unread">введение</a> в структуры данных на Хабрахабре.

Рекомендую курс Stanford по построению и анализу алгоритмов - <a href="https://www.coursera.org/course/algo">часть 1</a> и <a href="https://www.coursera.org/course/algo2">часть 2</a>.

### HeapSort

Используем реализацию структуры данных "куча" из библиотеки <a href="https://docs.python.org/2/library/heapq.html">heapq</a>.

Для сортировки нам понадобятся методы heappush и heappop - для вставки элемента в структуру и удаления элемента структры с сохраненим инварианта этой структуры данных - значения дочерних элементво меньше значения родительского элемента.

Реализация алгоритма очень проста: из кучи последовательно извлекается  максимальный (корневой) элемент и записывается в конец списка, пока куча не опустеет. Сложность алгоритма - O(n*log(n)), где n - длина списка на входе.

In [1]:
import heapq
def heapsort(a_list):
    h = []
    for value in a_list:
        heapq.heappush(h, value)
    return [heapq.heappop(h) for i in range(len(h))]

heapsort([1, 3, 5, 7, 9, 2, 4, 6, 8, 0])

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [107]:
%timeit heapsort([1, 3, 5, 7, 9, 2, 4, 6, 8, 0])

100000 loops, best of 3: 8.89 µs per loop


## QuickSort

Один из самых известных алгоритмов сортировки, также известный как <a href="https://ru.wikipedia.org/wiki/%D0%91%D1%8B%D1%81%D1%82%D1%80%D0%B0%D1%8F_%D1%81%D0%BE%D1%80%D1%82%D0%B8%D1%80%D0%BE%D0%B2%D0%BA%D0%B0#.D0.A0.D0.B5.D0.B0.D0.BB.D0.B8.D0.B7.D0.B0.D1.86.D0.B8.D1.8F">qsort</a>. Без рандомизации может выглядеть очень лаконично

In [108]:
def quick_sort(arr):
    if len(arr) <= 1:
        return arr
    else:
        return quick_sort([x for x in arr[1:] if x < arr[0]]) + \
               [arr[0]] + \
               quick_sort([x for x in arr[1:] if x >= arr[0]])

quick_sort([1, 3, 5, 7, 9, 2, 4, 6, 8, 0])

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [109]:
%timeit quick_sort([1, 3, 5, 7, 9, 2, 4, 6, 8, 0])

10000 loops, best of 3: 24.7 µs per loop


## Полезные ссылки
 - <a href="http://habrahabr.ru/post/91605/">Только 10% программистов способны написать двоичный поиск</a>
 - <a href="http://habrahabr.ru/post/146228/">Я не могу написать бинарный поиск</a>
 - <a href="https://en.wikipedia.org/wiki/Sorting_algorithm">Список алгоритмов сортировки на Википедии</a>
 - анимация алогитмов сортировки - <a href="http://sorting.at">sorting.at</a>.
 - курс Stanford по построению и анализу алгоритмов - <a href="https://www.coursera.org/course/algo">часть 1</a> и <a href="https://www.coursera.org/course/algo2">часть 2</a>.
 - Неформальное <a href="http://habrahabr.ru/post/263765/#first_unread">введение</a> в структуры данных на Хабрахабре.
 - <a href="https://github.com/Yorko/interactive-coding-challenges">репозиторий</a> GitHub с задачами на алгоритмы в виде тетрадок ipython