
# **Алгоритмы и структуры данных**

### **Разделы:**

**1.** Введение в алгоритмы

**2.** Основные структуры данных

**3.** Рекурсия и сортировки

**4.** Хеш-функции и хеш-таблицы

**5.** Деревья

**6.** Графы

**7.** Жадные алгоритмы и динамическое программирование

**8.** Алгоритмы на строках

![what-is-an-algorithm-featured.png](attachment:what-is-an-algorithm-featured.png)

## **1. Введение в алгоритмы**
### **Линейный поиск**

**Постановка задачи:**

Дан массив целых чисел длины **N**. Нужно найти в нём заданное число **X** и вернуть его индекс. Если **X** в массиве не встречается — вернуть **-1**.

**Первое решение:**



In [23]:
def LinearSearch(lys, x):
    for i in range(len(lys)): # проходим по всем элементам массива
        if lys[i] == x: # сравниваем их с Иксом
            return i # если нашли — возвращаем индекс
    return -1 # если не нашли — возрвашаем -1

LinearSearch([1,2,3,4,5,2,1], 2)

1

![1231231231.png](attachment:1231231231.png)

Итак, если мы используем функцию для вычисления:

![ScreenDesktop_1.png](attachment:ScreenDesktop_1.png)

После выполнения кода мы получаем результат:
## **>>> 1**

В зависимости от значения **X** будет рассмотрено разное количество элементов. Однако при оценке скорости работы алгоритма обычно оценивают сложность в **худшем случае** (англ. **worst-case complexity**)

В **худшем случае** придётся перебрать все элементы. Это произойдёт, например, если элемента **X** в массиве нет.

Можем сказать, что скорость работы алгоритма в худшем случае пропорциональна размеру массива. На математическом языке ещё говорят: **«Вычислительная сложность алгоритма линейно зависит от размера входных данных».**

Разберём эту фразу:

**Вычислительная сложность алгоритма.** Обычно под этой фразой программисты понимают количество элементарных операций, которые будут совершены.

**Размера входных данных.** Входные данные — то, что алгоритм получает на вход. В нашей задаче это массив  **numbers**  и переменная  **X**. Размер входных данных примерно равен  **N**.

**Линейная зависимость.** Описывается формулой **_y = kx + b_**

![Linear-Search_2_compress.png](attachment:Linear-Search_2_compress.png)

Из-за того, что у описанного алгоритма поиска время работы линейно зависит от размера входных данных, он называется линейным поиском.

Линейный поиск хорошо подходит для тех случаев, когда нам нужно найти первое вхождение элемента в несортированную коллекцию, потому что, в отличие от большинства других алгоритмов поиска, он не требует сортировки коллекции до начала поиска.

### **Бинарный поиск**

Бинарный поиск следует методологии **разделяй и властвуй** (англ. — divide and conquer)

Есть и другой способ решить задачу поиска элемента в массиве. Если элементы в массиве **_упорядочены по возврастанию_**, то найти нужный можно гораздо быстрее.

Представьте, что ищете слово «Образование» в словаре. Вряд ли вы станете листать страницу за страницей, начиная с первой, — ведь слова отсортированы по алфавиту. Лучше открыть книгу примерно посередине. Если вы попали на страницу с нужным словом, алгоритм завершён. Если же слово находится раньше открытой страницы, вы откроете словарь примерно в середине первой половины, а если после — в середине второй. И так до окончания поиска.

Допустим, мы хотим применить этот алгоритм к словарю из 100 страниц. Объём рассматриваемой части книги будет каждый раз уменьшатся вдвое до тех пор, пока не останется всего одна страница. Делить словарь из 100 страниц пополам мы можем максимум 7 раз. Получается, чтобы найти нужное слово, нам достаточно будет просмотреть не более 7 страниц.

А теперь давайте развернём этот алгоритм в обратную сторону. Имея одну страницу, можно за 7 итераций получить 128(что даже больше 100) страниц, на каждом шаге увеличивая объём вдвое: 2, 4, 8, 16, 32, 64, 128.

На математическом языке говорят, что число 7 является _«логарифмом числа 128 по основанию 2»._

Рассмотренный алгоритм называется бинарным поиском. Ещё его называют: **_двоичный поиск, метод деления пополам, дихотомия._** Скорость его работы имеет логарифмическую зависимость от размера входных данных.

![binary-search.png](attachment:binary-search.png)

Алгоритм **бинарного поиска** может быть записан **рекурсивно** или **итеративно**. Рекурсия обычно медленнее в Python , потому что она требует выделения новых кадров стека.

### **Итеративная реализация бинарного поиска:**

In [33]:
def BinarySearch(lys,val):
    first = 0
    last = len(lys) - 1
    index = -1
    while (first <= last) and (index == -1):
        mid = (first + last) // 2
        if lys[mid] == val:
            index = mid
        else:
            if val<lys[mid]:
                last = mid - 1
            else:
                first = mid + 1
    return index

BinarySearch([10,20,30,40,50],20)

1

In [24]:
BinarySearch([10,21,35,45,56],56)

4

![ScreenDesktop_4.png](attachment:ScreenDesktop_4.png)

Если мы используем функцию для вычисления:

![ScreenDesktop_3.png](attachment:ScreenDesktop_3.png)

Мы получаем результат:
## **>>> 1**

Который является индексом значения, которое мы ищем.

Действие, которое алгоритм выполняет следующим в каждой итерации, является одной из нескольких возможностей:

    -Возврат индекса текущего элемента
    -Поиск по левой половине массива
    -Поиск в правой половине массива

Мы можем выбрать только одну возможность на каждой итерации, и наш пул возможных совпадений делится на две в каждой итерации. 

Это делает временную сложность бинарного поиска **O(_log_ n)**

Одним из недостатков бинарного поиска является то, что если в массиве имеется несколько вхождений элемента, он возвращает не индекс первого элемента, а индекс элемента, ближайшего к середине:

In [21]:
BinarySearch([4,4,4,6,7,9],4)

2

Для сравнения выполнение линейного поиска по одному и тому же массиву вернет:

In [26]:
LinearSearch([4,4,4,6,7,9],4)

0

Бинарный поиск довольно часто используется на практике, потому что он эффективен и быстр по сравнению с линейным поиском.

## **Сложность алгоритма**

У разных алгоритмов может быть разное время работы.

На математическом языке эта идея звучи так: «Вычислительная сложность алгоритма линейно зависит от размера входных данных» или «У алгоритма логарифмическая асимптотическая сложность». Но повторять эти фразы каждый раз — утомительно. Поэтому придумали сокращения:

**_O(n)_** — линейная зависимость;

**_O(log n)_** — логарифмическая зависимость.
    
И говорят так: «Сложность алгоритма — **_O(n)_**» (читается «о большое от эн» или просто «о от эн»). Также можно услышать фразу, которая означает ровно то же самое: «Этот алгоритм работает за _O(n)_ »

Такие сокращения называются **О-нотацией** (англ. **Big O notation**).

В О-нотации не учитываются константы и коэффициенты. То есть если в алгоритме совершается _5n + 3_ операций, его сложность будет **_O(n)_**. В асимптотической оценке не учитываются значения констант при n. Нельзя сказать, что константы совсем не важны, но они не могут принципиально изменить применимость алгоритма на практике.