# Структуры данных и алгоритмы

## => массивы

https://habr.com/ru/company/alconost/blog/419685/

![mass](attest_image/massive.png)

## => связные списки

![mass](attest_image/list.png)

Питоновский лист - это классический представитель связанных списков

In [1]:
class Node:
    def __init__(self, data, next=None):
        self.data = data
        self.next = next
    def __repr__(self):
        return self.data

In [7]:
vasia = Node('Vasia')
petia = Node('Petia', vasia)
rita = Node('Rita', petia)

In [8]:
print(rita.next)
print(rita.next.next)
print(rita.next.next.next)

Petia
Vasia
None


## => словарь (он же хеш-таблица)

![hash](attest_image/hesh.png)

Коллизия в случае словаря, это когда разные ключи имеют одинаковый ХЕШ!

In [2]:
class Foo(dict):

    def __eq__(self, other):   # При возникновение коллизии, когда хеши равны у двух клиючей
        global collision_count
        collision_count += 1
        return id(self) == id(other)

    def __hash__(self):   #  что __eq__ вызывается только в том случае, если значения __hash__ двух 
        return id(self)   # объектов одинаковы
        

![pdict](attest_image/pdict.png)

Словарь в Python является фундаментальным типом хотя бы потому, что используется для хранения атрибутов объектов любого класса. Внутри словарь реализован как хеш-таблица с открытой адресацией, где коллизии разрешаются методом квадратичного пробинга, таблица расширяется при заполнении более чем на ⅔.

Вообще, **словари** достаточно хорошо описаны и стоят того, чтобы взглянуть на их исходники (искать в Objects/dictobject.c). Описанное устройство словарей несёт конкретные практические последствия: 

**Ключ должен быть хеширумым объектом**
Т. е. у него должен быть определен метод __hash__, возвращающий одинаковое значение во время жизни объекта. Кстати, если у вашего типа определён метод __eq__, то обязательно должен быть и __hash__, чтобы тип корректно работал со словарями и множествами. 

**Словари дают повышение накладных расходов по памяти**
Это связано с тем, что хеш-таблица должна быть достаточно большой для эффективной работы с ней. Если есть, например, необходимость сохранить в массиве большое количество записей, то оптимальнее по памяти представить их в виде кортежей, нежели чем в виде словарей.

**Поиск по ключу очень быстрый**
Здесь тот самый space-time tradeoff, алгоритмическая сложность доступа O(1).

**Порядок следования ключей зависит от порядка вставки в словарь**
Это связано с возникающими коллизиями. При этом словари с одинаковым содержимым равны при проверке через ==.

**Модифицировать словарь, по которому итерируешься — плохая идея**
В определённый момент Python может решить, что пора ресайзить хеш-таблицу и тогда старые данные переедут в новую табличку с новыми коллизиями, может измениться порядок следования ключей.

**Множества** аналогично реализованы через хеш-таблицу, так что к ним применимы те же следствия.

### хеш 
Идея хеширования основана на распределении ключей в обычном массиве H[0..m-1]. Распределение осуществляется вычислением для каждого ключа элемента некоторой хеш-функции h. Эта функция на основе ключа вычисляет целое число n, которое служит индексом для массива H. Конечно, необходимо придумать такую хеш-функцию, которая бы давала различный хеш-код для различных объектов

# Алгоритмы поиска

## последовательный поиск 

In [27]:
def simple_find(l: list):
    for i, v in l:
        if v == 3:
            return i
        

## индексно-последовательный поиск

![index_find](attest_image/index_find.png)

## бинарный поиск

In [4]:
from random import random

N = 20
number = 16

def generate_arr(n):
    array = [i for i in range(N)]
    array.sort()
    return array


def find_binary(arr, num):
    low = 0
    high = len(arr) - 1
    
    while low <= high:
        mid = (low + high) // 2
        print(f'Середина {mid}')
        if num < arr[mid]:
            print(f'ищем в массиве {arr[low:high]}')
            high = mid - 1
        elif num > arr[mid]:
            print(f'ищем в массиве {arr[low:high]}')
            low = mid + 1
        else:
            print("ID =", mid)
            break
    else:
        print("No the number")

        
array = generate_arr(N)
print(array)
find_binary(array, number)

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19]
Середина 9
ищем в массиве [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18]
Середина 14
ищем в массиве [10, 11, 12, 13, 14, 15, 16, 17, 18]
Середина 17
ищем в массиве [15, 16, 17, 18]
Середина 15
ищем в массиве [15]
Середина 16
ID = 16


# Алгоритмы сортировки


## Пузырьковая

Таким образом, асимптотика в худшем и среднем случае – O(n2), в лучшем случае – O(n)

In [12]:
def buble(arr):
    for i in range(len(arr) - 1):
        for j in range(len(arr) - i - 1):
            if arr[j] > arr[j+1]:
                arr[j], arr[j+1] = arr[j+1], arr[j]
    return arr

print(buble([7, 6, 2, 5, 9]))

[2, 5, 6, 7, 9]


## Быстрая сортировка (Quick Sort)


Это то же алгоритм «разделяй и властвуй» и его наиболее часто используют их описанных в этой статье. При правильной настройке он чрезвычайно эффективен и не требует дополнительного пространства памяти как сортировка слиянием. Мы разделяем список вокруг элемента точка опоры, сортируя значения вокруг этой точки.

Объяснение
Быстрая сортировка начинается с разбиения списка – выбора одного значения списка, которое будет в его отсортированном месте. Это значение называется опорным. Все элементы, меньшие, чем этот элемент, перемещаются влево. Все более крупные элементы перемещены вправо.

Зная, что опорный элемент находится на своем правильном месте, мы рекурсивно сортируем значения вокруг этого элемента, пока не будет

В отличие от сортировки кучи и сортировки слиянием, обе из которых имеют худшие времена O(nlog (n)), быстрая сортировка имеет худшее время O(n^2)

In [13]:
# Есть разные способы реализовать быструю сортировки
# мы выбрали схема Tony Hoare
def partition(nums, low, high):  
    # Мы выбираем средний элемент, в качестве опорного. Некоторые реализации выбирают
    # первый элемент или последний элемент или вообще случайный элемент.
    pivot = nums[(low + high) // 2]
    i = low - 1
    j = high + 1
    while True:
        i += 1
        while nums[i] < pivot:
            i += 1
        j -= 1
        while nums[j] > pivot:
            j -= 1
        if i >= j:
            return j
        # Если элемент в i (слева от оси) больше, чем
        # элемент в J (справа от оси), то поменять их местами
        nums[i], nums[j] = nums[j], nums[i]
        
        
def quick_sort(nums):  
    # Создаем вспомогательную рекурсивную функцию
    def _quick_sort(items, low, high):
        if low < high:
            # Это индекс после опорного элемента, по которому наши списки разделены
            split_index = partition(items, low, high)
            _quick_sort(items, low, split_index)
            _quick_sort(items, split_index + 1, high)
    _quick_sort(nums, 0, len(nums) - 1)
    
# Проверяем, что все работает
random_list_of_nums = [22, 5, 1, 18, 99]  
quick_sort(random_list_of_nums)  
print(random_list_of_nums)

[1, 5, 18, 22, 99]


Встроенная функция сортировки реализуют алгоритм сортировки Тима. Этот алгоритм, основан на сортировке слиянием и сортировке вставкой.

# Рассказать отличия алгоритмов обхода дерева в глубину и ширину


https://medium.com/@dimko1/%D0%B0%D0%BB%D0%B3%D0%BE%D1%80%D0%B8%D1%82%D0%BC%D1%8B-%D0%BE%D0%B1%D1%85%D0%BE%D0%B4-%D0%B4%D0%B5%D1%80%D0%B5%D0%B2%D0%B0-ed54848c2d47

![tree](attest_image/tree_depth.png)

In [5]:
tree = {
  'name': 'etc',
  'type': 'directory',
  'children': [
    {
      'name': 'some_file',
      'type': 'file',
    },
    {
      'name': 'consul',
      'type': 'directory',
      'children': [
        {
          'name': 'config.json',
          'type': 'file',
        }
      ],
    },
    {
      'name': 'some_file_2',
      'type': 'file',
    }
  ],
}

In [11]:
# Файловое дерево обход в глубину:
def find_file_dfs(tree, name):
    print('==>', tree)
    if tree['name'] == name:
        return tree
    
    if tree.get('children'):
        res = list(filter(None, [find_file_dfs(i, name) for i in tree['children']]))
        return res[0]
    
print(find_file_dfs(tree, 'config.json'))

==> {'name': 'etc', 'type': 'directory', 'children': [{'name': 'some_file', 'type': 'file'}, {'name': 'consul', 'type': 'directory', 'children': [{'name': 'config.json', 'type': 'file'}]}, {'name': 'some_file_2', 'type': 'file'}]}
==> {'name': 'some_file', 'type': 'file'}
==> {'name': 'consul', 'type': 'directory', 'children': [{'name': 'config.json', 'type': 'file'}]}
==> {'name': 'config.json', 'type': 'file'}
==> {'name': 'some_file_2', 'type': 'file'}
{'name': 'config.json', 'type': 'file'}


In [9]:
# Файловое дерево обход в ширину:
def find_file_bfs(tree, name):
    queue = []
    values = []
    queue.append(tree)
    
    while len(queue) > 0:
        node = queue.pop(0)
        print('==>', node)
        if node['name'] == name:
            return node
        if node.get('children'):
            queue.extend(node['children'])

print(find_file_bfs(tree, 'config.json'))

==> {'name': 'etc', 'type': 'directory', 'children': [{'name': 'some_file', 'type': 'file'}, {'name': 'consul', 'type': 'directory', 'children': [{'name': 'config.json', 'type': 'file'}]}, {'name': 'some_file_2', 'type': 'file'}]}
==> {'name': 'some_file', 'type': 'file'}
==> {'name': 'consul', 'type': 'directory', 'children': [{'name': 'config.json', 'type': 'file'}]}
==> {'name': 'some_file_2', 'type': 'file'}
==> {'name': 'config.json', 'type': 'file'}
{'name': 'config.json', 'type': 'file'}


# Временная и пространственная сложность алгоритма

![O](attest_image/On.png)

Пространственная сложность алгоритма (в худшем случае) — это функция размера входных и выходных данных, равная максимальному количеству затраченной памяти, затраченной алгоритмом для решения экземпляра задачи указанного размера.

Оценка пузырьковой сортировки

In [12]:
# Функция для замеров памяти
import sys


def show_size(x, level=0):
    print('\t' * level, f'type = {type(x)}, size = {sys.getsizeof(x)}, obj = {x}')

    if hasattr(x, '__iter__'):

        if hasattr(x, 'items'):

            for key, value in x.items():
                show_size(key, level + 1)
                show_size(value, level + 1)

        elif not isinstance(x, str):

            for item in x:
                show_size(item, level + 1)       

In [13]:
def buble(arr):
    for i in range(len(arr) - 1):
        for j in range(len(arr) - i - 1):
            if arr[j] > arr[j+1]:
                arr[j], arr[j+1] = arr[j+1], arr[j]
    return arr

In [15]:
a = [1, 3 ,9, 4, 11, 124, 4, 1, 0]
show_size(a)

show_size(buble)
show_size(buble(a))

 type = <class 'list'>, size = 144, obj = [1, 3, 9, 4, 11, 124, 4, 1, 0]
	 type = <class 'int'>, size = 28, obj = 1
	 type = <class 'int'>, size = 28, obj = 3
	 type = <class 'int'>, size = 28, obj = 9
	 type = <class 'int'>, size = 28, obj = 4
	 type = <class 'int'>, size = 28, obj = 11
	 type = <class 'int'>, size = 28, obj = 124
	 type = <class 'int'>, size = 28, obj = 4
	 type = <class 'int'>, size = 28, obj = 1
	 type = <class 'int'>, size = 24, obj = 0
 type = <class 'function'>, size = 144, obj = <function buble at 0x7f8fa78dd200>
 type = <class 'list'>, size = 144, obj = [0, 1, 1, 3, 4, 4, 9, 11, 124]
	 type = <class 'int'>, size = 24, obj = 0
	 type = <class 'int'>, size = 28, obj = 1
	 type = <class 'int'>, size = 28, obj = 1
	 type = <class 'int'>, size = 28, obj = 3
	 type = <class 'int'>, size = 28, obj = 4
	 type = <class 'int'>, size = 28, obj = 4
	 type = <class 'int'>, size = 28, obj = 9
	 type = <class 'int'>, size = 28, obj = 11
	 type = <class 'int'>, size = 28, obj

# Графы

https://habr.com/ru/post/112421/

![graph](attest_image/graph.png)

In [16]:
a, b, c, d, e, f, g, h = range(8)
N = [
	{b, c, d, e, f}, # a
	{c, e}, # b
	{d}, # c
	{e}, # d
	{f}, # e
	{c, g, h}, # f
	{f, h}, # g
	{f, g} # h
]

In [17]:
b in N[a] # смежная?

True

In [18]:
len(N[f])  # степень

3

## Графы-деревья

## Полный граф (все вершины смежные)

![full](attest_image/full.png)

## Пустой графф (у которого одни вершины)

![treee](attest_image/IMG_20200202_153819.jpg)

In [None]:
tree = ['Moscow', [
  ['Smolensk'],
  ['Yaroslavl'],
  ['Voronezh', [
    ['Liski'],
    ['Boguchar'],
    ['Kursk', [
      ['Belgorod', [
        ['Borisovka'],
      ]],
      ['Kurchatov'],
    ]],
  ]],
  ['Ivanovo', [
    ['Kostroma'], ['Kineshma'],
  ]],
  ['Vladimir'],
  ['Tver', [
    ['Klin'], ['Dubna'], ['Rzhev'],
  ]],
]];

# Деревья

http://py-algorithm.blogspot.com/2011/07/blog-post_30.html?m=1

## Что такое куча?

https://habr.com/ru/post/112222/

Двоичная куча (binary heap) – просто реализуемая структура данных, позволяющая быстро (за логарифмическое время) добавлять элементы и извлекать элемент с максимальным приоритетом (например, максимальный по значению).

![bin_kuch](attest_image/bin_kicha.png)

Двоичная куча представляет собой полное бинарное дерево, для которого выполняется основное свойство кучи: приоритет каждой вершины больше приоритетов её потомков. В простейшем случае приоритет каждой вершины можно считать равным её значению. В таком случае структура называется max-heap, поскольку корень поддерева является максимумом из значений элементов поддерева. В этой статье для простоты используется именно такое представление. Напомню также, что дерево называется полным бинарным, если у каждой вершины есть не более двух потомков, а заполнение уровней вершин идет сверху вниз (в пределах одного уровня – слева направо).

## Что такое сбалансированное дерево?

Бинарное дерево назовем идеально сбалансированным, если для каждой его вершины количество вершин в левом и правом поддереве различаются не более чем на 1.

![ideal](attest_image/ideal_balance.png)

## Для чего могут быть нужны красно-черные деревья?

https://habr.com/ru/post/330644/

![red_black](attest_image/red_black.png)

Один из видов из самобалансирующихся двоичных деревьев поиска, гарантирующих логарифмический рост высоты дерева от числа узлов и позволяющее быстро выполнять основные операции дерева поиска: добавление, удаление и поиск узла. Сбалансированность достигается за счёт введения дополнительного атрибута узла дерева — «цвета». Этот атрибут может принимать одно из двух возможных значений — «чёрный» или «красный».

Изобретателем красно-чёрного дерева считают немца Рудольфа Байера. Название «красно-чёрное дерево» структура данных получила в статье Л. Гимбаса и Р. Седжвика (1978). По словам Гимбаса, они использовали ручки двух цветов[1]. По словам Седжвика, красный цвет лучше всех смотрелся на лазерном принтере[1][2].

Красно-чёрное дерево используется для организации сравнимых данных, таких как фрагменты текста или числа. Листовые узлы красно-чёрных деревьев не содержат данных, благодаря чему не требуют выделения памяти — достаточно записать в узле-предке в качестве указателя на потомка нулевой указатель. Однако, в некоторых реализациях для упрощения алгоритма могут использоваться явные листовые узлы.

Они могут понядобятся потому что по ним поиск быстрый **O(logN)**, поговаривают, что С++ контейнер map реализвоан как раз как красно-черное дерево.

In [None]:
# Пример дерева с погружением
tree = {'name': 'Mikel',
        'age': 5,
        'children': [
            {'name': 'Sveta', 'age': 4, 'children': [
                {'name': 'Anna', 'age': 1, 'children': []},
                {'name': 'Bob', 'age': 3, 'children': []}
            ]
             },
            {'name': 'Genna', 'age': 4, 'children': [
                {'name': 'Kalima', 'age': 13, 'children': []}
            ]
             },
        ]}


def calculator(tree):
    result = []

    def func(node, acc, depth):
        if len(node['children']) == 0:
            acc.append(node['name'])
            result.append('/'.join(acc))
            return
        acc.append(node['name'])
        [func(n, acc[0:depth], depth + 1) for n in node['children']]

    func(tree, [], 1)
    return result

print(calculator(tree))

## Шаблон проектирования «Набор»

In [22]:
# При проектировании (да и реализации) таких структур данных как деревья может оказаться полезным гибкий класс, 
# позволяющий задавать набор атрибутов через конструктор. Здесь нас может выручить шаблон проектирования «Набор» 
# (названный так Алексом Мартелли в «Python Cookbook»). Есть много способов его реализации, 
# но суть видна из следующего кода:

class Bunch(dict):
	def __init__(self, *args, **kwds):
		super().__init__(*args, **kwds)
		self.__dict__ = self
        
# Есть несколько полезных способов его применения. Во-первых, он позволяет создать и задать значения атрибутов, 
# передав их как аргументы при создании объекта:

x = Bunch(name="Jayne Cobb", position="PR")
x.name
# 'Jayne Cobb'

# Во-вторых, наследование от dict дает много дополнительного функционала, такого как получение всех ключей 
# (атрибутов) или простая проверка наличия атрибута. Вот пример:

T = Bunch
t = T(left=T(left="a", right="b"), right=T(left="c"))
t.left
# {'right': 'b', 'left': 'a'}
t.left.right
# 'b'
t['left']['right']
# 'b'
"left" in t.right
# True
"right" in t.right
# False
# Конечно же этот шаблон можно использовать не только для создания деревьев. 
# Он пригодится в любой ситуации, где необходим гибкий объект, умеющий задавать свои атрибуты при создании.

False