# Структури от данни и Алгоритми

Структурите от данни са класове и обекти с интерфейс чрез който ги използваме, като се абстрахираме от имплементацията им.

Алгоритмите са генерализирани процедури (парчета код/функции) които решават даден проблем (изпълняват дадена задача).

## Защо?

Структурите от данни и алгоритми:

- Се използват често (по-простите от тях: List/Dict/Sort)
- Подпомагат разбирането на други езици за програмиране (e.g. JavaScript обектите са Dict)
- Са основа на по-сложни системи и приложения (e.g. Приоритетната опашка може да се реализира чрез запазване на опашката в база данни)
- Са ключови за Google-style интервютата
![https://i.imgur.com/dVcLsFl.png](https://i.imgur.com/dVcLsFl.png)

## 3.. 2.. 1.. Go

## Сложност на алгоритми

https://www.bigocheatsheet.com/

За оценка на сложност (бързина) на алгоритми използваме нотацията "Big O" $O(...)$.

Сложността оценяваме спрямо размера на входа, като най-често използваме $n$, за да обозначим размера на входа.

Примери за $n$:
- За list K: $n = len(K)$
- За str K: $n = len(K)$
- За int K: $n = bytes\;of\;K = log_{10}(K) \approxeq log_2(K)$ (но обикновено int казваме че има константен размер $O(1)$)

Най-важните сложности са:
- Constant $O(1)$
- Linear $O(n)$
- Linearithmic $O(n \times log(n))$
- Quadratic $O(n^2)$

In [1]:
# O(1)
def constant(x):
    return x + 1

# O(n)
def linear(arr): # O(n x 1) = O(n)
    for x in arr: # O(n)
        print(x) # O(1)

# O(n * log n)
def linearithmic(arr):
    logi = 1
    while logi < len(arr): # O(log n)
        logi *= 2 # iterations = len(arr) = 2 ^ logi -> solve for logi -> logi = log(len(arr))
        linear(arr)

# O(n * log n)
def linearithmic2(arr):
    arr.sort() # O(n * log n)

# O (n^2)
def quadratic(arr): # O(n * n * 1) = O(n^2)
    for row in range(len(arr)): # O(n)
        for column in range(len(arr)): # O(n)
            print(arr[row][column]) # O(1)

## str

`str` е поредица от символи. Ще разгледаме:

- [str](https://docs.python.org/3/library/stdtypes.html#text-sequence-type-str) методи и
- [string](https://docs.python.org/3/library/string.html) често употребявани константи

Стринговете в Python са immutable -> Повечето операции са $O(n)$

In [3]:
# Python speaks   UTF-8 :) https://en.wikipedia.org/wiki/UTF-8
s = '🐍 is awesomeͤͤͤͤͤ'
print(s)

🐍 is awesomeͤͤͤͤͤ


In [5]:
# .encode() Конвертира стринг до байтове.
# Някой байтове не могат да се представят със символ от азбуката
# и използват Hexadecimal Escape Sequence

# Често се използва при работа с файлове - понякога четем и пишем байтове вместо стрингове
encoded = s.encode('utf-8')
print(f'{s} -> {encoded}')
print('От байтове може да се върнем в стринг:', encoded.decode())
# 🐍 = \xf0\x9f\x90\x8d
# сложи символ отгоре = '\xcd'
# какво да се сложи отгоре = '\xa4'

print('🐍 =', b'\xf0\x9f\x90\x8d'.decode()) # = 🐍 Поредица от байтове се индикира с b''
print("b'' е просто списък от uint8:", bytes([0xf0, 0x9f, 0x90, 0x8d]).decode())
print('Дължината на 🐍 e: ', len(b'\xf0\x9f\x90\x8d')) # len(\xYY) = 1 byte

# Итерирането по стринг работи чрез итериране по символи, не по байтове
print([x for x in 'cool 🐍'])

🐍 is awesomeͤͤͤͤͤ -> b'\xf0\x9f\x90\x8d is awesome\xcd\xa4\xcd\xa4\xcd\xa4\xcd\xa4\xcd\xa4'
От байтове може да се върнем в стринг: 🐍 is awesomeͤͤͤͤͤ
🐍 = 🐍
b'' е просто списък от uint8: 🐍
Дължината на 🐍 e:  4
['c', 'o', 'o', 'l', ' ', '🐍']


In [7]:
print('Форматирането работи! {0} * {1} = {2}'.format('🐍', '🐍', '🐍²'))

Форматирането работи! 🐍 * 🐍 = 🐍²


In [8]:
if 'самобукви'.isalpha():
    print('{букви} = alphabetic')

# Можем ли да конвертираме стринга до int?
if '1232367457'.isdigit():
    print('{числа} = digit')

# Бърза проверка дали работим с дума или изречение (изречението има паузи и символи)
if '1283912873andLetters'.isalnum():
    print('{числа, букви} = alpha-numeric')

# Трябва ли да пишем код който разбира от главни букви?
if 'малкибукви'.islower():
    print('{малки букви} = lowercase')

if 'ГОЛЕМИБУКВИ'.isupper():
    print('{големи букви} = uppercase')

# Използваме при разбиване на стрингове - if space : do X else do Y
if '\t\n  '.isspace():
    print('{празни символи} = space')

{букви} = alphabetic
{числа} = digit
{числа, букви} = alpha-numeric
{малки букви} = lowercase
{големи букви} = uppercase
{празни символи} = space


In [10]:
if s.endswith('e'):
    print('s завършва на e') # eͤͤͤ != e

if s.startswith('🐍 is'):
    print("s започва с '🐍 is'")

print('is е на индекс', s.find('is')) # Индекс по символ, не по байт

print("'e' се среща", s.count('e'), 'пъти')

s започва с '🐍 is'
is е на индекс 2
'e' се среща 2 пъти


In [12]:
print(s)
print('Не винаги субституциите работят както ни се иска:',
    s.replace('awesome', 'много лесен курс'))

import re
print('Но може да сработят с regex:', re.sub(r'awesome.*', 'бЪрЗ', s))

print('Може да направим всички символи голем:', s.upper())
# Често използваме за да оеднаквим символите, A = a и няма защо да ги третираме различно
print('или малки:', 'THICC ->', 'THICC'.lower())
# Ако някой въведе "me@mail.com  " то очевидно няма спейс в края на мейла -> strip() -> "me@mail.com"
print("Да разчистим празните символи '    нещо ми духа '-> '" + '    нещо ми духа  '.strip() + "'")

🐍 is awesomeͤͤͤͤͤ
Не винаги субституциите работят както ни се иска: 🐍 is много лесен курсͤͤͤͤͤ
Но може да сработят с regex: 🐍 is бЪрЗ
Може да направим всички символи голем: 🐍 IS AWESOMEͤͤͤͤͤ
или малки: THICC -> thicc
Да разчистим празните символи '    нещо ми духа '-> 'нещо ми духа'


In [13]:
# Много подпомага дебъгването и не оставя запетая след последния елемент!!
print('Удобно е да принтираме списъци:', ', '.join(['1','2','3','4','worldwide']))
# При разбиване на стрингове (данни, които знаем че са разделени с някакъв символ)
print('или да разбиваме стринг на елементи:', 'fmi:poluchi:li?'.split(':'))

# за по-сложни разбивания - regex (:
import re
print(re.split(r',|:|\?', 'kude:sym,az?kude:si,ti?'))

Удобно е да принтираме списъци: 1, 2, 3, 4, worldwide
или да разбиваме стринг на елементи: ['fmi', 'poluchi', 'li?']
['kude', 'sym', 'az', 'kude', 'si', 'ti', '']


Библиотеката `string` предоставя някои удобни константи

In [82]:
import string

# Вместо да хардкодваме "abcdef..."
print('all letters:', string.ascii_letters)
print('all lowercase:', string.ascii_lowercase)
print('all digits as a string:', string.digits)
print('all symbols:', string.punctuation)
print('all whitespaces:', string.whitespace, string.whitespace.encode())

all letters: abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ
all lowercase: abcdefghijklmnopqrstuvwxyz
all digits as a string: 0123456789
all symbols: !"#$%&'()*+,-./:;<=>?@[\]^_`{|}~
all whitespaces:  	
 b' \t\n\r\x0b\x0c'


## int

Python няма ограничение за големината на int (C++ long long има ограничение $2^{63}-1$). Но операциите с големи числа са бавни - не са $O(1)$, а $O(log(number)) = O(number\;of\;digits)$

Когато стойността надвиши $2^{63}-1$ числата се обръщат в BigInt.

[https://www.codementor.io/@arpitbhayani/how-python-implements-super-long-integers-12icwon5vk](https://www.codementor.io/@arpitbhayani/how-python-implements-super-long-integers-12icwon5vk)

In [90]:
%%time
result = 1
for x in range(1, 100000):
    result *= x
# Същият код на C++ минава за total: 0.001 s. Но не връща верен отговор :)

CPU times: user 4.28 s, sys: 22.2 ms, total: 4.31 s
Wall time: 4.34 s


In [102]:
import sys
print('int is {0} bytes'.format(sys.getsizeof(int(1))))
print('10^1000 is {0} bytes'.format(sys.getsizeof(int(10**1000))))
print('float is {0} bytes'.format(sys.getsizeof(float(1))))
# float има прецизност като double в C++ (~14 знака след запетаята)

int is 28 bytes
10^1000 is 468 bytes
float is 24 bytes


In [3]:
# За по голяма прицизност може да използваме `decimal` модула
# По дефолт има прецизност 28 знака след запетаята, но може да му дадем повече :)
from decimal import *
getcontext().prec = 56
print(Decimal(22) / Decimal(7))

3.1428571428571428571428571428571428571428571428571428571


In [31]:
# Начин на използване

print('Стринг -> int:', int('42'))
print('Конвертиране от други бройни системи, освен base10:', int('ff', 16))
print('Премахване на знаците след десетичната запетая', int(-5.2), int(5.2))
print('Абсолютна стойност(-5) =', abs(-5))

Стринг -> int: 42
Конвертиране от други бройни системи, освен base10: 255
Премахване на знаците след десетичната запетая -5 5
Абсолютна стойност(-5) = 5


## Math

In [46]:
import math

print('Закръгляне на горе 2.2 ->', math.ceil(2.2))
print('Закръгляне на долу 2.7 ->', math.floor(2.7))

# Може да правим побитово итериране на  числото
print('Преброяване на битовете на числото 257 =', math.ceil(math.log2(257)))
# Полезно при построяване на Trie/radix sort/заделяне на hashmap
print('Преброяване на цифрите на числото 14532 =', math.ceil(math.log10(14532)))

# Математически важни функции
print('Най-голям общ делител на 35 и 15 =', math.gcd(35, 15))
print('Можем да смятаме inverse елемента по модул 15^-1 mod 26 =', pow(15, -1, 26))

# Комбинаторика (често се среща в задачи, но има и други)
print('N choose K -> 10 choose 2 =', math.comb(10, 2))

Закръгляне на горе 2.2 -> 3
Закръгляне на долу 2.7 -> 2
Преброяване на битовете на числото 257 = 9
Преброяване на цифрите на числото 14532 = 5
Най-голям общ делител на 35 и 15 = 5
Можем да смятаме inverse елемента по модул 15^-1 mod 26 = 7
N choose K -> 10 choose 2 = 45


In [47]:
# Специални стойности на float:
# Not a Number (полезно като дъно на стел)
print('Not a Number =', math.nan)
# Infinity (полезно като последен елемент на масив, нещо като терминираща нула в C++)
print('Infinity =', math.inf)
# -Infinity
print('-Infinity =', -math.inf)

# Константи
print('π = ', math.pi)
print('e = ', math.e)

Not a Number = nan
Infinity = inf
-Infinity = -inf
π =  3.141592653589793
e =  2.718281828459045


`math` модулът има още много функции на които няма да се спираме, защото не се използват често:
- Тригонометрични функции
- Хиперболични функции
- Гама функция
- Конвертиране между градуси и радиани
- Други

## List

Саморазширяващ се списък/масив от елементи. Въпреки името list, структурата е динамичен масив, а не свързан списък.

In [1]:
arr = [0] * 10 # инициализиране на списък с 10 елемента O(n)
print('Списък с 10 елемента:', arr)
arr = list() # празен списък O(1)
arr.clear() # O(1) еквивалентно на ' = list()'
print('Празен списък:', arr)
arr.append(1) # O(1*) за разлика от конкатенацията на стрингове ('abc' + 'd') която е O(n)
arr.insert(0, -1) # O(n)
arr = [-2] + arr # O(n) еквивалентно на горното АКО елементите НЕ СА list
print('До момента имаме:', arr)
arr.reverse() # O(n)
print('Може да обърнем списъка', arr)
arr.sort() # O(n * log n)
print('И да го сортираме', arr)
last_element = arr.pop() # O(1)
print('pop премахва последния елемент и го връща', arr, last_element)

Списък с 10 елемента: [0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
Празен списък: []
До момента имаме: [-2, -1, 1]
Може да обърнем списъка [1, -1, -2]
И да го сортираме [-2, -1, 1]
pop премахва последния елемент и го връща [-2, -1] 1


Примери с често използвани техники върху `list`

In [13]:
# Конвертиране на 1 списък до друг (map)
# Еквивалентно е на for цикъл

# Често се използва при четене на числа от файл/stdin
strings = ['1','2','3','4','5']
numbers = [int(x) for x in strings]
print(strings, '->', numbers)
print(sum(numbers))

['1', '2', '3', '4', '5'] -> [1, 2, 3, 4, 5]
15


In [77]:
# Сортиране на списък със обекти
tuples = [(2, 'elon'), (1, 'daddy')]
tuples.sort(key=lambda x: (x[1])) # Ако вместо tuples имаме обекти използваме obj.field, вместо x[1]
# ламбда функцията връща tuple от елементи в каквато последователност трябва да се сравняват
# Ако 0-левия елемент е един и същ, пробвай 1вия. Ако първият елемент е един и същ, пробвай 2рия и тн.
print(' '.join(list(x[1] for x in tuples)))

# Обръщане на списък
reversed_tuples = tuples[::-1] # създава нов списък
print(' '.join(list(x[1] for x in reversed_tuples)))

# Копиране на списък
tuples_copy = tuples[::]
tuples_copy.clear()
print(f'{tuples = }, {tuples_copy = }')

daddy elon
elon daddy
tuples = [(1, 'daddy'), (2, 'elon')], tuples_copy = []


## Array 

`array` предоставя по-ефективно използване на паметта от `list`. Повече прилича на стандартните масиви в други езици. Добавянето на елемент в края на `array` е $O(1)$.

Има същите функционалности като `list`.

При инициализиране трябва да окажем типа на елемтнтите в списъка.

Ако се е стигнало до използване на по-оптимизирани структури в Python най-добре да използваме някоя библиотека като `numpy`.

In [23]:
%%capture
# %%capture is a jupyter instruction to hide output

from array import array

array('l') # array<32 bit int>
array('u', 'hello \u2641') # array<unicode character>
array('d', [1.0, 2.0, 3.14]) # array<double>
array('I', [1, 2, 3])  # array<unsigned 16 bit int>


## Dict

`dict` е питонската имплементация на Hash-Table. Повечето операции с `dict` са $O(1)$. Изключение правят операциите за обработка на всички елементи, които са $O(n)$.

Елементите на `dict` са `key`-`value` (ключ - стойност). Ключът задължително трябва да е от тип, който може да се хешира, стойността може да е всякаква.

Забележка: Казваме, че операциите са $O(1)$, но всъщност зависят от размера на ключа. Обикновено ключовете са малки по размер в паметта и за това на повечето места в литературата се казва че операциите са $O(1)$, но ако ключовете ни са стрингове с дължина 100,000 символа, то сложността на операциите не е точно $O(1)$ :)

In [50]:
my_dict = {} # Инициализираме празен dict
my_dict = dict() # dict() == {}

my_dict['is big'] = 'not'
print('dict с 1 елемент', f'{my_dict = }')
del my_dict['is big'] # del изтрива елемент
print('празен dict след като изтрихме ключа "is big"', f'{my_dict = }')
del my_dict['non-existent key'] # Ако се опитаме да достъпим или изтрием ключ който не съществува ще гръмнем с KeyError

dict с 1 елемент my_dict = {'is big': 'not'}
празен dict след като изтрихме ключа "is big" my_dict = {}


KeyError: 'non-existent key'

In [1]:
# Итериране по dict
person_age = {
    'Gosho na pochivka': 25,
    'Gosho na fmi': 11001,
}

result = []
for x in person_age: # == .keys()
    result.append(x)
print('for x in dict:', result)

result = []
for x in person_age.keys():
    result.append(x)
print('for x in dict.keys():', result)

result = []
for x in person_age.values():
    result.append(x)
print('for x in dict.values():', result)

result = []
for x in person_age.items():
    result.append(x)
print('for x in dict.items():', result)

for x in dict: ['Gosho na pochivka', 'Gosho na fmi']
for x in dict.keys(): ['Gosho na pochivka', 'Gosho na fmi']
for x in dict.values(): [25, 11001]
for x in dict.items(): [('Gosho na pochivka', 25), ('Gosho na fmi', 11001)]


In [13]:
# По време на итериране не е позволено да променяме dict
palindromes = {
    'ami': 'ima',
    'pari': 'irap',
    'nema': 'amen',
}

for x in palindromes:
    palindromes[x] = 'nali ne mojelo da se promenq e bai xy*'
    
print(palindromes)

for x in palindromes:
    del palindromes[x] # промяна върху ключовете не работи :(

{'ami': 'nali ne mojelo da se promenq e bai xy*', 'pari': 'nali ne mojelo da se promenq e bai xy*', 'nema': 'nali ne mojelo da se promenq e bai xy*'}


RuntimeError: dictionary changed size during iteration

In [17]:
print('въпреки грешката на предишната стъпка изтрихме 1 ключ (на рандъм)', palindromes)

# Тъй като не може да променяме dict докато итерираме ще трябва да създадем нов
changed = {k: 'shte si napravq moi dict togava' for k, _ in palindromes.items() if k != 'pari'}
print(changed)

въпреки грешката на предишната стъпка изтрихме 1 ключ (на рандъм) {'pari': 'nali ne mojelo da se promenq e bai xy*', 'nema': 'nali ne mojelo da se promenq e bai xy*'}
{'nema': 'shte si napravq moi dict togava'}


### defaultdict

`defaultdict` живее в модула `collections`. Има същата функционалност като `dict`, но при инициализация трябва да окажем от какъв тип ще са стойностите. При достъпване на ключ, който не съществува, ще се създаде ключа и стойност - дефолтен обект от типа, който задаваме при инициализация.

Обикновено го използваме за удобство - не е нужно да проверяваме дали стойността зад някой ключ е инициализирана.

In [25]:
from collections import defaultdict

my_default_dict = defaultdict(list)
print(my_default_dict)
my_default_dict['what']
print('дори само с достъпване на ключа създаваме дефолтен обект', my_default_dict)

del my_default_dict['what']
for index, char in enumerate('this is a string'):
    my_default_dict[char].append(index) # Това ще изгърми с нормален dict

my_default_dict

defaultdict(<class 'list'>, {})
дори само с достъпване на ключа създаваме дефолтен обект defaultdict(<class 'list'>, {'what': []})


defaultdict(list,
            {'t': [0, 11],
             'h': [1],
             'i': [2, 5, 13],
             's': [3, 6, 10],
             ' ': [4, 7, 9],
             'a': [8],
             'r': [12],
             'n': [14],
             'g': [15]})

### Counter

`Counter` е още един под-клас на `dict`. При инициализация може да се подаде колекция (или друг обект който може да се итерира и елементите му могат да се хешират), която бива итерирана и елементите ѝ се преброяват.
Елементите на колекцията стават ключове, а стойностите са колко пъти даден елемент е срещнат в колекцията.

In [27]:
from collections import Counter

Counter('string isn\'t a collection, but it\'s iterable')

Counter({'s': 3,
         't': 6,
         'r': 2,
         'i': 5,
         'n': 3,
         'g': 1,
         ' ': 6,
         "'": 2,
         'a': 2,
         'c': 2,
         'o': 2,
         'l': 3,
         'e': 3,
         ',': 1,
         'b': 2,
         'u': 1})

## Set

`set` е `dict`, който има само ключове, стойностите не ни интересуват. Добавяне/премахване/проверка дали елемент е в сет-а се случва за $O(1)$

`set` се използва по-рядко от `dict`, и основно за да намерим уникалните елементи на колекция.

In [35]:
uniques = set() # няма по-кратък начин за инициализране на сет, както {} за dict
uniques = set([1,2,3,3,3,3,3,3]) # Може директно да го инициализираме от колекция
print('инициализация от колекция', uniques)
uniques.add(1) # добавяме елемент
print('елемент, който вече е в сета няма да се добави отново', uniques)

print('Може да обединим 2 сета', set([1,2,3]).union(set([2,3,4])))
print('Може да вземем само общите елементи', set([1,2,3]) & set([2,3,4]))
print('Може да вземем елементите които не са общи', set([1,2,3]) ^ set([2,3,4]))
print('Може да проверим дали даден елемент е в сета: 5 in [1,2,3]?', 5 in set([1,2,3]))

инициализация от колекция {1, 2, 3}
елемент, който вече е в сета няма да се добави отново {1, 2, 3}
Може да обединим 2 сета {1, 2, 3, 4}
Може да вземем само общите елементи {2, 3}
Може да вземем елементите които не са общи {1, 4}
Може да проверим дали даден елемент е в сета: 5 in [1,2,3]? False


In [43]:
# Задача: колко различни букви са използвани в следния стринг
# 'The quick brown fox jumps over the lazy dog'
# Отговор:
len(set(
        'The quick brown fox jumps over the lazy dog'
        .lower()
        .replace(' ','')
    )
)


26

### Frozenset

`frozenset` = immutable `set`. Immutability носи плюсовеи минуси:
- (+) може да хешираме сета (да го използваме като ключ в `dict` или да го добавим в друг `set`)
- (-) не може да го променяме (да добавяме/премахваме елементи)

In [None]:
my_dict = {
    set([1,2,3]): 'my password', # set is unhashable, trust me
}

TypeError: unhashable type: 'set'

In [36]:
numbers = set([1,2,3])

my_dict = {
    frozenset(numbers): 'my password',
    frozenset('characters'): 'ако подадем string, ще конструираме set от буквите'
}
my_dict

{frozenset({1, 2, 3}): 'my password',
 frozenset({'a',
            'c',
            'e',
            'h',
            'r',
            's',
            't'}): 'ако подадем string, ще конструираме set от буквите'}

## Queue
https://docs.python.org/3/library/queue.html

## deque

## heapq
https://docs.python.org/3/library/heapq.html

## Algorithms
https://docs.python.org/3/library/bisect.html

https://docs.python.org/3/library/copy.html

https://docs.python.org/3/library/random.html

https://docs.python.org/3/library/itertools.html

https://docs.python.org/3/library/functools.html

https://docs.python.org/3/library/csv.html

https://docs.python.org/3/library/json.html

https://docs.python.org/3/library/re.html