# Datové struktury

In [18]:
from IPython.display import HTML

def YVideo(id, t=None):
# Youtube
    if t is None:
        fullStr = f'<iframe width="560" height="315" src="https://www.youtube.com/embed/{id}?rel=0&amp;controls=0&amp;showinfo=0" frameborder="0" allowfullscreen></iframe>'
    else:
        fullStr = f'<iframe width="560" height="315" src="https://www.youtube.com/embed/{id}?start={t}&amp;controls=0&amp;showinfo=0" frameborder="0" allowfullscreen></iframe>'
    return HTML(fullStr)

- Datové struktury
    - Elementární datové struktury
        - Znak
        - Číslo (IEEE 754)
        - Bool
    - Komplexní datové struktury
        - List (Python)
        - Dict (Python)
        - Tree
        - Graph
    - Principiální algoritmy pro práci s datovými strukturami
        - Třídění
        - Vyhledávání 
        - Výpočetní složitost

## Elementární datové struktury

### Čísla

Pravděpodobně historicky první datový prvek ukládaný v počítači. Rozlišujeme celá čísla a čísla s desetinnou čárkou (tečkou). Obecně je vhodné mít na paměti, že jakákoliv data jsou v paměti počítači zakódována v posloupnosti bitů (bytů). Celá čísla se aktuálně používají v podobě, která je adekvátní 2, 4, či 8 bytům.

Čísla s desetinnou čárkou definuje norma IEEE 754 v podobě 4, 8 a 10 bytů.

> Kolik možných kombinací odpovídá 8 bytům?
>
> Kolik různých desetinných čísel znáte?
> 
> Jaké komplikace z této skutečnosti vyplývají?

In [None]:
end = 0.8
start = 0
delta = 0.1

currentValue = start
index = 0
while currentValue < end:
    print(index, '\t', currentValue)
    currentValue = currentValue + delta
    index = index + 1 

0 	 0
1 	 0.1
2 	 0.2
3 	 0.30000000000000004
4 	 0.4
5 	 0.5
6 	 0.6
7 	 0.7
8 	 0.7999999999999999


In [None]:
value = 0.1
print(0.125 - value)

0.024999999999999994


Čísla s periodickým vyjádřením

$\frac{1}{3}=0.3333$ ?

> Jaký tvar má číslo 0.1 v paměti za předpokladu, že se jedná o implementaci podle IEEE 754, varianta 8 bytů?
> 

In [None]:
data = 0.1
cValue = 0.5
while data > 1e-15:
    cValue = cValue / 2
    if data > cValue:
        print('1', end='')
        data = data - cValue
    else:
        print('0', end='')
    

001100110011001100110011001100110011001100110011

[IEEE-754 Floating Point Converter](https://www.h-schmidt.net/FloatConverter/IEEE754.html)

### Znak

Potřeba ukládat text v počítači vedla k vytvoření datového typu znak. Historicky byl znak reprezentován 1 bytem.

> Kolik možných kombinací odpovídá 1 bytu?
> 
> Kolik znaků znáte?
> 
> Jaké komplikace z této skutečnosti vyplývají?
> 
> Jaké řešení bylo implementováno?



In [None]:
import sys

print(sys.getsizeof(''))
print(sys.getsizeof('A'))
print(sys.getsizeof('Á'))

53
50
74


In [None]:
print(sys.getsizeof('Á'))
print(sys.getsizeof('ÁB'))
print(sys.getsizeof('ÁČ'))
print(sys.getsizeof('ÁČĎ'))
print(sys.getsizeof('ÁČĎÉ'))

74
75
78
80
82


In [None]:
text = '\U00000394'
print(sys.getsizeof(text))
print(sys.getsizeof(text + 'Á'))

76
78


## Komplexní datové struktury

> **Doporučené video**
>
> [Data Structures & Algorithms Tutorial 20 dílů](https://www.youtube.com/playlist?list=PLeo1K3hjS3uu_n_a__MI_KktGTLYopZ12)

### List

In [None]:
data = [0, 1]

Implementace / organizace v paměti počítače (na úrovni strojového kódu). 

Ekvivalence s tabulkou v databázi. Tabulka má záznamy, list má položky.

Role hvězdičky pro práci s listem `*data`

In [None]:
data = [0, 1, 2, 3, 4]
first, *others, last = data
print(first, others, last)

0 [1, 2, 3] 4


In [None]:
def printList(*args):
    for arg in args:
        print(arg)

printList(0, 1, 2, 3, 'a', 'b', 'c')
printList([0, 1, 2, 3], ['a', 'b', 'c'])

0
1
2
3
a
b
c
[0, 1, 2, 3]
['a', 'b', 'c']


#### Datové struktury odvozené z listu (array)

- Queue / fronta FIFO [asynchronní fronty](https://docs.python.org/3/library/asyncio-queue.html)
- Stack / zásobník LIFO [asynchronní fronty](https://docs.python.org/3/library/asyncio-queue.html)



#### Queue

In [1]:
data = []
data.append(1)
data.append(2)
data.append(3)
print(data)
item, *data = data
print(item, data)


[1, 2, 3]
1 [2, 3]


#### Stack

In [2]:
data = []
data.append(1)
data.append(2)
data.append(3)
print(data)
*data, item = data
print(data, item)

[1, 2, 3]
[1, 2] 3


### Dictionary

In [3]:
data = {'value': 0}

Množina pojmenovaných hodnot. Podle jazyka mohou být jména omezena.

In [4]:
data2 = {1: 'ahoj', 'x': 5}
print(data2)

{1: 'ahoj', 'x': 5}


Implementace / organizace v paměti počítače (na úrovni strojového kódu). 

Ekvivalence s tabulkou v databázi. Tabulka má záznamy s unikátním id (klíč), dictionary má (unikátní) klíče a pro každý klíč hodnotu.

Role dvojhvězdičky pro práci s dictionary

In [5]:
data = {'name': 'John', 'age': 5}
print(data)
newData = {**data, 'age': 6}
print(data)
print(newData)

{'name': 'John', 'age': 5}
{'name': 'John', 'age': 5}
{'name': 'John', 'age': 6}


In [6]:
def printDict(**kwargs):
    for key, value in kwargs.items():
        print(key, value)

printDict(a=1, b='hi')

a 1
b hi


### Strom

[Wiki](https://en.wikipedia.org/wiki/Tree_(data_structure))

Strom je definován:
- množinou vrcholů (uzlů) 
- kořenovým vrcholem
- funkcí, která každému vrcholu přiřazuje datovou strukturu

Kořenový vrchol nemá rodiče,
každý další vrchol má právě jednoho rodiče.

> **Doporučené video**
>
> [Tree (General Tree) - Data Structures & Algorithms Tutorials In Python #9 23 min](https://www.youtube.com/watch?v=4r_XR9fUPhQ)





In [None]:
YVideo('4r_XR9fUPhQ')

Knihovna implementující datovou strukturu strom v jazyku Python [treelib](https://github.com/caesar0301/treelib).

In [7]:
pip install treelib

Collecting treelib
  Downloading treelib-1.6.1.tar.gz (24 kB)
Building wheels for collected packages: treelib
  Building wheel for treelib (setup.py) ... [?25l[?25hdone
  Created wheel for treelib: filename=treelib-1.6.1-py3-none-any.whl size=18386 sha256=2eab711f0b8658ab8ba2306b01a564ad892c80875a7f73c61f396a3aa7564315
  Stored in directory: /root/.cache/pip/wheels/89/be/94/2c6d949ce599d1443426d83ba4dc93cd35c0f4638260930a53
Successfully built treelib
Installing collected packages: treelib
Successfully installed treelib-1.6.1


In [8]:
from treelib import Node, Tree
tree = Tree()
tree.create_node("Harry", "harry")  # root node
tree.create_node("Jane", "jane", parent="harry")
tree.create_node("Bill", "bill", parent="harry")
tree.create_node("Diane", "diane", parent="jane")
tree.create_node("Mary", "mary", parent="diane")
tree.create_node("Mark", "mark", parent="jane")
tree.show()

Harry
├── Bill
└── Jane
    ├── Diane
    │   └── Mary
    └── Mark



### Graf

[Wiki](https://en.wikipedia.org/wiki/Graph_(abstract_data_type))

Graf je definován (viz předmět teorie grafů):
- množinou vrcholů (uzlů)
- množinou hran, přičemž hrany jsou svázány se dvěma vrcholy 
- funkcí, která každé hraně (každému vrcholu) přiřazuje datovou strukturu

> **Doporučené video**
>
> [Graph Introduction - Data Structures & Algorithms Tutorials In Python #12 32 min](https://www.youtube.com/watch?v=j0IYCyBdzfA)

In [None]:
YVideo('j0IYCyBdzfA')

### Třídy

Třídy jsou spojeny s objektovým programováním, kde se zmiňují hlavně tyto pojmy:

- encapsulation / zapouzdření
- inheritance / dědičnost
- polymorfism / mnohotvárnost

Právě zapouzdření je úzce spojeno s datovými strukturami. Zapouzdření zabezpečuje v "jednom pouzdře" všechna data a metody pro práci s nimi.

Pokud se budeme soustředit na pouhá data, uvidíme datovou strukturu, jejíž položky mohou být různého typu. Všimněte si souvislosti s datovým modelem (SQLAlchemy) a s reprezentací datového modelu - tabulkou (v databázi).

In [9]:
!pip install sqlalchemy



In [None]:
from sqlalchemy import Column, String, Integer, ForeignKey
from sqlalchemy.orm import relationship, backref
from sqlalchemy.ext.declarative import declarative_base

Base = declarative_base()

class User(Base):
    __tablename__ = 'users'

    id = Column(Integer, primary_key=True)
    name = Column(String(200), nullable=False)
    surname = Column(String(200), nullable=False)
    


### Další typy (Python)

- Tuple
- Named Tuple

In [10]:
data = (12, 23, 78)
print(data)

(12, 23, 78)


In [None]:
def funct(a, b):
    c = a + b
    d = a * b
    return (c, d)

### Koncept Immutable

Immutable datová struktura je datová struktura, kterou nelze změnit. V programu tedy (v extrému) existují jen konstanty.

**Redux** - knihovna, která na konceptu staví řešení pro správu dat ve webové aplikaci.

Příklad, který je konceptem řešen.

In [11]:
def changeName(data, value):
    data['name'] = value
    return data

input = {'name': 'John'}
result = changeName(input, 'Julie')
print('result', result)
print('input', input)

result {'name': 'Julie'}
input {'name': 'Julie'}


Řešení v duchu konceptu immutable

In [12]:
def changeName(data, value):
    result = {**data, 'name': value}
    return result

input = {'name': 'John'}
result = changeName(input, 'Julie')
print('result:', result)
print('input:', input)

result: {'name': 'Julie'}
input: {'name': 'John'}


Side effect functions - funkce s vedlejšími efekty je funkce, při svém běhu změní i hodnoty mimo tělo funkce. Velmi často jsou takové funkce i závislé na hodnotách externích proměnných. Funkce se závislostí na vnějším prostředí je velmi obtížně testovatelnou funkcí. Proto je potencionálním chybovým místem v kódu. Navíc se tyto chyby velmi špatně hledají.

**Pozor**

V jazyku Python lze i funkci chápat (a použít) jako proměnnou. Jinak řečeno, do názvu, který reprezentuje funkci lze uložit jinou funkci (i číslo). 

In [13]:
def add(a, b):
    return a + b

add = lambda c, d: c * d

print(add(2, 3))

6


In [14]:
def add(a, b):
    return a + b

def sum(dataArray):
    acc = 0
    for item in dataArray:
        acc = add(acc, item)
    return acc

print(sum([0, 1, 2, 3, 4]))
add = lambda c, d: c * d # nova definice add, chovani sum se zmeni
print(sum([0, 1, 2, 3, 4]))

10
0


## Principiální algoritmy pro práci s datovými strukturami

### Předávání parametrů funkci

In [15]:
def inc(value):
    value = value + 1
    return value

input = 5
result = inc(input)
print('result:', result)
print('input:', input)

result: 6
input: 5


Srovnejte s funkcí `changeName` definované výše. 

>
> **Jak si vysvětlíte skutečnost, že obdobné funkce fungují odlišně?**
>

### Algoritmus třídění

#### Bubble Sort

https://www.geeksforgeeks.org/python-program-for-bubble-sort/

In [16]:
# taken from https://www.geeksforgeeks.org/python-program-for-bubble-sort/
# Python program for implementation of Bubble Sort

def bubbleSort(arr):
	n = len(arr)

	# Traverse through all array elements
	for i in range(n-1):
	# range(n) also work but outer loop will repeat one time more than needed.

		# Last i elements are already in place
		for j in range(0, n-i-1):

			# traverse the array from 0 to n-i-1
			# Swap if the element found is greater
			# than the next element
			if arr[j] > arr[j + 1] :
				arr[j], arr[j + 1] = arr[j + 1], arr[j]

# Driver code to test above
arr = [64, 34, 25, 12, 22, 11, 90]

bubbleSort(arr)

print ("Sorted array is:")
for i in range(len(arr)):
	print ("% d" % arr[i]),


Sorted array is:
 11
 12
 22
 25
 34
 64
 90


#### Merge Sort

https://www.geeksforgeeks.org/merge-sort/

In [None]:
# taken from https://www.geeksforgeeks.org/merge-sort/
# Python program for implementation of MergeSort
def mergeSort(arr):
    if len(arr) > 1:
  
         # Finding the mid of the array
        mid = len(arr)//2
  
        # Dividing the array elements
        L = arr[:mid]
  
        # into 2 halves
        R = arr[mid:]
  
        # Sorting the first half
        mergeSort(L)
  
        # Sorting the second half
        mergeSort(R)
  
        i = j = k = 0
  
        # Copy data to temp arrays L[] and R[]
        while i < len(L) and j < len(R):
            if L[i] < R[j]:
                arr[k] = L[i]
                i += 1
            else:
                arr[k] = R[j]
                j += 1
            k += 1
  
        # Checking if any element was left
        while i < len(L):
            arr[k] = L[i]
            i += 1
            k += 1
  
        while j < len(R):
            arr[k] = R[j]
            j += 1
            k += 1

# Driver code to test above
arr = [64, 34, 25, 12, 22, 11, 90]

mergeSort(arr)

print ("Sorted array is:")
for i in range(len(arr)):
	print ("% d" % arr[i]),


Sorted array is:
 11
 12
 22
 25
 34
 64
 90


#### Shell Sort

https://www.geeksforgeeks.org/python-program-for-shellsort/

In [17]:
# taken from https://www.geeksforgeeks.org/python-program-for-shellsort/ (improved)
def shellSort(arr):
  
    # Start with a big gap, then reduce the gap
    n = len(arr)
    n = n - n % 2
    gap = n // 2
  
    # Do a gapped insertion sort for this gap size.
    # The first gap elements a[0..gap-1] are already in gapped 
    # order keep adding one more element until the entire array
    # is gap sorted
    while gap > 0:
  
        for i in range(gap, n):
  
            # add a[i] to the elements that have been gap sorted
            # save a[i] in temp and make a hole at position i
            temp = arr[i]
  
            # shift earlier gap-sorted elements up until the correct
            # location for a[i] is found
            j = i
            while  j >= gap and arr[j-gap] >temp:
                arr[j] = arr[j-gap]
                j -= gap
  
            # put temp (the original a[i]) in its correct location
            arr[j] = temp

        if gap == 1:
            break
        gap = gap - gap % 2
        gap = gap // 2

# Driver code to test above
arr = [64, 34, 25, 12, 22, 11, 90]

shellSort(arr)

print ("Sorted array is:")
for i in range(len(arr)):
	print ("% d" % arr[i]),

Sorted array is:
 11
 12
 22
 25
 34
 64
 90


> **Doporučené video**
> 
> [Srovnání algoritmů třídění](https://youtu.be/GIvjJwzrHBU?t=789)

In [19]:
YVideo('GIvjJwzrHBU', t=789)

### Přístup k rozsáhlým datovým strukturám

Hra / sázka. Pomocí deseti otázek, na které lze odpovědět ano/ne, zjistím jaké číslo z rozsahu 0-1000 (1023) si protivník myslí. Jakým způsobem?

**Důsledek**

> 
> Datové struktury v databázi mají primární, unikátní klíč
> 

**Otázka**

>
> Kolik "otázek" je potřeba pro nalezení záznamu pomocí jeho ID v tabulce o velikosti 4TB s očekávanou délkou záznamu 1kB?
>

Binární strom

In [None]:
def quess(low, high):
    if low == high:
        return f'it is {low}'

    middle = (low + high) // 2
    q = input(f'it is lower than {middle}? ')
    if q in ['1', 'A', 'a', 'Y', 'y']:
        result = quess(low, middle - 1)
    else:
        result = quess(middle, high)

    return result


print('save a value from inteval <0; 1023>')
val = quess(0, 1023)
print(val)

quess value in inteval <0; 1023>
it is lower than 511?y
it is lower than 255?n
it is lower than 382?n
it is lower than 446?y
it is lower than 413?n
it is lower than 429?y
it is lower than 420?n
it is lower than 424?y
it is lower than 421?n
it is lower than 422?y
it is 421


In [None]:
def createDecisionTree(low, high):
    if low == high:
        return lambda value: f'It is {value}'
    else:
      middle = (low + high) // 2
      #print(low, middle, high)
      leftBranch = createDecisionTree(low, middle)
      rightBranch = createDecisionTree(middle + 1, high)
      return lambda value: leftBranch(value) if value < middle else rightBranch(value)

decisionTree = createDecisionTree(0, 1023)
decisionTree(421)

'It is 421'

In [21]:
def createFinder(sortedList):
    lastIndex = len(sortedList) - 1
    if lastIndex == 0:
        return lambda value, offset = 0: offset
    else:
        middleIndex = len(sortedList) // 2 
        #print(0, middleIndex, lastIndex, sortedList)
        valueAt = sortedList[middleIndex]
        leftFinder = createFinder(sortedList[:middleIndex])
        rightFinder = createFinder(sortedList[middleIndex:])
        #return lambda value, offset = 0: rightFinder(value, offset + middleIndex) if value > valueAt else leftFinder(value, offset)
        return lambda value, offset = 0:  leftFinder(value, offset) if value < valueAt else rightFinder(value, offset + middleIndex)

inputList = [0, 25, 59, 123, 785, 899, 1000]
finder = createFinder(inputList)
for item in inputList:
    print(item, '->', finder(item))

0 -> 0
25 -> 1
59 -> 2
123 -> 3
785 -> 4
899 -> 5
1000 -> 6


In [22]:
%%timeit
for item in inputList:
    _ = finder(item)

The slowest run took 4.69 times longer than the fastest. This could mean that an intermediate result is being cached.
100000 loops, best of 5: 3.57 µs per loop


In [23]:
%%timeit
for item in inputList:
    _ = inputList.index(item)

The slowest run took 4.63 times longer than the fastest. This could mean that an intermediate result is being cached.
1000000 loops, best of 5: 1.41 µs per loop


Vytvořte vyhledávání bez využití `index`. Kód doplňte do následující funkce.

In [26]:
def myIndex(data=[0, 1, 2, 3], value=2):
    for index, item in zip(data, range(len(data))):
        if item == value:
            return index

print([0, 1, 2, 3].index(2))
print(myIndex())
data=[0, 1, 2, 3]
for item in data:
    print(item, '->', myIndex(data, item))

2
2
0 -> 0
1 -> 1
2 -> 2
3 -> 3


Ověřte si rychlost implementovaného algoritmu

In [None]:
%%timeit
for item in inputList:
    _ = myIndex(inputList, item)

The slowest run took 4.71 times longer than the fastest. This could mean that an intermediate result is being cached.
1000000 loops, best of 5: 883 ns per loop
