<a href="https://colab.research.google.com/github/hrbolek/learning/blob/master/ais/02_datastr.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Datové struktury

In [42]:
from IPython.display import HTML

def YVideo(id, t=None):
# Youtube
    if t is None:
        fullStr = f'<iframe width="560" height="315" src="https://www.youtube.com/embed/{id}?rel=0&amp;controls=0&amp;showinfo=0" frameborder="0" allowfullscreen></iframe>'
    else:
        fullStr = f'<iframe width="560" height="315" src="https://www.youtube.com/embed/{id}?start={t}&amp;controls=0&amp;showinfo=0" frameborder="0" allowfullscreen></iframe>'
    return HTML(fullStr)

- Datové struktury
    - Elementární datové struktury
        - Znak
        - Číslo (IEEE 754)
        - Bool
    - Komplexní datové struktury
        - List (Python)
        - Dict (Python)
        - Tree
        - Graph
    - Principiální algoritmy pro práci s datovými strukturami
        - Třídění
        - Vyhledávání 
        - Výpočetní složitost

## Elementární datové struktury

### Čísla

Pravděpodobně historicky první datová prvek ukládaný v počítači. Rozlišujeme celá čísla a čísla s desetinnou čárkou (tečkou). Obecně je vhodné mít na paměti, že jakákoliv data jsou v paměti počítači zakódována v posloupnosti bitů (bytů). Celá čísla se aktuálně používají v podobě, která je adekvátní 2, 4, či 8 bytům.

Čísla s desetinnou čárkou definuje norma IEEE 754 v podobě 4, 8 a 10 bytů.

> Kolik možných kombinací odpovídá 8 bytům?
>
> Kolik různých desetinných čísel znáte?
> 
> Jaké komplikace z této skutečnosti vyplývají?

In [None]:
end = 0.8
start = 0
delta = 0.1

currentValue = start
index = 0
while currentValue < end:
    print(index, '\t', currentValue)
    currentValue = currentValue + delta
    index = index + 1 

0 	 0
1 	 0.1
2 	 0.2
3 	 0.30000000000000004
4 	 0.4
5 	 0.5
6 	 0.6
7 	 0.7
8 	 0.7999999999999999


In [1]:
value = 0.1
print(0.125 - value)

0.024999999999999994


Čísla s periodickým vyjádřením

$\frac{1}{3}=0.3333$ ?

> Jaký tvar má číslo 0.1 paměti za předpokladu, že se jedná o implementaci podle IEEE 754, varianta 8 bytů?
> 

In [2]:
data = 0.1
cValue = 0.5
while data > 1e-15:
    cValue = cValue / 2
    if data > cValue:
        print('1', end='')
        data = data - cValue
    else:
        print('0', end='')
    

001100110011001100110011001100110011001100110011

[IEEE-754 Floating Point Converter](https://www.h-schmidt.net/FloatConverter/IEEE754.html)

### Znak

Potřeba ukládat text v počítači vedla k vytvoření datového typu znak. Historicky byl znak reprezentován 1 bytem.

> Kolik možných kombinací odpovídá 1 bytu?
> 
> Kolik znaků znáte?
> 
> Jaké komplikace z této skutečnosti vyplývají?
> 
> Jaké řešení bylo implementováno?



In [None]:
import sys

print(sys.getsizeof(''))
print(sys.getsizeof('A'))
print(sys.getsizeof('Á'))

53
50
74


In [None]:
print(sys.getsizeof('Á'))
print(sys.getsizeof('ÁB'))
print(sys.getsizeof('ÁČ'))
print(sys.getsizeof('ÁČĎ'))
print(sys.getsizeof('ÁČĎÉ'))

74
75
78
80
82


In [None]:
text = '\U00000394'
print(sys.getsizeof(text))
print(sys.getsizeof(text + 'Á'))

76
78


## Komplexní datové struktury

> **Doporučené video**
>
> [Data Structures & Algorithms Tutorial 20 dílů](https://www.youtube.com/playlist?list=PLeo1K3hjS3uu_n_a__MI_KktGTLYopZ12)

### List

In [None]:
data = [0, 1]

Implementace / organizace v paměti počítače (na úrovni strojového kódu). 

Ekvivalence s tabulkou v databázi. Tabulka má záznamy, list má položky.

Role hvězdičky pro práci s listem `*data`

In [None]:
data = [0, 1, 2, 3, 4]
first, *others, last = data
print(first, others, last)

0 [1, 2, 3] 4


In [None]:
def printList(*args):
    for arg in args:
        print(arg)

printList(0, 1, 2, 3, 'a', 'b', 'c')
printList([0, 1, 2, 3], ['a', 'b', 'c'])

0
1
2
3
a
b
c
[0, 1, 2, 3]
['a', 'b', 'c']


#### Datové struktury odvozené z listu (array)

- Queue / fronta LIFO [asynchronní fronty](https://docs.python.org/3/library/asyncio-queue.html)
- Stack / zásobník FIFO [asynchronní fronty](https://docs.python.org/3/library/asyncio-queue.html)



#### Queue

In [7]:
data = []
data.append(1)
data.append(2)
data.append(3)
print(data)
item, *data = data
print(item, data)


[1, 2, 3]
1 [2, 3]


#### Stack

In [9]:
data = []
data.append(1)
data.append(2)
data.append(3)
print(data)
*data, item = data
print(data, item)

[1, 2, 3]
[1, 2] 3


### Dictionary

In [None]:
data = {'value': 0}

Množina pojmenovaných hodnot. Podle jazyka mohou být jména omezena.

In [None]:
data2 = {1: 'ahoj', 'x': 5}
print(data2)

{1: 'ahoj', 'x': 5}


Implementace / organizace v paměti počítače (na úrovni strojového kódu). 

Ekvivalence s tabulkou v databázi. Tabulka má záznamy s unikátním id (klíč), dictionary má (unikátní) klíče a pro každý klíč hodnotu.

Role dvojhvězdičky pro práci s dictionary

In [None]:
data = {'name': 'John', 'age': 5}
print(data)
newData = {**data, 'age': 6}
print(data)
print(newData)

{'name': 'John', 'age': 5}
{'name': 'John', 'age': 5}
{'name': 'John', 'age': 6}


In [None]:
def printDict(**kwargs):
    for key, value in kwargs.items():
        print(key, value)

printDict(a=1, b='hi')

a 1
b hi


### Strom

[Wiki](https://en.wikipedia.org/wiki/Tree_(data_structure))

Strom je definován:
- množinou vrcholů (uzlů) 
- kořenovým vrcholem
- funkcí, která každému vrcholu přiřazuje datovou strukturu

Kořenový vrchol nemá rodiče,
každý další vrchol má právě jednoho rodiče.

> **Doporučené video**
>
> [Tree (General Tree) - Data Structures & Algorithms Tutorials In Python #9 23 min](https://www.youtube.com/watch?v=4r_XR9fUPhQ)





In [37]:
YVideo('4r_XR9fUPhQ')

Knihovna implementující datovou strukturu strom v jazyku Python [treelib](https://github.com/caesar0301/treelib).

In [10]:
pip install treelib

Collecting treelib
  Downloading treelib-1.6.1.tar.gz (24 kB)
Building wheels for collected packages: treelib
  Building wheel for treelib (setup.py) ... [?25l[?25hdone
  Created wheel for treelib: filename=treelib-1.6.1-py3-none-any.whl size=18386 sha256=3b3f7a4188b20a5987f7586d626125b7c7cb2d0cadfaacba1423c6410d7a77bc
  Stored in directory: /root/.cache/pip/wheels/89/be/94/2c6d949ce599d1443426d83ba4dc93cd35c0f4638260930a53
Successfully built treelib
Installing collected packages: treelib
Successfully installed treelib-1.6.1


In [11]:
from treelib import Node, Tree
tree = Tree()
tree.create_node("Harry", "harry")  # root node
tree.create_node("Jane", "jane", parent="harry")
tree.create_node("Bill", "bill", parent="harry")
tree.create_node("Diane", "diane", parent="jane")
tree.create_node("Mary", "mary", parent="diane")
tree.create_node("Mark", "mark", parent="jane")
tree.show()

Harry
├── Bill
└── Jane
    ├── Diane
    │   └── Mary
    └── Mark



### Graf

[Wiki](https://en.wikipedia.org/wiki/Graph_(abstract_data_type))

Graf je definován (viz předmět teorie grafů):
- množinou vrcholů (uzlů)
- množinou hran, přičemž hrany jsou svázány se dvěma vrcholy 
- funkcí, která každé hraně (každému vrcholu) přiřazuje datovou strukturu

> **Doporučené video**
>
> [Graph Introduction - Data Structures & Algorithms Tutorials In Python #12 32 min](https://www.youtube.com/watch?v=j0IYCyBdzfA)

In [43]:
YVideo('j0IYCyBdzfA')

### Koncept Immutable

Immutable datová struktura je datová struktura, kterou nelze změnit. V programu tedy (v extrému) existují jen konstanty.

**Redux** - knihovna, která na konceptu staví řešení pro správu dat ve webové aplikaci.

Příklad, který je konceptem řešen.

In [None]:
def changeName(data, value):
    data['name'] = value
    return data

input = {'name': 'John'}
result = changeName(input, 'Julie')
print('result', result)
print('input', input)

result {'name': 'Julie'}
input {'name': 'Julie'}


Řešení v duchu konceptu immutable

In [None]:
def changeName(data, value):
    result = {**data, 'name': value}
    return result

input = {'name': 'John'}
result = changeName(input, 'Julie')
print('result:', result)
print('input:', input)

result {'name': 'Julie'}
input {'name': 'John'}


Side effect functions - funkce s vedlejšími efekty je funkce, při svém běhu změní i hodnoty mimo tělo funkce. Velmi často jsou takové funkce i závislé na hodnotách externích proměnných. Funkce se závislostí na vnějším prostředí je velmi obtížně testovatelnou funkcí. Proto je potencionálním chybovým místem v kódu. Navíc se tyto chyby velmi špatně hledají.

**Pozor**

V jazyku Python lze i funkci chápat (a použít) jako proměnnou. Jinak řečeno, do názvu, který reprezentuje funkci lze uložit jinou funkci (i číslo). 

In [None]:
def add(a, b):
    return a + b

add = lambda c, d: c * d

print(add(2, 3))

6


In [None]:
def add(a, b):
    return a + b

def sum(dataArray):
    acc = 0
    for item in dataArray:
        acc = add(acc, item)
    return acc

print(sum([0, 1, 2, 3, 4]))
add = lambda c, d: c * d
print(sum([0, 1, 2, 3, 4]))

10
0


## Principiální algoritmy pro práci s datovými strukturami

### Předávání parametrů funkci

In [None]:
def inc(value):
    value = value + 1
    return value

input = 5
result = inc(input)
print('result:', result)
print('input:', input)

result: 6
input: 5


Srovnejte s funkcí `changeName` definované výše. 

>
> **Jak si vysvětlíte skutečnost, že obdobné funkce fungují odlišně?**
>

### Algoritmus třídění

#### Bubble Sort

https://www.geeksforgeeks.org/python-program-for-bubble-sort/

In [12]:
# taken from https://www.geeksforgeeks.org/python-program-for-bubble-sort/
# Python program for implementation of Bubble Sort

def bubbleSort(arr):
	n = len(arr)

	# Traverse through all array elements
	for i in range(n-1):
	# range(n) also work but outer loop will repeat one time more than needed.

		# Last i elements are already in place
		for j in range(0, n-i-1):

			# traverse the array from 0 to n-i-1
			# Swap if the element found is greater
			# than the next element
			if arr[j] > arr[j + 1] :
				arr[j], arr[j + 1] = arr[j + 1], arr[j]

# Driver code to test above
arr = [64, 34, 25, 12, 22, 11, 90]

bubbleSort(arr)

print ("Sorted array is:")
for i in range(len(arr)):
	print ("% d" % arr[i]),


Sorted array is:
 11
 12
 22
 25
 34
 64
 90


#### Merge Sort

https://www.geeksforgeeks.org/merge-sort/

In [13]:
# taken from https://www.geeksforgeeks.org/merge-sort/
# Python program for implementation of MergeSort
def mergeSort(arr):
    if len(arr) > 1:
  
         # Finding the mid of the array
        mid = len(arr)//2
  
        # Dividing the array elements
        L = arr[:mid]
  
        # into 2 halves
        R = arr[mid:]
  
        # Sorting the first half
        mergeSort(L)
  
        # Sorting the second half
        mergeSort(R)
  
        i = j = k = 0
  
        # Copy data to temp arrays L[] and R[]
        while i < len(L) and j < len(R):
            if L[i] < R[j]:
                arr[k] = L[i]
                i += 1
            else:
                arr[k] = R[j]
                j += 1
            k += 1
  
        # Checking if any element was left
        while i < len(L):
            arr[k] = L[i]
            i += 1
            k += 1
  
        while j < len(R):
            arr[k] = R[j]
            j += 1
            k += 1

# Driver code to test above
arr = [64, 34, 25, 12, 22, 11, 90]

mergeSort(arr)

print ("Sorted array is:")
for i in range(len(arr)):
	print ("% d" % arr[i]),


Sorted array is:
 11
 12
 22
 25
 34
 64
 90


#### Shell Sort

https://www.geeksforgeeks.org/python-program-for-shellsort/

In [25]:
# taken from https://www.geeksforgeeks.org/python-program-for-shellsort/ (improved)
def shellSort(arr):
  
    # Start with a big gap, then reduce the gap
    n = len(arr)
    n = n - n % 2
    gap = n // 2
  
    # Do a gapped insertion sort for this gap size.
    # The first gap elements a[0..gap-1] are already in gapped 
    # order keep adding one more element until the entire array
    # is gap sorted
    while gap > 0:
  
        for i in range(gap, n):
  
            # add a[i] to the elements that have been gap sorted
            # save a[i] in temp and make a hole at position i
            temp = arr[i]
  
            # shift earlier gap-sorted elements up until the correct
            # location for a[i] is found
            j = i
            while  j >= gap and arr[j-gap] >temp:
                arr[j] = arr[j-gap]
                j -= gap
  
            # put temp (the original a[i]) in its correct location
            arr[j] = temp

        if gap == 1:
            break
        gap = gap - gap % 2
        gap = gap // 2

# Driver code to test above
arr = [64, 34, 25, 12, 22, 11, 90]

shellSort(arr)

print ("Sorted array is:")
for i in range(len(arr)):
	print ("% d" % arr[i]),

Sorted array is:
 11
 12
 22
 25
 34
 64
 90


> **Doporučené video**
> 
> [Srovnání algoritmů třídění](https://youtu.be/GIvjJwzrHBU?t=789)

In [39]:
YVideo('GIvjJwzrHBU', t=789)

### Přístup k rozsáhlým datovým strukturám

Hra / sázka. Pomocí deseti otázek, na které lze odpovědět ano/ne, zjistím jaké číslo z rozsahu 0-1000 (1023) si protivník myslí. Jakým způsobem?

**Důsledek**

> 
> Datové struktury v databázi mají primární, unikátní klíč
> 

**Otázka**

>
> Kolik "otázek" je potřeba pro nalezení záznamu pomocí jeho ID v databázi o velikosti 4TB s očekávanou délkou záznamu 1kB?
>

Binární strom