# Práca s poľami, reťazcami a súbormi

## Inicializácia

In [None]:
import os
import math
import random
from sympy import *

In [None]:
def get_unsorted(length=100):
    """
    An unsorted array of integers.
    
    Args:
        length (int): Number of elements in the returned array (*default* 100).
    
    Returns:
        list[int]: An array full of random integers ranging from -100 to 100 (100 not included).
    """
    return [random.randrange(-100, 100) for i in range(length)]

----------

## Zoraďovanie polí

- *Poľom* nazveme akúkoľvek reprezentáciu usporiadanej $n$-tice **rovnakého dátového typu**.
    - Zoraďovací predpis, samozrejme, možno definovať i pre $n$-ticu zloženú z rôznych dátových typov. Pre názornosť ale takéto prípady vynecháme. Platia na ne rovnaké algoritmy ako na homogénne $n$-tice, teda polia v našom ponímaní.
    - Pre jednoduchosť budeme pracovať s *reálnymi číslami*
        - Prirodzene definované operátory `<`, `>`, `<=`, `>=`, `==`
    
- Cieľ: Usporiadať hodnoty v poli
    - *Vzostupne*
        - Zostupné usporiadanie je založené na rovnakom princípe, iba zmysel porovnaní bude opačný
   
--------
### Bubble sort

<img src="img/sorting/bubble_sort.gif" width=800 />

- Jeden beh:
    - Okienko o dvoch susedných hodnotách $a$ a $b$
    - Pokiaľ $a > b$, nastane zmena pozícií
    - Posun okienka o jeden prvok vpravo
    
- Pri každom behu sa na správnu pozíciu dostane aspoň jedna hodnota.
    - Pre $n$-prvkové pole teda treba $n - 1$ behov
        - Pri každom z nich $n - 1$ porovnaní

- Asymptotická zložitosť algoritmu $\mathcal{O}(n^2)$
- Schopnosť detekovať, že pole je už zoradené
    - V najlepšom prípade (už zoradené pole) je zložitosť $\mathcal{O}(n)$ (Prebehne iba 1 beh)

In [None]:
a = get_unsorted()
        
def bubble_sort(a):
    ##################
    # Your code here #
    ##################
                
    return a

%time bubble_sort(a)
print(a)

-----------

### Insertion sort

<img src="img/sorting/insertion_sort.gif" width=800 />

- Prvý prvok poľa je sám o sebe zoradeným poľom.
- Zoberieme 2. prvok a zaradíme ho do poľa vľavo
    - Tým získame dvojprvkové zoradené pole na začiatku celého poľa
- Zoberieme 3. prvok a zaradíme ho do dvojprvkového zoradeného poľa
    - Tým získame trojprvkové zoradené pole na začiatku celého poľa
- ...a pokračujeme až po posledný prvok celkového poľa.


- Prechádzame $n-1$ prvkov
    - Pre prvý 1 porovnanie
    - Pre druhý najviac 2 porovnania
    - Pre tretí najviac 3 porovnania atď.
- V najhoršom prípade teda celkovo $\sum_{k=1}^{n-1}k$ porovnaní

In [None]:
k, n = symbols('k n')
Sum(k, (k, 1, k - 1)).doit()

- Asymptotická zložitosť $\mathcal{O}(n^2)$

In [None]:
a = get_unsorted()

def insertion_sort(a):
    ##################
    # Your code here #
    ##################
    
    return a
        
%time insertion_sort(a)
print(a)

-----------

### Quicksort

- Patrí do skupiny algoritmov typu *rozdeľ a panuj*.
- Zaraďuje sa do triedy zložitosti $\mathcal{O}(n\log n)$
- Využitie *rekurzie*

> #### Rekurzia
>
> - Pokiaľ nie je splnená ukončovacia podmienka, funkcia **volá samú seba**.

* Algoritmus quicksort:


> * Vyber **pivot** (napr. prvý prvok poľa)
>
> * Prejdi celé pole a **preusporiadaj** ho tak, aby naľavo od pivota boli iba prvky **menšie než pivot** a napravo od neho iba prvky, ktoré sú **väčšie než pivot**.
>
> * **Zoraď pomocou *quicksort*** pole vľavo od pivota i pole vpravo od pivota.

In [None]:
def quick_sort(a):
    ##################
    # Your code here #
    ##################  
    
a = get_unsorted()

%time a = quick_sort(a)
print(a)

-----------
### Bogosort

In [None]:
def issorted(a):
    ##################
    # Your code here #
    ##################

def bogo_sort(a):
    while not issorted(a):
        random.shuffle(a)
    return a

a = get_unsorted(5)
%time bogo_sort(a)

print(a)

------------
* Zoraďovacích algoritmov existuje ešte omnoho viac $-$ viď napr. [Wikipedia](https://en.wikipedia.org/wiki/Sorting_algorithm)

### Zabudované zoraďovacie funkcie Pythonu

* `list.sort()` ([Dokumentácia](https://docs.python.org/3/library/stdtypes.html#list.sort))$~\to ~$ Zoradenie zoznamu *na mieste*

    * Parameter `reverse` (bool): `list.sort()` defaultne[<sup>1</sup>](#foot01) zoraďuje zoznam *vzostupne*. Pokiaľ je hodnota argumentu pre parameter `reverse` nastavená na  `True`, zmysel porovnávaní bude zmenený a pole bude zoradené v *zostupnom* zmysle (*default* `False`)
    
    * Parameter `key` (callable): Funkcia, ktorá transformuje hodnoty zoznamu na kľúče, ktoré majú vstúpovať do porovnávaní (*default* `None`)
        * Príklad:

In [None]:
l = [7, 'foo', 'Whale', 'Foo', 'whale', '7', 'seven', [1, 2, 3]]

* `sorted()` [Dokumentácia](https://docs.python.org/3/library/functions.html#sorted) $~\to ~$ Vytvorenie zoradeného poľa z iterovateľného objektu, ktorý je jej povinným parametrom
    * Parametre `key` a `reverse` majú rovnaký význam, ako v metóde `list.sort()`

----------
## Úlohy z [CW](https://cw.fel.cvut.cz/wiki/courses/bab37zpr/tutorials/lab05)

1. Napíšte funkciu `my_find(a, b)`, ktorá v reťazci `a` hľadá reťazec `b` (nepoužívajte zabudovanú funkciu `str.find()`)
    * Pokiaľ je reťazec nájdený, funkcia vráti index jeho prvého výskytu *zľava*.
    * Pokiaľ reťazec nenájde, vráti -1.
    * Efektívna implementácia: [Boyer-Moore-Horspool algoritmus](https://en.wikipedia.org/wiki/Boyer%E2%80%93Moore%E2%80%93Horspool_algorithm).

In [None]:
# The Python find(a, b) function:
a = 'mechanotherapy'
b = 'another'

In [None]:
def my_find(a, b):
    ##################
    # Your code here #
    ##################
    
a = 'mechanotherapy'
b = 'another'

print(my_find(a, b))
print(my_find(a, 'that'))

2. Napíšte funkciu `my_replace(a, b, c)`, ktorá v reťazci `a` nahradí všetky výskyty reťazca `b` reťazcom `c`. 

In [None]:
# The Python find(a, b) function:
a = 'mechanotherapy'
b = 'mechano'
c = 'hydro'

In [None]:
def my_replace(a, b, c):
    ##################
    # Your code here #
    ##################
    
a = 'mechanotherapy mechanotherapy'
b = 'mechano'
c = 'hydro'

print(my_replace(a, b, c))

3. Napíšte program, ktorý načíta štandardný vstup a v načítanom reťazci zamení slovo `Hello` za slovo `Hi`. Pokiaľ sa vo vstupnom reťazci objaví slovo `End`, program skončí.

In [None]:
##################
# Your code here #
##################

--------
## Práca so súbormi

* Súbory všeobecne môžeme rozdeliť na
    * **Binárne** $-$ postupnosť 0 a 1 
        * Na dekódovanie je potrebné poznať *protokol*
    * **Textové**
        * Tiež ide o postupnosť 0 a 1, ale podlieha protokolu pre kódovanie textu (Unicode (UTF-8), ISO 646 (ASCII),...) ([Wikipedia](https://en.wikipedia.org/wiki/Character_encoding))
        
* **Na prípone nezáleží**
    * Prípona súboru by v ideálnom prípade mala vyjadrovať kódovanie súboru, ale neexistuje mechanizmus, ktorý by to zaručil.
        * Nie je problém uložiť obrázok vo formáte JPEG s ako súbor s príponou `.txt`, `.exe`,...
    * Názov súboru vôbec *nemusí obsahovať príponu*
        
-----
        
### Otvorenie súboru

* Funkcia `open()` ([Dokumentácia](https://docs.python.org/3/library/functions.html#open))
    * Jediný povinný parameter: *cesta k súboru*
    
#### Ako zadať cestu k súboru?

* Manuálne ako *absolútnu* cestu
    * Windows: `C:\Windows\Users\Jozko\Documents\subor.dat`
    * Unix: `/home/Jozko/Documents/subor.dat`
    
* Manuálne ako *relatívnu* cestu (volanie zo zložky `Jozko`)
    * Windows: `Documents\subor.dat`
    * Unix: `./Documents/subor.dat`
    
* S využitím balíčka `os`

>```python
>import os
>
>path2 = os.path.abspath('./Documents/subor.dat') # Call from Jozko directory
>path1 = os.path.abspath(os.path.expanduser('~/Documents/subor.dat')) # Call from anywhere
>```

* Prečo využívať `os`?
    * Väčšie programy sú často (skoro vždy) rozdelené do súborov, tieto súbory sú pre prehľadnosť triedené do zložiek.
    * Aby sa súbory navzájom „videli,“ musia poznať relatívne cesty k sebe (alebo aspoň k zložkám, v ktorých majú ostatné súbory vyhľadávať)
    * Balíček `os` zabezpečí, že cesty k súborom budú použiteľné na akejkoľvek platforme
    --------
    
    * Dôležitým parametrom funkcie `open()` je tiež *mód otvorenia* súboru $-$ čo bude po otvorení so súborom možné vykonávať.
        * Argument má tvar textového reťazca, zloženého z príznakov:
    
| Príznak | Význam |
| ----- | ---------------------------- |
| `'r'` | Čítanie súboru (**Default**) |
| `'w'` | Písanie do *čistého* súboru |
| `'x'` | Písanie do čistého súboru, ale iba ak súbor s takým istým menom *neexistuje* |
| `'a'` | Písanie na koniec existujúceho súboru. Ak súbor neexistuje, je vytvorený. |
| `'b'` | Zápis binárneho súboru |
| `'t'` | Zápis textového súboru (**Default**) |
| `'+'` | Otvorenie na zápis i čítanie |

> Príklad: `open('file', 'rb')`

### Zatvorenie súboru

* Pri zápise informácie do súboru sú bity najprv zbierané (tzv. *buffer* fáza) a neskôr ukladané (tzv. *flush* fáza).
* Metóda `file.close()` zabezpečí, že všetky fázy zápisu sú ukončené a zahodí referenciu na súbor.

>```python
>f = open('file')
>...
>f.close()
>```

#### Klauzula `with`

* Postará sa o korektné zatvorenie súboru (netreba volať metódu `file.close()`)
* Robí kód prehľadnejším

>```python
>with open('file', 'w') as f:
>    f.write('abcd')
>```

### Čítanie zo súboru

* `file.read()`
    * Čítanie *size* znakov (bitov v `b` móde) zo súboru. Default hodnota parametra `size` je -1 s významom *celý súbor*.
* `file.readline()`
    * Generátor, generujúci riadky súboru.
* `file.readlines()`
    * Vracia zoznam, ktorého prvky sú riadky súboru.
    * Ekvivalent `list(file.readline())`
    
### Zápis do súboru

* `file.write()`
    * Argumentom je hodnota, ktorá má byť zapísaná.
    
---------
## Dokončenie úloh z CW

4. Napíšte funkciu, ktorá načíta pole čísel zo súboru a vráti najväčšiu hodnotu v poli a zároveň jej index. Pre pole nulovej dĺžky vráti index -1.


* Textový súbor obsahuje čísla (float), oddelené čiarkami (znakom `,`). Medzi číslami môžu, ale nemusia byť zlomy riadkov.
* Príklad:

>```
>,-244,166,29
>,58,22
>,-11,-97
>
>
>,-29,-102
>,20
>,-162,134
>,91
>,187
>```

In [None]:
# Loading data

##################
# Your code here #
##################

In [None]:
def my_max(l):
    ##################
    # Your code here #
    ##################

In [None]:
print(my_max([-8, 3]))

5. Napíšte funkciu, ktorá v poli nájde druhý najväčší prvok a vráti jeho hodnotu a index. Pre pole dĺžky menej než 2 vráti funkcia index -1.

In [None]:
def second_highest(l):
    ##################
    # Your code here #
    ##################

In [None]:
a = [1,2,-8,4,0,87,4,5,8,7]

print(second_highest(a))

6. Napíšte funkciu, ktorá z textového súboru načíta maticu


* Formát textového súboru: stĺpce oddelené medzerami, riadky novým riadkom.

>```
>4 -8 4.2 7
>.1 7 5. 2
>1 1 1 1
>```

In [None]:
def load_matrix(filename):
    ##################
    # Your code here #
    ##################

In [None]:
print(load_matrix(os.path.abspath('./matrix.dat')))

-----
<span id="foot01"><sup>1</sup>Vždy mám pocit, že toto slovo, hoc nespisovné, vystihuje presnú podstatu toho, čo ním chce byť povedané. Narozdiel od jeho kolegov <em>štandardne</em>, <em>prednastavene</em>, <em>bežne</em></span>.