# Základy Pythonu

V této přednášce se seznámíte se základy jazyka Python a naučíte se tvořit jednoduché skripty pro zpracování dat.

Jazyk Python má několik vlastností, které z něj dělají v současnosti nejpoužívanější jazyk pro vědecko technické výpočty. Zejména je vhodný jakožto "glue language", umožňující snadné spojování existujících knihoven do složitějších celků. Klíčové vlastnosti jazyka:

- Jednoduchá syntaxe, která podporuje čitelnost kódu. Kód se totiž častěji čte než píše.
- Jednoduchý jazyk, který umožňuje rychlý vývoj a ladění. Je možno rychle zkoušet různá řešení.
- Interpretovaný jazyk, což znamená snadné spuštění kódu bez problémů s kompilací a linkováním.
- Standardní knihovna obsahuje velké množství běžně používaných vysokoúrovňových funkcí.
- Pomocí dalších knihoven je k dispozici rozhraní v velkému množství existujícího kódu v nejrůznějších jazycích. 
- Jednoduchá interakce s jinými jazyky. Např. volání C++ z Pythonu a obráceně.
- Přenositelnost mezi platformami, zejména: Mac OS X, Windows, Linux, Unix, Android, iOS. 
- Python a většina knihoven jsou svobodným software, t.j. volně použivatelný i modifikovatelný.

Tyto výhody jsou vykoupeny některými nevýhodami:

- Dynamické typování a tzv. ["duck typing"](https://en.wikipedia.org/wiki/Duck_typing) zjednodušuje implementaci, ale 
  může vést k chybám. Je třeba více testování, dokumentování a programátorská disciplína.
- Interpretovaný a vysokoúrovňový jazyk nemůže být příliš rychlý. Kód vykonávaný přímo Pythonem je zhruba 
  10x pomalejší než stejný kód napsaný v C++. Možná řešení: 
  - používání knihoven implementovaných v kompilovaných jazycích
  - ["just-in-time"](https://en.wikipedia.org/wiki/Just-in-time_compilation) kompilátor,
    např. [PyPy](https://pypy.org/) 
  - kompilovatelná varianta Pythonu: [Cython](http://cython.org/)
- Standardní interpreter [CPython](https://stackoverflow.com/questions/17130975/python-vs-cpython) neumožňuje
  paralelní běh vláken kvůli použití globálního zámku [GIL](https://en.wikipedia.org/wiki/Global_interpreter_lock).
  Možná řešení:
  - paralelizmus pomocí procesů
  - použití knihoven, které vnitřně vlákna využijí
  - alternativní implementace bez GIL: Jython, IronPython, Cython (GIL lze dočasně vypnout)
- Méně rozvinutá podpora mobilních platforem (např. oproti Javě).  

# Proměnné

Proměnná je 'odkazem' na objekt, který existuje nezávisle na existenci proměnné, které na něj ukazuje. Některé objekty jsou neměnné (immutable) to jsou objekty typu: int, float, string. Ostaní jsou 'mutable'.

Výpis objektů (odkazovaných proměnnými) provedeme pomocí funkce 'print'. IPython také vypíše poslední výraz pokud není přiřazen do proměnné.

In [1]:
# Do proměnné 'a' přiřadíme prázdé pole.
a = []
# Do proměnné 'b' přiřadíme stejný objekt.
b = a

print("a: ", a)
print("b: ", b)

# Do pole přidáme prvek.
b.append(1)

# Přes obě proměnné je dostupné stejné pole, nyní s prvkem '1'.
print("a: ", a)
print("b: ", b)


a:  []
b:  []
a:  [1]
b:  [1]


In [2]:
a = 1
b = a
# Proměnné 'a' a 'b' obě odkazují na stejný objekt 1. Ten je ale neměnný.
print("a: ", a)
print("b: ", b)

# Zvětšením o jedna neměníme objekt '1', ale přiřadíme proměnné 'a' objekt '2'. 
a += 1

# Proměnná 'b' odkazuje stále na objekt '1'.
print("a: ", a)
print("b: ", b)

a:  1
b:  1
a:  2
b:  1


Detailnější popis najdete např [zde](https://mathieularose.com/python-variables/)

# Skalární typy

Každá objekt má typ (třídu, class). Python má základní immutable skalární typy 'None', 'bool', 'int', 'float' a 'string'. Typ objektu zjistíme funkcí 'type'.



In [35]:
# Typ a onjekt None. Univerzální hodnota pro nic.
a = None
print("type(a):", type(a))

type(a): <class 'NoneType'>


In [10]:
# Typ bool.
a = True
print("type(a):", type(a))

type(a): <class 'bool'>


In [5]:
# Typ int.
a = 1
print("type(a):", type(a))

type(a): <class 'int'>


In [6]:
# Typ float.
a = 1.0
print("type(a):", type(a))

type(a): <class 'float'>


In [7]:
# Typ string.
a = "1"
print("type(a):", type(a))

type(a): <class 'str'>


# Operátory
pro int a float: `+` (sčítání), `-` (odčítání), `*` (násobení), `/` (dělení), `**` (umocnění), 
`%` (modulo), `//` (celočíselné dělení).


In [8]:
2.1 // 0.9

2.0

In [11]:
2.1 % 0.9

0.30000000000000004

Zejména poslední 3 operátory si vyzkoušejte a 
přečtěte podrobný [popis](https://www.tutorialspoint.com/python/python_basic_operators.htm). 
Zde najdete popsané i další operátory:

**přiřazovací operátory**: 
    
    =, +=, -=, ... 

**porovnávací operátory**, vracejí 'bool': 

    ==, !=, <, >, >=, <=
    
Zde je možno psát zkráceně: 
    
    0 < a <= 1 
    
místo 
    
    0 < a and a <= 1

**bitové operátory**: 

    ~ (negace), & (bitový and), | (bitový or), << (rotace vlevo), >> (rotace vpravo)

**logické operátory**: 

    not, and, or

**operátory identity**: 
    
    is, is not 
zda dva objekty jsou na stejném místě paměti (identické)
    
**operátory členství**:

    a in b, a not in b 
zda  a je prvkem/ není prvkem b (list, set, dictionary, ...)

# Typ 'string'.

[Kompletní popis](https://www.tutorialspoint.com/python/python_strings.htm) operátorů a metod pro typ 'string' včetně popisu formátovacího operátoru. Zde jen přehled nejčastěji používaného.

`a + b` - spojení dvou řeťezců

### Formátovací operátor '%'

In [23]:
a = 'A'
b = 1.345
"Vektor %s má délku: '%6.2f'"%(a, b)

"Vektor A má délku: '  1.34'"

In [24]:
data = dict(C=a, D=b)
ld = [a, b]
"Vektor {} má délku: '{}'".format(*ld)

"Vektor A má délku: '1.345'"

### Metody

`a_str.find(b_str,  beg=0, end=len(a_str))` - [popis](https://www.tutorialspoint.com/python/string_find.htm)

`a_str.replace(old_str, new_str, count)` - [popis](https://www.tutorialspoint.com/python/string_replace.htm)

Pro složitější hledání a nahrazování je vhodné použít regulární výrazy, viz. dále.

`a_str.join(seq)` - [popis](https://www.tutorialspoint.com/python/string_join.htm)

`a_str.split(b_str, num)` - [popis](https://www.tutorialspoint.com/python/string_split.htm)



# Typ list

Python má jeden typ pro indexované pole, ale lze ho též používat jako zásobník nebo frontu. Pole je indexováno od '0' a jsou povoleny záporné indexy, které se počí tají od konce.
[Podrobný popis](https://www.tutorialspoint.com/python/python_lists.htm)

`len(list)` - délka pole 

`list[i]` - prvek na pozici `i`; fungují i záporné indexy

`list[i:j]` - slice, podseznam od pozice `i` (včetně) do pozice `j` (mimo); fungují i záporné indexy

`pop(i)` -  výběr prvku z pole (složitost až $O(n)$), `pop(0)` a `pop(-1)` mají konstantní složitost

`del list[i]` - smazání prvku `i` z pole

`list.append(x)` - přidání objektu `x` na konec pole

`list.extend(other_list)` - připojení listu `other_list`

`list.sort(...)` - setřídní pole, [popis](https://www.tutorialspoint.com/python/list_sort.htm)

Kromě typu `list` má Python také typ `tuple`, který je však immutable nelze do něj prvky přidávat nebo je odstraňovat nebo měnit. [Popis.](https://www.tutorialspoint.com/python/python_tuples.htm)

In [11]:
# Pole lze vytvořit pomocí hranatých závorek.
a = [1, 2, 3]
# Přidáme prvek.
a.append(4)
# Slicing
print("a[1:3] : ", a[1:3])
# Tuple, vytvoříme pomocí kulatých závorek. Pevná délka i obsah.
b = (1,2,3)


a[1:3] :  [2, 3]


TypeError: 'tuple' object does not support item assignment

In [21]:
# Změna tuplu je chyba:

b[1] = 3

TypeError: 'tuple' object does not support item assignment

# Typ dictionary

Datová struktura pomocí klíčů libovolného typu, který má metodu `hash()`. Klíče jsou immutable a jsou v rámci jednoho dictionary unikátní. Klíčům přiřazené hodnoty mohou být libovolné objektu.  
Indexování pomocí int klíčů je vhodné jen pokud indexy netvoří souvislou posloupnost, jinak je vhodnější použití polí. [Podrobný popis](https://www.tutorialspoint.com/python/python_dictionary.htm).


In [14]:
# Vytvoření pomocí složených závorek.
a = {'Name': 'Zara', 'Age': 7, 'Weight': 56.67, 'Friends': ['Dita', 'Ema']}

# Vytvoření pomocí konstruktoru, méně psaní pro klíče typu string.
a = dict(Name='Zara', Age=7, Weight=56.67, Friends=['Dita', 'Ema'])

# Přístup přes klíč.
print("a['Name'] : ", a['Name'])

# Smazání klíče a hodnoty.
del a['Name']

a['ID'] = 123
a

a['Name'] :  Zara


{'Age': 7, 'Friends': ['Dita', 'Ema'], 'ID': 123, 'Weight': 56.67}

# Podmínky

    if <condition 1> :
        <true block 1>
    elif <condition 2> :
        <true block 2> :
    else:
        <false block>
        
[Podrobný popis podmínek.](https://www.tutorialspoint.com/python/python_decision_making.htm)        
Důležité je že bloky v Pythonu jsou vyznačeny pouze odsazením. Je nutné nemíchat mezery a tabelátory, ideálně používat vždy
vždy 4 mezery. 

# Cykly

While cyklus opakuje blok (tělo) dokud je podmínka pravdivá:

    while <condition> :
        <true block>
   
For cyklus opakuje blok (tělo) kde `x` potupně nabývá hodnot ze sekvence (listu) `seq`.

    for x in seq:
        <block>
        
Oba cykly mohou v těle obsahovat příkazy:

    continue - skočí ined na další iteraci cyklu
    
    break - ukončí cyklus a skočí z něj

Regulerní ukončení cyklu a ukončení pomocí `break` můžeme rozlišit pomocí bloku `else`:

    while <condition> :
        <true block>
    else:
        <end block>

    for x in set:
        <block>
    else:
        <end block>

For cykly se hojně používají v kombinaci s metodami `values`, `items` pro dictionary a s příkazy `zip` pro 'sezipování dvou listů' a `enumerate` pro očíslování prvků listu.

In [15]:
for i in range(3):
    print(i)

0
1
2


In [28]:
a = enumerate([1, 2, 3]) # Nevrací přímo list tuplů, ale tzv. generátor.
print(a)
print(list(a))           # Zde jsme nechali generátor vygenerovat všechny prvky do listu.
for i, value in enumerate([1, 2, 3]):
    print(i, value)

<enumerate object at 0x7f9252e71e58>
[(0, 1), (1, 2), (2, 3)]
0 1
1 2
2 3


In [18]:
a = {'Name': 'Zara',  'Weight': 56.67, 'Age': 7, 'Friends': []}
b = a.items() # Generátor vracející tuply (key, value).
print(list(b))
for key, value in a.items(): # Pořadí je libovolné !!
    print(key, value)

[('Name', 'Zara'), ('Age', 7), ('Weight', 56.67), ('Friends', [])]
Name Zara
Age 7
Weight 56.67
Friends []


# Comprehensions
Efektivní zápis filtrování a transformací listů, množin a adresářů.
Pro tvorbu listů:

    [ <expression> for x in seq if <condition> ]
    
Pro každý prvek `x` v sekvenci `seq` který splňuje `<condition>` se vyhodnotí `<expression>` a přidá se do nového pole. Podobně lze tvořit množiny a dictionary. 
[Podrobný popis a příklady.](http://python-3-patterns-idioms-test.readthedocs.io/en/latest/Comprehensions.html)

In [20]:
# Druhé mocniny lichých čísel.
print({ i**2 for i in range(7) if i%2 == 1 })

{1, 9, 25}


# Funkce
Definice funkce:
    
    def func(a, b = None):
        <body>
        return <expression>
        
zde má funkce definovány 2 parametry, ale druhý je nepovinný a má výchozí hodnotu None. 
Všechny parametry jsou předávány odkazem.
V těle funkce může být žádný nebo více příkazů `return`,
který ukončí funkci a vrátí výsledek výrazu `<expression>`. 

Při volání funkce je možno zadávat argumenty pozičně nebo pomocí jména parametru:
    
    func(2)
    func(2, None)
    func(b=None, a=2)
    
... jsou ekvivalentní volání. Je možno definovat též funkce s proměnným počtem parametrů  a tzv. lambda funkce 
viz. [podrobný popis funkcí](https://www.tutorialspoint.com/python/python_functions.htm).

Za hlavičku funkce se píše tzv. 'docstring' dokumentující co funkce dělá jaké má parametry a co vrací. Jelikož Python
nekontroluje typy, je naprosto nezbytné v dokumentaci uvádět nejen co parametry znamenají, ale také jaký mají typ, pokud to není z kontextu jasné.

In [None]:
def make_sequence( a, b, step=1, power = 1):
    """
    Make a sequence a**p, ..., b**p.
    :param a: float, first value base
    :param b: float, end value base (last base is less then b)
    :param step: float, step of base values
    :param power: float, common power of resulting values
    :return ...
    """
    x = a
    sequence = []
    while x < b:
        sequence.append(x**power)
        x += step
    return sequence

In [45]:
make_sequence(1.1, 4)

[1.1, 2.1, 3.1]

In [47]:
make_sequence(1.1, 10, step = 2)

[1.1, 3.1, 5.1, 7.1, 9.1]

In [49]:
make_sequence(1, 10, step = 2, power=2)

[1, 9, 25, 49, 81]

# Čtení a zápis souborů

Čtení všech řádek ze souboru:

    with open("file.txt", "r") as f:
        all_lines = f.readlines()

`with` je tzv. kontext manager a v tomto případě zajisí uzavření souboru. Je to ekvivalentní:

    f = open("file.txt", "r") # otevření souboru pro čtení
    all_lines = f.readlines()
    f.close()

Postupné zpracování všech řádek souboru:
    
    with open("file.txt", "r") as f:    
        for line in f:
            process_line(line)
            
Zápis do souboru:

        with open("file.txt", "w") as f: # otevření souboru pro zápis
            f.write("Jedna řádka\n")
            
[Podrobný popis](https://www.tutorialspoint.com/python/python_files_io.htm)
zahrnuje: další příznaky při otevírání souboru, nastavování pozice v souboru, práci s adresáři

# Moduly
Mimo vestavěných příkazů a funkcí poskytuje Pythoon množství další funkcionality pomocí 'modulů'. Některé moduly jsou
součástí výchozí instalace jiné je potřeba nainstalovat. Součástí balíku Anakonda je většina používaných modulů. 

Pro použití je třeba modul importovat:

    import json as js

nyní máme modul importovaný pod jménem `js` a můžeme používat funkce a třídy v něm obsažené, viz.
[dokumentace modulu json](https://docs.python.org/3/library/json.html)


In [34]:
import scipy.linalg as la
#import load as js_load

# importovali jsme modul json pro parsování JSON souborů
with open("MOCK_DATA.json", "r") as f:
    data = js.load(f)

# Data obsahuje kompletní hierarchická data z formátu JSON.
data[0]    

{'email': 'jesson0@google.com.br',
 'first_name': 'Joice',
 'gender': 'Female',
 'id': 1,
 'ip_address': '96.52.28.71',
 'last_name': 'Esson'}

# Další vhodná témata k samostudiu

[Třídy](https://www.tutorialspoint.com/python/python_classes_objects.htm) - 
prakticky nutné pro složitější datové struktury

[Regulární výrazy](https://www.tutorialspoint.com/python/python_reg_expressions.htm) - 
velmi užitečné pro vytahování informací z textových souborů

[Výjimky](https://www.tutorialspoint.com/python/python_exceptions.htm)

# Cvičení

1. Napište funkci pro zápis přirozeného čísla v římské notaci.
2. Napište funkci, která vrátí list obsahující prvky Fibonačiho posloupnosti menší než $n$.
3. Napište funkci, která pro dva seznamy vrátí True pokud obsahují alespoň jeden společný prvek.
3. Napište funkci která načte data ze souboru [MOCK_DATA.json](./MOCK_DATA.json). Zjistěte jaká je struktura dat.
4. Napište funkci `row_format`, která pro dict jednoho záznamu a tuple `width` tří intů zformátuje řetězec obsahující: 
   email, id zapsáno   římsky, ip_address. Příslušné podřetězce `s1`, `s2`, `s3` jsou doplněné zleva mezerami, tak aby
   řetězec $s_i$ měl šířku `width[i]`. Viz. metody `ljust`, `rjust`.
5. Z načtených dat vyberte ty záznamy, jejichž IP adresa (složená ze 4 čísel) obsahuje nějaké Fibonachiho číslo.
6. Pro vybrané záznamy vystupte email, id a ip_address do souboru "output.txt" ve formě tabulky, tak aby každý ze tří
   sloupců byl zarovnaný vpravo. K tomu použijete funkci `row_format`. Nejprve projděte všechny řádky, pro každý 
   určete šířky tří vystupovaných položek bez doplňování mezerami, pro každý sloupec určíte maximální šířku. Tyto
   maximální šířky použijete jako parametr `width` funkce `row_format` při druhém průchodu.

In [None]:
# Profiling

# Statistic profiler
import statprof
statprof.start()

# ... some code

statprof.stop()
statprof.display()


# instrumented profiler
import cProfile, pstats, io
pr = cProfile.Profile()
pr.enable()

# ... some code

pr.disable()
s = io.StringIO()
sortby = 'cumulative'
ps = pstats.Stats(pr, stream=s).sort_stats(sortby)
ps.print_stats()
print(s.getvalue())

