# Profilování a benchmarking
Na začátek je dobré projít, čeho vlastně chceme dosáhnout.

Jednoduše řečeno: **rychlosti**.

**Profilování** nám umožní rozebrat kód a zjistit, kde jsou jeho slabiny (místa, která zabírají nejvíce času). Nasměruje nás tedy k místům kde má smysl uvažovat o optimalizaci a zrychlení.

**Benchmarking** znamená testování (například většího množství různých implementací) na sérii různých vstupů (lišících se velikostí, složitostí, ...). Cílem je zjistit, která implementace je nejrychlejší a pro jaké vstupy.


Při implementaci algoritmů máte poměrně často možnost využít různých postupů, jak něco naimplementovat. A často jsou všechny užitečné, neboť pro různá data a velikosti úloh se hodí různé přístupy. Toto pro nás rozhodne benchmarking.

## Obecně k profilování

Pro Python existuje obrovské množství profilovacích nástrojů. Mnoho z nich je stále také v aktivním vývoji. To proto, že je mnoho faktroů, které je třeba profilovat. Mezi ně patří:
- rychlost (časová náročnost),
- množství použité paměti,
- paměťová propustnost = množství kopírovaných dat,
- GPU profilování.

Profilery navíc přinášejí zpomalení samotného běhu kódu a tím i automatické zkreslení výsledků. Toto zpomalení může být od 1.x krát přes 2x až 5x po 100x v některých případech. Takže jsou i různé varianty profilerů které se liší v kvalitě sezbíraných dat a zpomalením běhu.

## Ukázkový kód pro test profilování

In [None]:
def heavy_calc(X):
    Y = X.copy()
    for i in range(10):
        Y = Y**i
    return Y


def heavy_loop(inputs):
    res = []
    for X in inputs:
        res.append(heavy_calc(X))
    return res


def code_setup():
    from numpy.random import rand

    N = 20
    M = 1000
    print("Will generate {} random arrays".format(N))
    inputs = [rand(M, M) for n in range(N)]
    print("Will calculate now")
    result = heavy_loop(inputs)
    print("Finished calculation")

## Základní profilování: `cProfile`
Jedná se o základní vestavěný profilovací nástroj (knihovna `cProfile`), který je součástí standardní výbavy. Počítá pouze jednotlivá **volání** funkcí a jejich trvání. Není schopen určit, jak dlouho trval který řádek kódu.

- V nejjednodušší verzi stačí použít `cProfile.run()`, jako argument předat kód, který chceme profilovat (např. volání funkce), a soubor, do kterého chceme výsledky uložit (zvykem je použít příponu `.prof`).

In [None]:
import cProfile

cProfile.run("code_setup()", "vysledky_cProfile_code_setup.prof")

Výsledky lze vizuálně znázornit pomocí nástroje `snakeviz` (`pip install snakeviz` pokud nemáte). Ten vytvoří webovou stránku s interaktivním grafem a tabulkou.

In [None]:
!snakeviz vysledky_cProfile_code_setup.prof

Výsledky lze také procházet jako textovou tabulku pomocí vestavěného modulu `pstats`.

- `p = pstats.Stats("filename.prof")` vytvoří objekt s načtenými výsledky.

Pro přehledné zobrazení výsledků je třeba je například seřadit, očistit od celých cest k funkcím, atd.
- Odstraňte cesty k funkcím: `.strip_dirs()`
- Zkusme si to seřadit podle celkového času běhu: `.sort_stats("cumulative")`
- Dále můžeme vypsat pouze prvních 10 nejvíce časově náročných funkcí: `.print_stats(10)`.

In [None]:
import pstats
p = pstats.Stats("vysledky_cProfile_code_setup.prof")
p.strip_dirs().sort_stats("cumulative").print_stats(10)

**Všechno (od profilování až po výpisu výsledku přes pstats) lze v Jupyteru udělat pěkně pomocí magic příkazu:**


In [None]:
%prun -s cumulative -l 10 code_setup()

## Řádkové profilování: Line_profiler
V minulém příkladu jsme viděli, že základní profiler časuje pouze celé funkce. Co když chceme zjistit, které řádky kódu jsou nejvíce časově náročné?

Toto mnoho profilerů umožňuje, například `line_profiler`. (Pokud nemáte `pip install line_profiler`)

Line profiler se dá spouštět z příkazového řádku pro celý file, ale to kdyžtak nechám zájemcům.

My si zde ukážeme jeho použití v Jupyteru pomocí magic příkazu.

In [None]:
# je třeba jej naimportovat
%load_ext line_profiler

Spouští se příkazem `%lprun -f funkce_k_profilovani funkce_k_profilovani(parametry)`
- parametr `-f` určuje funkci, kterou chceme profilovat (může jich být více)
- parametr `-u` určuje jednotku času ve výstupu

In [None]:
%lprun -u 1e-6 -f code_setup -f heavy_loop -f heavy_calc code_setup()

## Moderní, rychlý all-in-one profiler: Scalene
Scalene oproti předchozím umožňuje profilovat jak řádky tak funkce a navíc přidává i profilování paměti. (A GPU pokud používáme)

Vyžaduje instalaci pomocí `pip install scalene`

Spouští se příkazem `scalene script.py`

In [None]:
%%writefile code_profile_test.py
def heavy_calc(X):
    Y = X.copy()
    for i in range(10):
        Y = Y**i
    return Y

def heavy_loop(inputs):
    res = []
    for X in inputs:
        res.append(heavy_calc(X))
    return res

def code_setup():
    from numpy.random import rand
    N = 20
    M = 1000
    print("Will generate {} random arrays".format(N))
    inputs = [rand(M, M) for n in range(N)]
    print("Will calculate now")
    result = heavy_loop(inputs)
    print("Finished calculation")

code_setup()

In [None]:
!!scalene code_profile_test.py

In [None]:
%load_ext scalene

In [None]:
%%scalene
def heavy_calc(X):
    Y = X.copy()
    for i in range(10):
        Y = Y**i
    return Y

def heavy_loop(inputs):
    res = []
    for X in inputs:
        res.append(heavy_calc(X))
    return res

def code_setup():
    from numpy.random import rand
    N = 20
    M = 1000
    print("Will generate {} random arrays".format(N))
    inputs = [rand(M, M) for n in range(N)]
    print("Will calculate now")
    result = heavy_loop(inputs)
    print("Finished calculation")

code_setup()