# Datová akademie, ČSOB, 2023

---

* [Úvod k datům](#Úvod-k-datům),
* [pracovní prostředí](#Pracovní-prostředí),
* [notebooky feat. SQL](#Integrace-SQL-v-rámci-notebooků),
* [spojovací objekty Python s DB](#Chystání-connection-v-rámci-Pythonu).

<br>

<img src="https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Ftse1.mm.bing.net%2Fth%3Fid%3DOIP.bQLV3m2t29a0dfG9qnVMgwHaHa%26pid%3DApi&f=1&ipt=b73c31ec28f2f95373feda2df32b17cdefb18fde0965d876db76a69bd8c03fba&ipo=images" width="120"/>

## Úvod k datům

---



Jak roky přibývají a technologie se neustále zlepšuje, neustále roste potřeba sbírat a uchovávat informace.

Naprostá většina předních firem ví, jakou cenu mají data. Ty menší si to začínají uvědomovat.

### Kdo to má hlídat

---

Proto neustále roste poptávka po lidech, kteří dovedou s daty zacházet.

Pozice, které se jsou jakkoliv spojované s daty jsou obory jako:
* data **analyst**,
* data **engineering**,
* data **science**.

Kdy každá z pozic výše má svoje specifikace.

### Jak pracovat s daty

---

Informace, nebo také data, je proto potřeba řádné spravovat a obsluhovat.

Nástroje pro takovou činnost mají různou podobu, ale obecně se potřebuješ soustředit na tyto oblasti:

<img src="https://i.imgur.com/XwMu9Oq.png" width="700"/>

* **data samotná**, kde je vezmeš a v jaké podobě,
* **prostředí**, kde můžeš s daty pracovat,
* **technologie**, které ti umožní s daty pracovat.

### Cíle školení

---

Cílem kurzu **není** řešit dopodrobna **povahu nebo náplň** jakékoliv z výše vypsaných pozic.

Budeš se věnovat založení **solidních znalostí**, která všechny tyto odvětví, pracující s daty, spojuje. 

<br>

Portfólio znalostí, nástrojů, o kterých se dozvíš:
1. **Pracovní prostředí**,
2. **integraci jazyka**,
3. **pandas**, knihovnu (práci s různými soubory,
4. **numpy**, knihovnu,
5. **Data v praxi**,
6. **matplotlib**/**seaborn**, knihovny.

Než se ale vůbec začneš učit nástroje, bude vhodné, seznámit tě **s prostředími**, kde následně budeš moct s těmito nástroji pracovat.

<img src="https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Ftse3.mm.bing.net%2Fth%3Fid%3DOIP.H2BkU9bqGfzRSMZ3S3Sx0QHaHa%26pid%3DApi&f=1&ipt=4cf9116d27fba72ce0224dba99b4ff36a1867aa0351c892e1c8ede5793e267e7&ipo=images" width="120"/>

## Pracovní prostředí

---

<img src="https://i.imgur.com/OjMPaZT.png" width="700"/>

Konkrétních variant je více, ale jako chvalitebný všeobecný základ můžeš použít následující:
1. **Interpret** `python`, **interaktivní interpret** `IPython`, jednoduché, všude dostupné prostředí,
2. **editor**/**IDE** `pycharm`, nástroj pro rozsáhlejší činnost, tvorba skriptů, modulů, balíčků,
3. **Hub**/**Notebooky** `jupyter`, nástroj pro jednodušší vizuální a analytickou část,
4. **(pokročilé)** *docker* kontejnery `docker`, možnost nastavení vlastního "pracovního stolu".

<img src="https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Ftse1.mm.bing.net%2Fth%3Fid%3DOIP.KbBPoDRtOSRt9UfoXNQHNgHaHa%26pid%3DApi&f=1&ipt=d38af54cd32cc45e5aa344d10d1f63e2c1dfc03488007104ea842a7bb1f41e5d&ipo=images" width="120"/>



## Příkazový řádek

---

Prvním velkým pomocníkem je obyčejný **příkazový řádek**.

Nehledě na tvůj vlastní operační systém (dále jen OS).

<br>

Kromě klasické rychlé navigace a obsluhy můžeš i v rámci Pythonu využít:
* *interpret* Pythonu,
* *interaktivní interpret* `ipython`.

Ačkoliv jsou tato prostředí jednoduchá, přesto jsou velmi všestranná a nápomocná.

Jejich hlavní síla spočívá **v přenositelnosti**.

<br>

Ne všude budeš mít k dispozici nějaké **grafické prostředí** (~*graphical user interface*, dále jen GUI).

Přesto se ti může hodit pomocník, které ti dovede debugování nebo ověřování usnadnit.

Instalaci *interaktivního interpreta* **IPythonu** je možné provést pomocí příkazu:

In [None]:
!pip install ipython

..s následnou kontrolou pomocí výpisu verze **IPythonu**:

In [None]:
!ipython --version

Pokud chceš používat přímo *Hub* nebo Notebooky, stačí nainstalovat:

In [None]:
!pip install jupyter

..a `ipython` se ti nainstaluje automaticky také.

### Nápověda, ipython

V rámci obyčejného *interpreta* můžeš pracovat s nápovědou pomocí funkce `help()`:

In [None]:
help(list.copy)

<br>

U *interaktivního interpreta* můžeš používat nápovědů také a daleko elegantněji:

In [11]:
list.copy?

K tomu ti postačí za libovolný výraz dopsat otazník `?`.

Výsledek bude praktický stejný s tím, že podle verze IPythonu se místo textového výstupu objeví **vyskakovací okno**.

In [10]:
len?

In [12]:
jmena = ["Matouš", "Lukáš", "Marek"]
jmena.append?

<br>

Stejně jako funkce `help` můžeš nápovědu používat pro *uživ. funkce*:

In [14]:
import datetime

In [15]:
def vypis_zpravu_s_casem(cas: str, zprava: str) -> str:
    """
    Vrať výstup jako naformátovanou zprávu s aktuálním časem.
    
    :param cas: údaj s časem.
    :type cas: str
    :param zprava: zadaný text.
    :type zprava: str
    
    :Example:
    >>> import datetime
    >>> vypis_zpravu(
    ...     "18:43:15",
    ...     "Ahoj na první lekci"
    ... )
    18:43:15, Ahoj na první lekci
    """
    return f"{cas}, {zprava}"

In [16]:
vypis_zpravu_s_casem(
    datetime.datetime.now().strftime("%H:%M:%S"),
    "Ahoj na první lekci"
)

'10:08:25, Ahoj na první lekci'

In [17]:
vypis_zpravu_s_casem?

Zapisování *docstringů* lze uplatnit při zobrazování dokumentace.

Pokud budeš mít zájem dohledat nejen popis, ale i podobu objektu.

### Zobraz zdroj

Někdy může být nápomocné, získat kromě popisku, také náhled na objekt samotný:

In [18]:
vypis_zpravu_s_casem??

<br>

U takových jednoduchých *uživ. funkcí* je zdroj poměrně přímočarý.

U jiných knihoven může být naopak **trochu upovídaný**:

In [19]:
import pandas

In [20]:
pandas.read_csv??

A někdy nápověda pomocí `??` nezobrazí vůbec nic.

Důvod je, že objekt, na který chceš vidět nápovědu není v Pythonu zavedený (implementovaný).

Je používaný objekt z jiného jazyku (v případě tohoto *interpreta* v C).

In [None]:
len??

<br>

### Našeptávání

Pokud se ti občas stane, že si nepamatuješ jméno různých objektů, můžeš vyzkoušet nápovědu.

Občas ti vypadne jméno známého datového typu:

In [21]:
prijmeni = list()

In [None]:
prijmeni.

Stačí napsat jméno objektu, `prijmeni` a tečku.

Následně stačí stisknout klávesu `TAB` a IPython ti zobrazovazí skrollovací nabídku.

<br>

Někdy je potřeba doplnit **méně patrnou metodu** nebo **konstantu** *z knihoven třetích stran*:

In [25]:
from collections import namedtuple

In [27]:
mesta = namedtuple("Souradnice", ["delka", "sirka"])

In [None]:
mesta.

<br>

Další pomůckou může být napovídání **při nahrávání** jak knihoven, tak konkrétních modulů:

In [None]:
from itertools import 

In [None]:
from typing import 

##### Demo, importování v IPythonu

<img src="https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Ftse4.mm.bing.net%2Fth%3Fid%3DOIP.SZubiSufJRLZL07qVd-ysAHaHa%26pid%3DApi&f=1&ipt=0b7f6a1983376db89fc4caf1855670dfb3cd1ff616134232fd007df795961b24&ipo=images" width="120"/>

## Systémové příkazy

Další sérií příkazů, které *IPython* a *notebooky* podporují, jsou příkazy **z příkazového řádku** (~*Shellu*).

V tomto případě půjde o skupinu příkazu z operačního systému (dále jen OS) Linux:

##### Ve kterém adresáři se zrovna nacházím?

In [29]:
!pwd

/home/jovyan/work/shared/notebooks


##### Jaké soubory a složky se v aktuálním adresáři vyskytují?

In [30]:
!ls

lesson01.ipynb	lesson03.ipynb	lesson05.ipynb
lesson02.ipynb	lesson04.ipynb	Untitled.ipynb


##### Jsou tu nějaké skryté soubory?

In [32]:
!ls -a

.   .ipynb_checkpoints	lesson02.ipynb	lesson04.ipynb	Untitled.ipynb
..  lesson01.ipynb	lesson03.ipynb	lesson05.ipynb


##### Jaké soubory a složky najdu a složku výše (v rodičovské složce)?

In [31]:
!ls ../

notebooks  onsite


<br>

Grafické prostředí (~*GUI*) *OS* jsou někdy **pohodlnější** a **vizuálně přívětivěší**.

Často jsou ale **pomalé** a postupné přesouvání a **přepínání nepraktické**.

Proto je velice výhodné, kombinovat symbol `!` a tyto jednotlivé příkazy uvnitř *IPythonu*. 

<br>

V rámci *Notebooku* si konečně můžeš kombinovat **klasickou syntaxi Pythonu** a **příkazy operačního systému**:

In [34]:
aktualni_cesta = !pwd

In [35]:
print(aktualni_cesta)

['/home/jovyan/work/shared/notebooks']


In [8]:
print(type(aktualni_cesta))

<class 'IPython.utils.text.SList'>


In [9]:
print(dir(aktualni_cesta))

['__add__', '__class__', '__contains__', '__delattr__', '__delitem__', '__dict__', '__dir__', '__doc__', '__eq__', '__format__', '__ge__', '__getattribute__', '__getitem__', '__gt__', '__hash__', '__iadd__', '__imul__', '__init__', '__init_subclass__', '__iter__', '__le__', '__len__', '__lt__', '__module__', '__mul__', '__ne__', '__new__', '__reduce__', '__reduce_ex__', '__repr__', '__reversed__', '__rmul__', '__setattr__', '__setitem__', '__sizeof__', '__str__', '__subclasshook__', '__weakref__', 'append', 'clear', 'copy', 'count', 'extend', 'fields', 'get_list', 'get_nlstr', 'get_paths', 'get_spstr', 'grep', 'index', 'insert', 'l', 'list', 'n', 'nlstr', 'p', 'paths', 'pop', 'remove', 'reverse', 's', 'sort', 'spstr']


In [36]:
print(aktualni_cesta[0])

/home/jovyan/work/shared/notebooks


Ačkoliv jde o jiný datový typ, než obyčejný `list`, přesto můžeš provést klasické indexování a podobné metody jako pro pythonovský `list`.

<br>

##### Ulož mi seznam souborů v aktuální složce

In [37]:
dostupne_soubory = !ls -l

In [38]:
print(dostupne_soubory)

['total 108', '-rw-r--r-- 1 jovyan  1000 80497 Mar  4 10:20 lesson01.ipynb', '-rw-r--r-- 1 jovyan users  1320 Feb 28 06:43 lesson02.ipynb', '-rw-r--r-- 1 jovyan users   965 Feb 28 06:43 lesson03.ipynb', '-rw-r--r-- 1 jovyan users   966 Feb 28 06:44 lesson04.ipynb', '-rw-r--r-- 1 jovyan users   992 Feb 28 06:44 lesson05.ipynb', '-rw-r--r-- 1 jovyan users 12269 Mar  1 09:31 Untitled.ipynb']


In [40]:
from pprint import pprint

In [41]:
pprint(dostupne_soubory)

['total 108',
 '-rw-r--r-- 1 jovyan  1000 80497 Mar  4 10:20 lesson01.ipynb',
 '-rw-r--r-- 1 jovyan users  1320 Feb 28 06:43 lesson02.ipynb',
 '-rw-r--r-- 1 jovyan users   965 Feb 28 06:43 lesson03.ipynb',
 '-rw-r--r-- 1 jovyan users   966 Feb 28 06:44 lesson04.ipynb',
 '-rw-r--r-- 1 jovyan users   992 Feb 28 06:44 lesson05.ipynb',
 '-rw-r--r-- 1 jovyan users 12269 Mar  1 09:31 Untitled.ipynb']


##### 🧠 CVIČENÍ 🧠, získej jména souborů a datumy poslední otevření pro jednotlivé soubory

In [60]:
# "soubor": "datum"

<img src="https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Ftse1.mm.bing.net%2Fth%3Fid%3DOIP.yc6WsKyuODmoJlic69zUeQHaHa%26pid%3DApi&f=1&ipt=d3a1e2a99dd014f3690cccb8875ff686678588a0a9c16af26a1e2e228d71a512&ipo=images" width="120"/>

## Magické příkazy

Mimo klíčové prvky samotného `ipythonu`, můžeš pracovat pomocí tzv. *magických příkazů*.

Magický příkaz zajišťuje pomocné nástroje v `ipython`.

Magický příkaz zapíšeš/ poznáš pomocí operátoru `%` nebo `%%`, ihned na začátku buňky:

In [None]:
%run

<br>

Základní rozdíl mezi `%` a `%%`:
* `%`, **jednořádkový příkaz** (*~line magics*),
* `%%`, **víceřádkový příkaz** (*~cell magics*).

##### Seznam magických některých magických příkazů ([zdroj](https://ipython.readthedocs.io/en/stable/interactive/magics.html#))

| Příkaz | Popis | Ukázka | Víceřádková varinta |
| :- | :- | :- | :-: |
| `%run` | spusť mi zadaný soubor | `%run muj_skript.py` | ✅ |
| `%timeit` | změř mi dobu běhu (s pomůckami) | `%timeit <statement>` | ✅ |
| `%time` | změř mi dobu běhu (bez pomůcek) | `%time <statement>` | ✅ |
| `%debug` | zapni *debugger* | `%debug` | ⛔️ |
| `%lsmagic` | zobraz všechny magické příkazy | `%lsmagic` | ⛔️|
| `%magic` | zobraz dokumentaci | `%magic` | ⛔️ |
| `%prun` | profiluj mi ohlášení | `%prun <statement>` | ⛔️ |
| `%mem` | zobraz mi využití paměti | `%mem` | ⛔️ |

### Spusť soubor

Časem začneš více experimentovat jak v prostředí *skriptu* (spustitelného souboru), tak v prostředím *notebooku*.

Důvodem může být umístění různých drobků kódu na různých místech (souborech).

Obzvlášť později se budeš snažit separovat logiku *skriptu* mimo *notebook*.

In [11]:
!ls ../onsite/

lesson01


<br>

Pokud budeš chtít **z aktivního notebooku spustit skript**, můžeš použít jednořádkový příkaz `%run`:

In [61]:
%run ../onsite/lesson01/magic_run.py

A
B
C
D


Pokud potřebuješ doladit spuštění souboru, můžeš mrknout na dokumentaci a popis rozšiřujících možností [zde](https://ipython.readthedocs.io/en/stable/interactive/magics.html#magic-run).

### Stopuj průběh

Dalším užitečným *magickým příkazem* je `%timeit`.

Ten se ti bude hodit, pokud budeš potřebat určit délku běhu jednořádkového příkazu:

In [12]:
%timeit umocnene_hodnoty = [cislo ** 2 for cislo in range(100)]

21.6 µs ± 436 ns per loop (mean ± std. dev. of 7 runs, 10000 loops each)


Výhodou tohoto *jednořádkového magického příkazu* je, že pro krátké příkazy automaticky spouští několikrát.

Tím zajistí **větší množství výsledků** a z nich stanoví průměr, odchylky.

<br>

Pokud zadáš **víceřádkový magický příkaz**, můžeš napočítat průběh pro delší zápis.

Třeba pro iteraci bez *list comprehensions*.

Zde můžeš vidět patrný rozdíl mezi iterací s a bez komprehence:

In [62]:
%%timeit
umocnene_hodnoty = list()

for cislo in range(100):
    umocnene_hodnoty.append(cislo ** 2)

29.5 µs ± 3.11 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)


Oba tyto příkaz se hodí, pokud spouštíš **sérii ohlášení**.

<br>

Bohužel časový výpočet není úplně přesný.

Pokud nechceš ovlivnit krátký průběh **nesouvisejícími procesy** (opožděním v rámci OS, použitím cache):

In [68]:
cisla = [cislo for cislo in range(100000)]

<br>

Změř mi čas pro setřídění již **setříděného listu**:

In [69]:
%timeit cisla.sort()

454 µs ± 70.1 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


Naopak, pokud chceš setřídit **nesetříděný** `list` a vyvarovat se nuancím, zkus mag. příkaz `%time`:

In [71]:
from random import choice

In [73]:
dalsi_cisla = [choice((1, 2, 3, 4, 5)) for cislo in range(100000)]

In [74]:
%time dalsi_cisla.sort()

CPU times: user 10.3 ms, sys: 0 ns, total: 10.3 ms
Wall time: 10.2 ms


<br>

V tento okamžik si *notebook* drží hodnotu uchovanou a pokud budeš stopovat čas znovu, výsledek třídění bude **podstatně kratší**:

In [75]:
%time dalsi_cisla.sort()

CPU times: user 612 µs, sys: 0 ns, total: 612 µs
Wall time: 616 µs


Proto je potřeba dávat pozor na:
1. jednotlivé logické operace, které měříš,
2. featury samotného jazyka (třeba mazání nevyužívaných objektů pomocí *garbage collectoru*).

Pro `%time` totiž pod kapotou ignoruješ různé optimalizace.

Ty by jinak mohly výsledek stopování ovlivňovat.

### Debugování

Odstraňovat chybný zápis můžeš také v prostředí `ipythonu` a Notebooků.

Stačí použít jednořádkový příkaz `%debug`:

In [76]:
def del_dvema(*args, delitel: int = 2) -> None:
    for hodnota in args:
         print(vydel_hodnotu_delitelem(hodnota, delitel))

In [77]:
def vydel_hodnotu_delitelem(hodnota: float, delitel: int) -> float:
    return hodnota / delitel

In [78]:
del_dvema(2, 3, 4, 5, 6)

1.0
1.5
2.0
2.5
3.0


Záludně nachystaná hodnota:

In [87]:
%debug del_dvema(2, 3, 4, "5", 6)

NOTE: Enter 'c' at the ipdb>  prompt to continue execution.
> [0;32m<string>[0m(1)[0;36m<module>[0;34m()[0m

ipdb> l

ipdb> s
--Call--
> [0;32m<ipython-input-76-77c1302545d8>[0m(1)[0;36mdel_dvema[0;34m()[0m
[0;32m----> 1 [0;31m[0;32mdef[0m [0mdel_dvema[0m[0;34m([0m[0;34m*[0m[0margs[0m[0;34m,[0m [0mdelitel[0m[0;34m:[0m [0mint[0m [0;34m=[0m [0;36m2[0m[0;34m)[0m [0;34m->[0m [0;32mNone[0m[0;34m:[0m[0;34m[0m[0;34m[0m[0m
[0m[0;32m      2 [0;31m    [0;32mfor[0m [0mhodnota[0m [0;32min[0m [0margs[0m[0;34m:[0m[0;34m[0m[0;34m[0m[0m
[0m[0;32m      3 [0;31m         [0mprint[0m[0;34m([0m[0mvydel_hodnotu_delitelem[0m[0;34m([0m[0mhodnota[0m[0;34m,[0m [0mdelitel[0m[0;34m)[0m[0;34m)[0m[0;34m[0m[0;34m[0m[0m
[0m
ipdb> s
> [0;32m<ipython-input-76-77c1302545d8>[0m(2)[0;36mdel_dvema[0;34m()[0m
[0;32m      1 [0;31m[0;32mdef[0m [0mdel_dvema[0m[0;34m([0m[0;34m*[0m[0margs[0m[0;34m,[0m [0mdelitel[0m[0

In [85]:
print(__name__)

__main__


Příkaz `%debug` spustí debugger `pdb`.

Je pořád interaktivní, jako když pracuješ mimo notebook.

Pokud potřebuješ nastavit *breakpoint* v souboru, můžeš doplnit možnost `--breakpoint SOUBOR: ŘÁDEK`.

Následně si organizuješ průběh stejně jako v prostředí knihovny `pdb`.

### Seznam magických příkazů

Pokud je to na tebe moc příkazů naráz, vůbec nezoufej.

Pomocí nápovědy `%lsmagic`, si můžeš nechat vypsat seznam všech příkazů:

In [55]:
%lsmagic

Available line magics:
%alias  %alias_magic  %autoawait  %autocall  %automagic  %autosave  %bookmark  %cat  %cd  %clear  %colors  %conda  %config  %connect_info  %cp  %debug  %dhist  %dirs  %doctest_mode  %ed  %edit  %env  %gui  %hist  %history  %killbgscripts  %ldir  %less  %lf  %lk  %ll  %load  %load_ext  %loadpy  %logoff  %logon  %logstart  %logstate  %logstop  %ls  %lsmagic  %lx  %macro  %magic  %man  %matplotlib  %mkdir  %more  %mv  %notebook  %page  %pastebin  %pdb  %pdef  %pdoc  %pfile  %pinfo  %pinfo2  %pip  %popd  %pprint  %precision  %prun  %psearch  %psource  %pushd  %pwd  %pycat  %pylab  %qtconsole  %quickref  %recall  %rehashx  %reload_ext  %rep  %rerun  %reset  %reset_selective  %rm  %rmdir  %run  %save  %sc  %set_env  %store  %sx  %system  %tb  %time  %timeit  %unalias  %unload_ext  %who  %who_ls  %whos  %xdel  %xmode

Available cell magics:
%%!  %%HTML  %%SVG  %%bash  %%capture  %%debug  %%file  %%html  %%javascript  %%js  %%latex  %%markdown  %%perl  %%prun  %%pypy  %%

Pracuje velice podobně jako zabudovaná funkce `dir()` v rámci *interpreta*.

Pokud potřebuješ detailnější nápovědu, vyzkoušej spíše `%magic`:

In [56]:
%magic

### Profilování

Každý skript nebo program je různě dlouhý.

Obsahuje tedy různé množství výrazů a ohlášení.

Někdy můžeš ocenit více časy jednotlivých sekcí, než výstupu jako celku.

In [93]:
from math import pi

In [94]:
def plocha_kruhu(polomer: int) -> int:
    return pi * (polomer ** 2)

In [95]:
def secti_vsechny_plochy(args) -> int:
    suma_ploch = 0
    for polomer in args:
        suma_ploch += plocha_kruhu(polomer)
    
    return suma_ploch

In [96]:
%prun secti_vsechny_plochy([1.1, 2.2, 3.3, 4.4])

 

In [97]:
%prun secti_vsechny_plochy(choices(range(1, 100), k=1_000_000))

 

Takové chování může být přínosné, ale programátor více ocení pochopitelnější, názornější výstup pomocí řádků.

Bohužel jak Python, tak IPython standardně nepodporují takové chování.

Musíš si nainstalovat ručně knihovnu `line_profiler`:

In [98]:
!pip install line_profiler

Collecting line_profiler
  Downloading line_profiler-4.0.3-cp38-cp38-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (673 kB)
[K     |████████████████████████████████| 673 kB 2.9 MB/s eta 0:00:01
[?25hInstalling collected packages: line-profiler
Successfully installed line-profiler-4.0.3


..následně musíš načíst rozšíření v rámci notebooku.

Vždy, pokud instaluješ knihovnu nebo rozšíření třetích stran, musíš tuto knihovnu načíst.

Proto, ať ji můžeš používat, použíj magický příkaz `%load_ext`:

In [99]:
%load_ext line_profiler

<br>

..a nakonec spustíš knihovnu pro jméno funkce a následně konkrétní ohlášení:

In [100]:
%lprun -f secti_vsechny_plochy secti_vsechny_plochy(choices(range(1, 100), k=1000000))

Čas v mikrosekundách ti lépe popíše, ve kterých částech kódu a jak dlouho *interpret* strávil.

### Využití paměti

Stejně jako s časem, můžeš měřit, kolik paměti běh tvého skriptu potřebuje.

Opět bude potřeba, nainstalovat knihovnu třetí strany:

In [101]:
!pip install memory_profiler

Collecting memory_profiler
  Downloading memory_profiler-0.61.0-py3-none-any.whl (31 kB)
Installing collected packages: memory-profiler
Successfully installed memory-profiler-0.61.0


Potom tuto knihovnu nahrát v prostředí *notebooku*:

In [102]:
%load_ext memory_profiler

Nyní můžeš pomocí magického příkazu tuto knihovnu zapnout:

In [103]:
%memit secti_vsechny_plochy(choices(range(1, 100), k=1_000_000))

peak memory: 112.68 MiB, increment: 0.14 MiB


Můžeš si všimnout, že spuštěná funkce používá okolo 110 MiB paměti.

Pokud je pro tebe tato informace moc obecná a potřebuješ znát využití paměti v konkrétních místech zápisu, vyzkoušej magický příkaz `%%mprun`.

Bohužel, tento magický příkaz v notebooku nespustíš.

Musíš jej použít v kombinaci se jménem souboru:

In [104]:
%%file mprun_test.py
from math import pi

def plocha_kruhu(polomer: int) -> int:
    return pi * (polomer ** 2)

def secti_vsechny_plochy(args) -> int:
    suma_ploch = 0
    for polomer in args:
        suma_ploch += plocha_kruhu(polomer)
    
    return suma_ploch

Writing mprun_test.py


Pomocí mag. příkazu `%%file` vytvořím Pythoní skript, který můžu následně využít:

In [108]:
from mprun_test import secti_vsechny_plochy

In [109]:
%mprun -f secti_vsechny_plochy secti_vsechny_plochy(choices(range(1, 100), k=1_000_000))




Zobrazeního posledního běhu měření paměti pro lepší ilustraci:
```
Filename: /home/jovyan/work/shared/notebooks/mprun_test.py

Line #    Mem usage    Increment  Occurrences   Line Contents
=============================================================
     6    112.4 MiB    112.4 MiB           1   def secti_vsechny_plochy(args) -> int:
     7    112.4 MiB      0.0 MiB           1       suma_ploch = 0
     8    112.4 MiB -18859.9 MiB     1000001       for polomer in args:
     9    112.4 MiB -18859.9 MiB     1000000           suma_ploch += plocha_kruhu(polomer)
    10                                             
    11    112.4 MiB     -0.0 MiB           1       return suma_ploch
```

Toto jsou v podstatě ty nejčastěji používané featury Notebooku, v rámci Pythonu.

Nicméně ne vždy, budeš mít k datům přístup přímo.

Občas se může hodit integrace Pythonu do SQL.

<img src="https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Ftse4.mm.bing.net%2Fth%3Fid%3DOIP.W2N7dQ3O6Ap5P9j5ySALFgHaHa%26pid%3DApi&f=1&ipt=7281764d1fc68c062b10965458a6f0ba9c4c28b1cebcd949afa0d57907cd2bbe&ipo=images" width="120"/>

## Integrace SQL v rámci notebooků

---

Pokud chceš jednoduše pracovat s databázovými systémy pohodlně a **z prostředí notebooků**, musíš si nejprve nainstalovat pomocnou knihovnu `ipython-sql`([zdroj](https://pypi.org/project/ipython-sql/)):

In [7]:
!pip install ipython-sql

Collecting ipython-sql
  Downloading ipython_sql-0.5.0-py3-none-any.whl (20 kB)
Collecting prettytable
  Downloading prettytable-3.6.0-py3-none-any.whl (27 kB)
Collecting sqlparse
  Downloading sqlparse-0.4.3-py3-none-any.whl (42 kB)
[K     |████████████████████████████████| 42 kB 2.1 MB/s eta 0:00:011
Collecting sqlalchemy>=2.0
  Downloading SQLAlchemy-2.0.4-cp38-cp38-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (2.8 MB)
[K     |████████████████████████████████| 2.8 MB 17.1 MB/s eta 0:00:01
[?25hCollecting typing-extensions>=4.2.0
  Downloading typing_extensions-4.5.0-py3-none-any.whl (27 kB)
Collecting greenlet!=0.4.17
  Downloading greenlet-2.0.2-cp38-cp38-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (618 kB)
[K     |████████████████████████████████| 618 kB 3.1 MB/s eta 0:00:01
Installing collected packages: typing-extensions, greenlet, sqlparse, sqlalchemy, prettytable, ipython-sql
  Attempting uninstall: typing-extensions
    Found existing installation: typing-extensions 

<br>

Jakmile je knihovna nainstalovaná, stačí načíst pomocí dalšího [magického příkazu](#Magické-příkazy) `%load_ext sql`:

In [8]:
%load_ext sql

<br>

Od teď můžeš pracovat jak s jednořádkovým `%`, tak s víceřádkovým příkazem `%%`.


Jakmile budeš vytvářet *connection* objekt, můžeš pracovat s různými formami:
* `postgresql://username:password@hostname/dbname`,
* `sqlite:///:memory:`,
* `sqlite://`,
* `sqlite:///relative/path/to/file.db`,
* `sqlite:////absolute/path/to/file.db`.

<br>

Nyní uvidíš ukázku u databázového souboru `zamestnanci.db`:

In [4]:
!ls -l ../onsite/lesson01 

total 16
-rw-rw-r-- 1 jovyan  1000   379 Feb 26 17:23 magic_run.py
-rw-r--r-- 1 jovyan users 12288 Feb 26 19:53 testing.db


Nyní zajistíš spojení notebooku a souboru, příp. objektu databázového systémů:

In [6]:
%sql sqlite:///../onsite/lesson01/testing.db

In [9]:
%sql mssql+pyodbc://sa:csoB2023@localhost:1433/master?driver=ODBC+Driver+17+for+SQL+Server

Traceback (most recent call last):
  File "/opt/conda/lib/python3.8/site-packages/sql/connection.py", line 45, in __init__
    engine = sqlalchemy.create_engine(
  File "/opt/conda/lib/python3.8/site-packages/sqlalchemy/engine/__init__.py", line 520, in create_engine
  File "/opt/conda/lib/python3.8/site-packages/sqlalchemy/engine/strategies.py", line 61, in create
  File "/opt/conda/lib/python3.8/site-packages/sqlalchemy/engine/url.py", line 172, in _get_entrypoint
  File "/opt/conda/lib/python3.8/site-packages/sqlalchemy/util/langhelpers.py", line 263, in load
    targ_name, fn_name = _unique_symbols(names, "target", "fn")
  File "/opt/conda/lib/python3.8/site-packages/sqlalchemy/dialects/__init__.py", line 58, in _auto_fn
  File "/opt/conda/lib/python3.8/site-packages/sqlalchemy/dialects/mssql/__init__.py", line 10, in <module>
    from . import base  # noqa
  File "/opt/conda/lib/python3.8/site-packages/sqlalchemy/dialects/mssql/base.py", line 941, in <module>
    from . import inf

Nakonec můžeš posílat dotazy na objekt:

**Jednořádkový** (~*line magic*)

In [7]:
%sql SELECT * FROM uzivatele;

 * sqlite:///../onsite/lesson01/testing.db
Done.


index,jmeno,prijmeni,vek
0,Matouš,H.,11
1,Marek,B.,12
2,Lukáš,R.,13
3,Jan,O,14
4,Tom,Hrom,15


**Víceřádkový** (~*cell magic*):

In [8]:
%%sql

SELECT *
FROM uzivatele
WHERE vek >= 13;

 * sqlite:///../onsite/lesson01/testing.db
Done.


index,jmeno,prijmeni,vek
2,Lukáš,R.,13
3,Jan,O,14
4,Tom,Hrom,15


In [109]:
%sql INSERT INTO uzivatele VALUES(4,'Tom','Hrom', 15);

   sqlite://
 * sqlite:///../onsite/lesson01/testing.db
1 rows affected.


[]

Pokud chceš provést několik dotazů současně, můžeš.

Výstup se ti však zobrazí pouze pro poslední zapsaný dotaz.

##### Použití proměnných
    
V rámci *IPythonu* můžeš kombinovat jak dotazy (~*queries*), tak proměnné:

In [None]:
databaze = "uzivatele"

In [None]:
%sql SELECT * FROM db_name = :databaze

In [None]:
%sql SELECT * FROM db_name = '{databaze}'

##### Spolupráce s `pandas`

Vytvoření nového *DataFrame* je možné přímo spojit se spuštěním a uložení výstupu z dotazu:

In [15]:
from pandas import DataFrame

In [None]:
selekce_dospelych = %%sql
SELECT *
FROM uzivatele
WHERE 'vek' >= 13;

In [None]:
dospeli = selekce_dospelych.DataFrame()

##### Grafický výstup

In [None]:
dotaz = %sql

In [None]:
%matplotlib inline

In [None]:
dotaz.pie()

##### Dumpni mi soubor

## Chystání connection v rámci Pythonu

---

Dalším způsobem, kterým lze propojit *Python*, jako manažera DB, jsou API.

Jak si můžeš takovou situaci představit lépe:

In [None]:
<picture>

Tento postup je vhodný, pokud už máš data někde uložená a běžně pracuješ se skriptovacími jazyky.

Aby byla komunikace mezi Pythonem a DBMS reálná, je zprostředkovaná pomocí *knihoven třetích stran*.

<br>

Různé enginy podporují různé knihovny Pythonu. Malý rozbor těch nejčastějších:

| DBMS | Knihovna | Instalace pomocí manažeru `pip` |
| :-: | :-: | :-: |
| MySQL | `mysql.connector` | `pip install mysql-connector-python`|
| MS SQL | `pyodbc` | `pip install pyodbc`|
| PostgreSQL | `psycopg2` | `pip install psycopg2` |
| MariaDB | `mysql.connector` | `pip3 install mariadb`|
| MongoDB | `pymongo` | `pip install pymongo`|
| Oracle | `oracledb` | `pip install oracledb` |
| sqlite3 | `sqlite3` | zabudovaná knihovna, nemusíš stahovat a instalovat|

### MS SQL



In [5]:
!pip install pyodbc  # sudo apt install unixodbc, chybí ovladače

Collecting pyodbc
  Downloading pyodbc-4.0.35-cp38-cp38-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (333 kB)
[K     |████████████████████████████████| 333 kB 2.5 MB/s eta 0:00:01
[?25hInstalling collected packages: pyodbc
Successfully installed pyodbc-4.0.35


**Další ukázky v rámci IDE**

In [6]:
import pyodbc  # pip install

In [3]:
from sqlalchemy import create_engine

In [7]:
credentials = {
    'username': 'scott',
    'password': 'tiger',
    'host': 'myhost',
    'database': 'databasename',
    'port': '1560'}

In [8]:
engine = create_engine("mssql+pyodbc://sa:csoB2023@localhost:1433/master?driver=ODBC+Driver+17+for+SQL+Server")

ImportError: libodbc.so.2: cannot open shared object file: No such file or directory

In [None]:
engine = create_engine("mssql+pyodbc://scott:tiger@myhost:port/databasename?driver=ODBC+Driver+17+for+SQL+Server")

In [3]:
import logging

In [None]:
def vytvor_spojeni_mssql(**kwargs) -> None:
    logging.info("Vytvářím spojení..")
    
    try:
        connection = pyodbc.connect(
            f"DRIVER=\{ODBC Driver 18 for SQL Server\};SERVER='{server}'"
            f";DATABASE='{database}';ENCRYPT=yes;UID='{username}';PWD='{password}'")
    
    except Exception as err:
        logging.error()
        connection = None
    else:
        logging.info()
    finally:
        logging.info()
        return connection  

In [None]:
connection = vytvor_spojeni_mssql(database="", server="", username="", password="")
cursor = connection.cursor()

###  Vytvoření tabulky pro MS SQL

Pro vytvoření nové tabulky v rámci knihovny `pyodbc` musíš:
* `sql_dotaz`, nachystat požadovaný dotaz,
* `execute`, vložit jej přes metodu  do objektu "zadavače" `cursor`,
* `commit`, po vložení objektu do metody jej musíš aplikovat pomocí metody.

In [None]:
sql_dotaz = """
CREATE TABLE products (
    product_id int primary key,
    product_name nvarchar(50),
    price int
)
"""

In [None]:
cursor.execute(sql_dotaz)

In [None]:
connection.commit()

### Vložení nových záznamů do tabulky

Pro vložení záznamů do tabulky se postup prakticky opakuje.

S rozdílným dotazem:

In [None]:
vlozeni_hodnot = """
INSERT INTO products (product_id, product_name, price)
VALUES
    (1,'Desktop Computer',800),
    (2,'Laptop',1200),
    (3,'Tablet',200),
    (4,'Monitor',350),
    (5,'Printer',150)
""")

In [None]:
cursor.execute(vlozeni_hodnot)

In [None]:
connection.commit()

In [None]:
### UPDATE

In [None]:
### DELETE

In [None]:
### ÚKOL

### Kontextový manažer

### SQlite3
Speciálním případem je engine `sqlite3`, který je  zabudovaný jako standardní knihovna pro Python.

Dále je `sqlite3`  výhodný v tom, že je:
* **serverless**, netřeba autentikace na vzdáleném serveru,
* **self-contained**, takže jej můžu inicializovat u sebe jako lokální soubor, není potřeba instalovat.

In [None]:
import sqlite3
import logging

In [None]:
def vytvor_spojeni_db(path: str) -> str:
    try:
        connection = sqlite3.connect(path)

    except Exception as e:
        logging.error(f"Objevila se výjimka {e}")
        connection = None
    else:
        logging.info("Připojeni k DB..")
    finally:
        logging.info("Vracím objekt pro připojení..")
        return connection

### Pandy a DB

In [None]:
import pandas

In [None]:
df_databaze = pandas.read_sql()

---