# Datová akademie, ČSOB, 2023

---

* [Prezentace](https://docs.google.com/presentation/d/12-j2b-icL0cj2pkfs8O8jKRmipppMVYNrksqV4dUDMA/edit?usp=sharing),
* [Úvod k datům](#Úvod-k-datům),

* [pracovní prostředí](#Pracovní-prostředí),


* [příkazový řádek, ipython](#Příkazový-řádek),
    - [dokumentace](#Nápověda,-ipython),
    - [zdrojov kód](#Zobraz-zdroj),
    - [našeptávání](#Našeptávání).
    
    
* [notebook, systémové příkazy](#Systémové-příkazy),
* [notebook, magické příkazy](#Magické-příkazy),
    - [spusť skript](#Spusť-soubor),
    - [změř průběh](#Stopuj-průběh),
    - [debugging](#Debugování),
    - [profilování](#Profilování),
    - [použití paměti](#Využití-paměti),
    

* [spojovací objekty Python s DB](#Chystání-connection-v-rámci-Pythonu),
    - [založení připojení](#Vytvoření-spojení-pro-MS-SQL-s-pyodbc),
    - [vytvoření db, tabulky](#Vytvoření-nové-databáze,-nové-tabulky,-vložení-hodnot),
    - [vyber údaje](#Dotazování-záznamů),
    - [aktualizuj udáje](#Aktualizace-záznamů),
    - [zahoď tabulku](#Zahodit-jak-data,-tak-tabulku).


* [ORM, pomocí knihovny sqlalchemy](),
* [notebooky s SQL](#Integrace-SQL-v-rámci-notebooků),

<br>

<img src="https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Ftse1.mm.bing.net%2Fth%3Fid%3DOIP.bQLV3m2t29a0dfG9qnVMgwHaHa%26pid%3DApi&f=1&ipt=b73c31ec28f2f95373feda2df32b17cdefb18fde0965d876db76a69bd8c03fba&ipo=images" width="120"/>

## Úvod k datům

---



Jak roky přibývají a technologie se neustále zlepšuje, neustále roste potřeba sbírat a uchovávat informace.

Naprostá většina předních firem ví, jakou cenu mají data. Ty menší si to začínají uvědomovat.

### Kdo to má hlídat

---

Proto neustále roste poptávka po lidech, kteří dovedou s daty zacházet.

Pozice, které se jsou jakkoliv spojované s daty jsou obory jako:
* data **analyst**,
* data **engineering**,
* data **science**.

Kdy každá z pozic výše má svoje specifikace.

### Jak pracovat s daty

---

Informace, nebo také data, je proto potřeba řádné spravovat a obsluhovat.

Nástroje pro takovou činnost mají různou podobu, ale obecně se potřebuješ soustředit na tyto oblasti:

<img src="https://i.imgur.com/XwMu9Oq.png" width="900"/>

* **data samotná**, kde je vezmeš a v jaké podobě,
* **prostředí**, kde můžeš s daty pracovat,
* **technologie**, které ti umožní s daty pracovat.

### Cíle školení

---

Cílem kurzu **není** řešit dopodrobna **povahu nebo náplň** jakékoliv z výše vypsaných pozic.

Budeš se věnovat založení **solidních znalostí**, která všechny tyto odvětví, pracující s daty, spojuje. 

<br>

Portfólio znalostí, nástrojů, o kterých se dozvíš:
1. **Pracovní prostředí**,
2. **integraci jazyka**,
3. **pandas**, knihovna,
4. **numpy**, knihovna,
5. **matplotlib**/**seaborn**, knihovny.

Než se ale vůbec začneš učit nástroje, bude vhodné, seznámit tě **s prostředími**, kde následně budeš moct s těmito nástroji pracovat.

<img src="https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Ftse3.mm.bing.net%2Fth%3Fid%3DOIP.H2BkU9bqGfzRSMZ3S3Sx0QHaHa%26pid%3DApi&f=1&ipt=4cf9116d27fba72ce0224dba99b4ff36a1867aa0351c892e1c8ede5793e267e7&ipo=images" width="120"/>

## Pracovní prostředí

---

<img src="https://i.imgur.com/OjMPaZT.png" width="900"/>

Konkrétních variant je více, ale jako chvalitebný všeobecný základ můžeš použít následující:
1. **Interpret** `python`, **interaktivní interpret** `IPython`, jednoduché, všude dostupné prostředí,
2. **editor**/**IDE** `pycharm`, nástroj pro rozsáhlejší činnost, tvorba skriptů, modulů, balíčků,
3. **Hub**/**Notebooky** `jupyter`, nástroj pro jednodušší vizuální a analytickou část,
4. **(pokročilé)** kontejnery `docker`, možnost nastavení vlastního "pracovního stolu".

<img src="https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Ftse1.mm.bing.net%2Fth%3Fid%3DOIP.KbBPoDRtOSRt9UfoXNQHNgHaHa%26pid%3DApi&f=1&ipt=d38af54cd32cc45e5aa344d10d1f63e2c1dfc03488007104ea842a7bb1f41e5d&ipo=images" width="120"/>



## Příkazový řádek

---

Prvním velkým pomocníkem je obyčejný **příkazový řádek**.

Nehledě na tvůj vlastní operační systém (dále jen OS).

<br>

Kromě klasické rychlé navigace a obsluhy můžeš i v rámci Pythonu využít:
* *interpret* Pythonu,
* *interaktivní interpret* `ipython`.

Ačkoliv jsou tato prostředí jednoduchá, přesto jsou velmi všestranná a nápomocná.

Jejich hlavní síla spočívá **v přenositelnosti**.

<br>

Ne všude budeš mít k dispozici nějaké **grafické prostředí** (~*graphical user interface*, dále jen GUI).

Přesto se ti může hodit pomocník, které ti dovede debugování nebo ověřování usnadnit.

Instalaci *interaktivního interpreta* **IPythonu** je možné provést pomocí příkazu:

In [None]:
!pip install ipython

..s následnou kontrolou pomocí výpisu verze **IPythonu**:

In [None]:
!ipython --version

Pokud chceš používat přímo *Hub* nebo Notebooky, stačí nainstalovat:

In [None]:
!pip install jupyter

..a `ipython` se ti nainstaluje automaticky také.

### Nápověda, `ipython`

V rámci obyčejného *interpreta* můžeš pracovat s nápovědou pomocí funkce `help()`:

In [None]:
help(list.copy)

<br>

U *interaktivního interpreta* můžeš používat nápovědů také a daleko elegantněji:

In [None]:
list.copy?

K tomu ti postačí za libovolný výraz dopsat otazník `?`.

Výsledek bude praktický stejný s tím, že podle verze IPythonu se místo textového výstupu objeví **vyskakovací okno**.

In [None]:
len?

In [None]:
jmena = ["Matouš", "Lukáš", "Marek"]
jmena.append?

<br>

Stejně jako funkce `help` můžeš nápovědu používat pro *uživ. funkce*:

In [None]:
import datetime

In [None]:
def vypis_zpravu_s_casem(cas: str, zprava: str) -> str:
    """
    Vrať výstup jako naformátovanou zprávu s aktuálním časem.
    
    :param cas: údaj s časem.
    :type cas: str
    :param zprava: zadaný text.
    :type zprava: str
    
    :Example:
    >>> import datetime
    >>> vypis_zpravu(
    ...     "18:43:15",
    ...     "Ahoj na první lekci"
    ... )
    18:43:15, Ahoj na první lekci
    """
    return f"{cas}, {zprava}"

In [None]:
vypis_zpravu_s_casem(
    datetime.datetime.now().strftime("%H:%M:%S"),
    "Ahoj na první lekci"
)

In [None]:
vypis_zpravu_s_casem?

Zapisování *docstringů* lze uplatnit při zobrazování dokumentace.

Pokud budeš mít zájem dohledat nejen popis, ale i podobu objektu.

### Zobraz zdroj

Někdy může být nápomocné, získat kromě popisku, také náhled na objekt samotný:

In [None]:
vypis_zpravu_s_casem??

<br>

U takových jednoduchých *uživ. funkcí* je zdroj poměrně přímočarý.

U jiných knihoven může být naopak **trochu upovídaný**:

In [None]:
import pandas

In [None]:
pandas.read_csv??

A někdy nápověda pomocí `??` nezobrazí vůbec nic.

Důvod je, že objekt, na který chceš vidět nápovědu není v Pythonu zavedený (implementovaný).

Je používaný objekt z jiného jazyku (v případě tohoto *interpreta* v C).

In [None]:
len??

<br>

### Našeptávání

Pokud se ti občas stane, že si nepamatuješ jméno různých objektů, můžeš vyzkoušet nápovědu.

Občas ti vypadne jméno známého datového typu:

In [None]:
prijmeni = list()

In [None]:
prijmeni.

Stačí napsat jméno objektu, `prijmeni` a tečku.

Následně stačí stisknout klávesu `TAB` a IPython ti zobrazovazí skrollovací nabídku.

<br>

Někdy je potřeba doplnit **méně patrnou metodu** nebo **konstantu** *z knihoven třetích stran*:

In [None]:
from collections import namedtuple

In [None]:
mesta = namedtuple("Souradnice", ["delka", "sirka"])

In [None]:
mesta.

<br>

Další pomůckou může být napovídání **při nahrávání** jak knihoven, tak konkrétních modulů:

In [None]:
from itertools import 

In [None]:
from typing import 

##### Demo, importování v IPythonu

<img src="https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Ftse4.mm.bing.net%2Fth%3Fid%3DOIP.SZubiSufJRLZL07qVd-ysAHaHa%26pid%3DApi&f=1&ipt=0b7f6a1983376db89fc4caf1855670dfb3cd1ff616134232fd007df795961b24&ipo=images" width="120"/>

## Systémové příkazy

Další sérií příkazů, které *IPython* a *notebooky* podporují, jsou příkazy **z příkazového řádku** (~*Shellu*).

V tomto případě půjde o skupinu příkazu z operačního systému (dále jen OS) Linux:

##### Ve kterém adresáři se zrovna nacházím?

In [None]:
!pwd

##### Jaké soubory a složky se v aktuálním adresáři vyskytují?

In [None]:
!ls

##### Jsou tu nějaké skryté soubory?

In [None]:
!ls -a

##### Jaké soubory a složky najdu a složku výše (v rodičovské složce)?

In [None]:
!ls ../

<br>

Grafické prostředí (~*GUI*) *OS* jsou někdy **pohodlnější** a **vizuálně přívětivěší**.

Často jsou ale **pomalé** a postupné přesouvání a **přepínání nepraktické**.

Proto je velice výhodné, kombinovat symbol `!` a tyto jednotlivé příkazy uvnitř *IPythonu*. 

<br>

V rámci *Notebooku* si konečně můžeš kombinovat **klasickou syntaxi Pythonu** a **příkazy operačního systému**:

In [None]:
aktualni_cesta = !pwd

In [None]:
print(aktualni_cesta)

In [None]:
print(type(aktualni_cesta))

In [None]:
print(dir(aktualni_cesta))

In [None]:
print(aktualni_cesta[0])

Ačkoliv jde o jiný datový typ, než obyčejný `list`, přesto můžeš provést klasické indexování a podobné metody jako pro pythonovský `list`.

<br>

##### Ulož mi seznam souborů v aktuální složce

In [29]:
dostupne_soubory = !ls -l

In [30]:
print(dostupne_soubory)

['total 232', '-rw-r--r-- 1 jovyan  1000 86943 Mar 22 07:38 lesson01.ipynb', '-rw-r--r-- 1 jovyan users 82395 Mar 21 06:32 lesson02.ipynb', '-rw-r--r-- 1 jovyan users   965 Feb 28 06:43 lesson03.ipynb', '-rw-r--r-- 1 jovyan users   966 Feb 28 06:44 lesson04.ipynb', '-rw-r--r-- 1 jovyan users   992 Feb 28 06:44 lesson05.ipynb', '-rw-r--r-- 1 jovyan users   246 Mar  4 11:53 mprun_test.py', 'drwxr-xr-x 2 jovyan users  4096 Mar  4 11:54 __pycache__', '-rw-r--r-- 1 jovyan users 38357 Mar  7 07:35 rozdelovac_comp.ipynb']


In [None]:
from pprint import pprint

In [None]:
pprint(dostupne_soubory)

##### 🧠 CVIČENÍ 🧠, získej jména souborů a datumy poslední otevření pro jednotlivé soubory

In [None]:
# "soubor": "datum"

<img src="https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Ftse1.mm.bing.net%2Fth%3Fid%3DOIP.yc6WsKyuODmoJlic69zUeQHaHa%26pid%3DApi&f=1&ipt=d3a1e2a99dd014f3690cccb8875ff686678588a0a9c16af26a1e2e228d71a512&ipo=images" width="120"/>

## Magické příkazy

Mimo klíčové prvky samotného `ipythonu`, můžeš pracovat pomocí tzv. *magických příkazů*.

Magický příkaz zajišťuje pomocné nástroje v `ipython`.

Magický příkaz zapíšeš/ poznáš pomocí operátoru `%` nebo `%%`, ihned na začátku buňky:

In [None]:
%run

<br>

Základní rozdíl mezi `%` a `%%`:
* `%`, **jednořádkový příkaz** (*~line magics*),
* `%%`, **víceřádkový příkaz** (*~cell magics*).

##### Seznam magických některých defaultních magických příkazů ([zdroj](https://ipython.readthedocs.io/en/stable/interactive/magics.html#))

| Příkaz | Popis | Ukázka | Víceřádková varianta |
| :- | :- | :- | :-: |
| `%run` | spusť mi zadaný soubor | `%run muj_skript.py` | ✅ |
| `%timeit` | změř mi dobu běhu (s pomůckami) | `%timeit <statement>` | ✅ |
| `%time` | změř mi dobu běhu (bez pomůcek) | `%time <statement>` | ✅ |
| `%debug` | zapni *debugger* | `%debug` | ⛔️ |
| `%lsmagic` | zobraz všechny magické příkazy | `%lsmagic` | ⛔️|
| `%magic` | zobraz dokumentaci | `%magic` | ⛔️ |
| `%prun` | profiluj mi ohlášení | `%prun <statement>` | ⛔️ |
| `%mem` | zobraz mi využití paměti | `%mem` | ⛔️ |

### Spusť soubor

Časem začneš více experimentovat jak v prostředí *skriptu* (spustitelného souboru), tak v prostředím *notebooku*.

Důvodem může být umístění různých drobků kódu na různých místech (souborech).

Obzvlášť později se budeš snažit separovat logiku *skriptu* mimo *notebook*.

In [None]:
!ls ../onsite/lesson01

<br>

Pokud budeš chtít **z aktivního notebooku spustit skript**, můžeš použít jednořádkový příkaz `%run`:

In [None]:
%run ../onsite/lesson01/magic_run.py

Pokud potřebuješ doladit spuštění souboru, můžeš mrknout na dokumentaci a popis rozšiřujících možností [zde](https://ipython.readthedocs.io/en/stable/interactive/magics.html#magic-run).

### Stopuj průběh

Dalším užitečným *magickým příkazem* je `%timeit`.

Ten se ti bude hodit, pokud budeš potřebat určit délku běhu **jednořádkového příkazu**:

In [None]:
%timeit umocnene_hodnoty = [cislo ** 2 for cislo in range(100)]

Výhodou tohoto *jednořádkového magického příkazu* je, že pro krátké příkazy automaticky spouští několikrát.

Tím zajistí **větší množství výsledků** a z nich stanoví průměr, odchylky.

<br>

Pokud zadáš **víceřádkový magický příkaz**, můžeš napočítat průběh pro delší zápis.

Třeba pro iteraci bez *list comprehensions*.

Zde můžeš vidět patrný rozdíl mezi iterací s a bez komprehence:

In [None]:
%%timeit
umocnene_hodnoty = list()

for cislo in range(100):
    umocnene_hodnoty.append(cislo ** 2)

Oba tyto příkaz se hodí, pokud spouštíš **sérii ohlášení**.

<br>

Bohužel časový výpočet není úplně přesný.

Pokud nechceš ovlivnit krátký průběh **nesouvisejícími procesy** (opožděním v rámci OS, použitím cache):

In [None]:
cisla = [cislo for cislo in range(100000)]

<br>

Změř mi čas pro setřídění již **setříděného listu**:

In [None]:
%timeit cisla.sort()

Naopak, pokud chceš setřídit **nesetříděný** `list` a vyvarovat se nuancím, zkus mag. příkaz `%time`:

In [None]:
from random import choice

In [None]:
dalsi_cisla = [choice((1, 2, 3, 4, 5)) for cislo in range(100000)]

In [None]:
%time dalsi_cisla.sort()

<br>

V tento okamžik si *notebook* drží hodnotu uchovanou a pokud budeš stopovat čas znovu, výsledek třídění bude **podstatně kratší**:

In [None]:
%time dalsi_cisla.sort()

Proto je potřeba dávat pozor na:
1. **jednotlivé logické operace**, které měříš,
2. **featury samotného jazyka** (třeba mazání nevyužívaných objektů pomocí *garbage collectoru*).

Pro `%time` totiž pod kapotou ignoruješ různé optimalizace.

Ty by jinak mohly výsledek stopování ovlivňovat.

### Debugování

Odstraňovat chybný zápis můžeš také v prostředí `ipythonu` a Notebooků.

Stačí použít jednořádkový příkaz `%debug`:

In [None]:
def del_dvema(*args, delitel: int = 2) -> None:
    for hodnota in args:
         print(vydel_hodnotu_delitelem(hodnota, delitel))

In [None]:
def vydel_hodnotu_delitelem(hodnota: float, delitel: int) -> float:
    return hodnota / delitel

In [None]:
del_dvema(2, 3, 4, 5, 6)

Záludně nachystaná hodnota:

In [None]:
%debug del_dvema(2, 3, 4, "5", 6)

Příkaz `%debug` spustí debugger `pdb`.

Je pořád interaktivní, jako když pracuješ mimo notebook.

Pokud potřebuješ nastavit *breakpoint* v souboru, můžeš doplnit možnost `--breakpoint SOUBOR: ŘÁDEK`.

Následně si organizuješ průběh stejně jako v prostředí knihovny `pdb`.

### Seznam magických příkazů

Pokud je to na tebe moc příkazů naráz, vůbec nezoufej.

Pomocí nápovědy `%lsmagic`, si můžeš nechat vypsat seznam všech příkazů:

In [None]:
%lsmagic

Pracuje velice podobně jako zabudovaná funkce `dir()` v rámci *interpreta*.

Pokud potřebuješ detailnější nápovědu, vyzkoušej spíše `%magic`:

In [None]:
%magic

### Profilování

Každý skript nebo program je různě dlouhý.

Obsahuje tedy různé množství výrazů a ohlášení.

Někdy můžeš ocenit více časy jednotlivých sekcí, než výstupu jako celku.

In [None]:
from math import pi
from random import choices

In [None]:
def plocha_kruhu(polomer: int) -> int:
    return pi * (polomer ** 2)

In [None]:
def secti_vsechny_plochy(args) -> int:
    suma_ploch = 0
    for polomer in args:
        suma_ploch += plocha_kruhu(polomer)
    
    return suma_ploch

In [None]:
%prun secti_vsechny_plochy([1.1, 2.2, 3.3, 4.4])

In [None]:
%prun secti_vsechny_plochy(choices(range(1, 100), k=1_000_000))

Takové chování může být přínosné, ale programátor více ocení pochopitelnější, názornější výstup pomocí řádků.

Bohužel jak Python, tak IPython standardně nepodporují takové chování.

Musíš si nainstalovat ručně knihovnu `line_profiler`:

In [None]:
!pip install line_profiler

..následně musíš načíst rozšíření v rámci notebooku.

Vždy, pokud instaluješ knihovnu nebo **rozšíření třetích stran**, musíš tuto knihovnu *načíst*.

Proto, ať ji můžeš používat, použíj magický příkaz `%load_ext`:  `%load_ext <jmeno_ext>`

In [None]:
%load_ext line_profiler

<br>

..a nakonec spustíš knihovnu pro jméno funkce a následně konkrétní ohlášení: `%lrun -f <funkce> <funkční_volání>`

In [None]:
%lprun -f secti_vsechny_plochy secti_vsechny_plochy(choices(range(1, 100), k=1000000))

Čas v mikrosekundách ti lépe popíše, ve kterých částech kódu a jak dlouho *interpret* strávil.

### Využití paměti

Stejně jako s časem, můžeš měřit, kolik paměti běh tvého skriptu potřebuje.

Opět bude potřeba, nainstalovat knihovnu třetí strany:

In [None]:
!pip install memory_profiler

Potom tuto knihovnu nahrát v prostředí *notebooku*:

In [None]:
%load_ext memory_profiler

Nyní můžeš pomocí magického příkazu tuto knihovnu zapnout:

In [None]:
%memit secti_vsechny_plochy(choices(range(1, 100), k=1_000_000))

Můžeš si všimnout, že spuštěná funkce používá okolo 110 MiB paměti.

Pokud je pro tebe tato informace moc obecná a potřebuješ znát využití paměti v konkrétních místech zápisu, vyzkoušej magický příkaz `%%mprun`.

Bohužel, tento magický příkaz **v notebooku nespustíš**.

Musíš jej použít v kombinaci se jménem souboru:

In [None]:
%%file mprun_test.py
from math import pi

def plocha_kruhu(polomer: int) -> int:
    return pi * (polomer ** 2)

def secti_vsechny_plochy(args) -> int:
    suma_ploch = 0
    for polomer in args:
        suma_ploch += plocha_kruhu(polomer)
    
    return suma_ploch

Pomocí mag. příkazu `%%file` vytvořím Pythoní skript, který můžu následně využít:

In [None]:
from mprun_test import secti_vsechny_plochy

In [None]:
%mprun -f secti_vsechny_plochy secti_vsechny_plochy(choices(range(1, 100), k=1_000_000))

Zobrazeního posledního běhu měření paměti pro lepší ilustraci:
```
Filename: /home/jovyan/work/shared/notebooks/mprun_test.py

Line #    Mem usage    Increment  Occurrences   Line Contents
=============================================================
     6    112.4 MiB    112.4 MiB           1   def secti_vsechny_plochy(args) -> int:
     7    112.4 MiB      0.0 MiB           1       suma_ploch = 0
     8    112.4 MiB -18859.9 MiB     1000001       for polomer in args:
     9    112.4 MiB -18859.9 MiB     1000000           suma_ploch += plocha_kruhu(polomer)
    10                                             
    11    112.4 MiB     -0.0 MiB           1       return suma_ploch
```

Toto jsou v podstatě ty nejčastěji používané featury Notebooku, v rámci Pythonu.

Nicméně ne vždy, budeš mít k datům přístup přímo.

Občas se může hodit integrace Pythonu do SQL.

<img src="https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Ftse4.mm.bing.net%2Fth%3Fid%3DOIP.dgV0Vm9IR0IPcNC41gugCgHaHa%26pid%3DApi&f=1&ipt=8e322a5d8e45ac77ea9cbc09b04230c9462497e65599f5c0ec800a2292381452&ipo=images" width="150"/>

## Chystání connection v rámci Pythonu

---

Pracovat buď s databázovým systémem, nebo s programovacím jazykem je běžné.

Co když budeš potřebovat pracovat s oběma?
Tedy současně tvořit dotazy a následně získaná data zpracovat jako programátor.

<br>

Budeš potřebovat **spojit obě tyto prostředí**.

K tomu obvykle potřebuješ pomocnou knihovnu.

Postup bude mít následující kroky:
1. Nahraješ potřebnou knihovnu,
2. vytvoříš objekt, který tě spojí s dat. systémem,
3. vytvoříš objekt, který ti umožní dotazovat,
4. ukončíš aktivní spojení.

Celý průběh se točí kolem rozhraní, které zajistí přístup do DB (tzv. *API*, ~*application programming interface*)([zdroj](https://peps.python.org/pep-0249/)).

<img src="https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Ftse4.mm.bing.net%2Fth%3Fid%3DOIP.W2N7dQ3O6Ap5P9j5ySALFgHaHa%26pid%3DApi&f=1&ipt=7281764d1fc68c062b10965458a6f0ba9c4c28b1cebcd949afa0d57907cd2bbe&ipo=images" width="120"/>

Dávej pozor, různé databázové enginy vyžadují práci s různými knihovnami *třetích stran*.

<br>

Malý rozbor těch nejčastějších:

| DBMS | Knihovna | Instalace pomocí manažeru `pip` |
| :-: | :-: | :- |
| MySQL | `mysql.connector` | `pip install mysql-connector-python`|
| MS SQL | `pyodbc` | `pip install pyodbc`|
| PostgreSQL | `psycopg2` | `pip install psycopg2` |
| MariaDB | `mariadb` | `pip3 install mariadb`|
| MongoDB | `pymongo` | `pip install pymongo`|
| Oracle | `oracledb` | `pip install oracledb` |
| sqlite3 | `sqlite3` | *zabudovaná knihovna, nemusíš stahovat a instalovat* |

<img src="https://i.imgur.com/WqRAz6u.png" width="900"/>

### MS SQL

V tomto kurzu uvidíš hlavně integraci Pythonu v rámci **MSSQL**.

Než začneš nainstaluj si:
1. `pyodbc` samotnou knihovnu,
2. potřebné ovladače (Mac a Linux `unixodbc`),
3. *(volitelné)* pomocné knihovny dle chuti.

#### Instalace knihovny `pyodbc`

In [None]:
!pip install pyodbc  # sudo apt install unixodbc, pokud chybí ovladače

### Vytvoření spojení pro MS SQL s `pyodbc`

Nejprve tedy nahraješ výše uvedené knihovny:

**Další ukázky v rámci IDE!!**

<br>

..ihned po nahrátí můžeš zkontrolovat dostupné ovladače:

In [None]:
pyodbc.drivers()

<details>
    <summary>▶️ Nápověda pro chybějící ovladače v kontejneru</summary>
    
    ```
    docker exec -it -u root "container_id" start.sh
    sudo apt update
    sudo apt install unixodbc
    ```


</details>

#### Procesy pro připojení

Nyní máš hned několik možností, jak samotné připojení dokončit:
1. `pyodbc` knihovna, pomocný `str`,
2. `pyodbc` knihovna, formátovaný `str`.

##### `pyodbc` a string

Nejjednodušší způsob, nahraješ knihovnu `pyodbc`:

In [None]:
import pyodbc  # pip install!

In [None]:
# help(pyodbc.connect)

<br>

.. vytvoříš `str`, který obsahuje přihl. údaje na tvůj lokální server:

In [None]:
connection_str = 'Driver={ODBC Driver 17 for SQL Server};' \
    'Server=localhost;uid=sa;pwd=csoB2023;' \
    'port=1443;database=company_test;'

<br>

.. nakonec použiješ `with` kontextový manažer pro vytvoření:
* samotného objektu připojení, `connection`,
* dotazovače `cursor`,
* odešleš dotaz.

In [None]:
with pyodbc.connect(connection_str) as connection:
    cursor = connection.cursor()
    cursor.execute("SELECT * FROM customer_test")

    for row in cursor.fetchall():
        print(row)

Jednotlivé objekty:
* `connect()`, jde o *zabudovanou funkci*, které předáš **ODBC spojovací string** a vrátí ti objekt reprezentující DB,
* `connnection`, *alias*, kterým budeš na nově reprezentující objekt odkazovat,
* `cursor()`, *metoda*, vracející nový objekt, který ti umožní s DB interagovat,
* `execute()`, *metoda*, která připravý a odešle dotaz nebo příkaz,
* `fetchall()`, *funkce*, vracející `list` obsahující všechny záznamy jako odpověď na `execute()`.

##### `pyodbc` a formátovaný string

Pokud máš plno hotových nebo předchystaných objektů s údaji, je často lepší zpracovat je společně. Buď pomocí namapovaných klíčů a hodnot ve `dict`, případně pomocí `**kwargs**`:

In [None]:
def vytvor_spojovaci_str(**kwargs) -> str:
    return \
        f"Driver={kwargs['Driver']};" \
        f"Server={kwargs['host']};uid={kwargs['uid']};pwd={kwargs['password']};" \
        f"port={kwargs['port']};database={kwargs['database']};"

In [None]:
print(
    vytvor_spojovaci_str(
        uid="sa",
        password="csoB2023",
        host="localhost",
        database="company_test",
        port="1433",
        Driver="{ODBC Driver 17 for SQL Server}"
    )
)

##### 🧠 CVIČENÍ 🧠, vytvoř vlastní connectionu pro testovací DB

### Vytvoření nové databáze, nové tabulky, vložení hodnot

V tento moment, kdy se můžeš pomocí Pythonu připojit, můžeš začít provádět další operace.

Nejprve tedy zápis pro vytvoření vlastní testovací databáze, pokud už náhodou není vytvořená:

In [None]:
import pyodbc

In [None]:
db_name = "master"
new_db_name= "employee_test"

In [None]:
sql_query_create_db = f"CREATE DATABASE IF NOT EXIST {new_db_name};"

In [None]:
with pyodbc.connect(connection_str, autocommit=True) as connection:
    cursor = connection.cursor()
    cursor.execute(sql_query)

<br>

Následně doplnění vytvoření tabulky `employees`: 

In [None]:
sql_query_create_table = f"""\
CREATE TABLE {table_name} (
    EmployeeId int PRIMARY KEY NOT NULL,
    LastName varchar(255) NOT NULL,
    FirstName varchar(255) NOT NULL,
    PhoneNumber varchar(100),
    Email varchar(255)
);"""

In [None]:
with pyodbc.connect(connection_str, autocommit=True) as connection:
    cursor = connection.cursor()
    cursor.execute(sql_query_create_table)

<br>

Nakonec naplníš novou tabulku `company_test.Customer_test` ukázkovými daty.

Při procesu vkládání záznamů můžeš vyzkoušet několik postupů:
1. Vložíš data do záznamu jako `str`,
2. naformátuješ string v proměnné,
3. dbáš na počet sloupečků.

Prakticky pak použiješ takový, který se ti v dané situaci více hodí.

#### Vložení samotného stringu

In [None]:
table_name = "employee_table"

In [None]:
connection_str = \
    'Driver={ODBC Driver 17 for SQL Server};' \
    'Server=localhost;uid=sa;pwd=csoB2023;'   \
    'port=1443;database=employee_test;'

In [None]:
sql_query_insert = f"""\
INSERT INTO {table_name} VALUES
    (1, 'Holinka', 'Matous', '+420777666555', 'matous@matousholinka.com'),
    (2, 'Parek', 'Marek', '+420777555444', 'marek@parek.com'),
    (3, 'Svetr', 'Petr', '+420777444333', 'petr@svetr.com'),
    (4, 'Babadam', 'Andrej', '+420777333222', 'andrej@seznam.cz'),
    (5, 'Tuma', 'Urman', '+420777111333', 'tuma@urman.com');"""

In [None]:
with pyodbc.connect(connection_str, autocommit=True) as connection:
    cursor = connection.cursor()
    cursor.execute(sql_query_insert)

#### Formátování stringu

Pakliže máš data nachystané v nějakém objektu, je potřeba je pro konkrétní scénář vložit:

In [None]:
db_name = "employee_test"
table_name = "employee_table"

In [None]:
connection_str = \
    'Driver={ODBC Driver 17 for SQL Server};' \
    'Server=localhost;uid=sa;pwd=csoB2023;'   \
    f'port=1443;database={db_name};'

In [None]:
user_data = [
    (1, 'Holinka', 'Matous', '+420777666555', 'matous@matousholinka.com'),
    (2, 'Parek', 'Marek', '+420777555444', 'marek@parek.com'),
    (3, 'Svetr', 'Petr', '+420777444333', 'petr@svetr.com'),
    (4, 'Babadam', 'Andrej', '+420777333222', 'andrej@seznam.cz'),
    (5, 'Tuma', 'Urman', '+420777111333', 'tuma@urman.com')
]

In [None]:
insert_sql = \
    f"INSERT INTO {table_name} " \
    f"VALUES ({('?, ' * len(user_data)).rstrip(', ')})"

In [None]:
insert_sql

In [None]:
with pyodbc.connect(connection_str, autocommit=True) as connection:
    cursor = connection.cursor()
    cursor.execute(insert_sql, user_data)

<br>

Případně lepší kombinace pomocí namapovaných atributů na jejich hodnoty jako `dict`:

In [None]:
user_data = [
    {"CustomerId": 1, "LastName": "Holinka", "FirstName": "Matous",
     "PhoneNumber": "420777666555", "Email": "matous@matousholinka.com"},
    {"CustomerId": 2, "LastName": "Parek", "FirstName": "Marek",
     "PhoneNumber": "420777555444", "Email": "marek@parek.com"},
    {"CustomerId": 3, "LastName": "Svetr", "FirstName": "Petr",
     "PhoneNumber": "420777444333", "Email": "petr@svetr.com"},
    {"CustomerId": 4, "LastName": "Babadam", "FirstName": "Andrej",
     "PhoneNumber": "420777333222", "Email": "andrej@seznam.cz"},
    {"CustomerId": 5, "LastName": "Tuma", "FirstName": "Urman",
     "PhoneNumber": "420777111333", "Email": "tuma@urman.com"},
]

In [None]:
insert_sql = \
    f"INSERT INTO {table_name} " \
    f"VALUES ({('?, ' * len(user_data)).rstrip(', ')})"

In [None]:
with pyodbc.connect(connection_str, autocommit=True) as connection:
    cursor = connection.cursor()
    cursor.executemany(insert_sql, [tuple(row.values()) for row in user_data])

#### Kontrola sloupečků

Pokud existuje možnost, že některá z hodnot v záznamu bude chybět, vkládej hodnoty pomocí jmen atributů:

In [None]:
db_name = "employee_test"
table_name = "employee_table"

In [None]:
connection_str = \
    'Driver={ODBC Driver 17 for SQL Server};' \
    'Server=localhost;uid=sa;pwd=csoB2023;'   \
    f'port=1443;database={db_name};'

In [None]:
user_data = [
    {"CustomerId": 1, "LastName": "Holinka", "FirstName": "Matous",
     "PhoneNumber": "420777666555", "Email": "matous@matousholinka.com"},
    {"CustomerId": 2, "LastName": "Parek", "FirstName": "Marek",
     "PhoneNumber": "420777555444", "Email": "marek@parek.com"},
    {"CustomerId": 3, "LastName": "Svetr", "FirstName": "Petr",
     "PhoneNumber": "420777444333", "Email": "petr@svetr.com"},
    {"CustomerId": 4, "LastName": "Babadam", "FirstName": "Andrej",
     "PhoneNumber": "420777333222", "Email": "andrej@seznam.cz"},
    {"CustomerId": 5, "LastName": "Tuma", "FirstName": "Urman",
     "PhoneNumber": "420777111333", "Email": "tuma@urman.com"},
]

In [None]:
insert_sql = f"""\
INSERT INTO Customer_test (CustomerId, LastName, FirstName, PhoneNumber, Email)
VALUES ({('?, ' * len(user_data)).rstrip(', ')});"""

In [None]:
with pyodbc.connect(connection_str, autocommit=True) as connection:
    cursor = connection.cursor()
    cursor.executemany(insert_sql, [tuple(row.values()) for row in user_data])

### Dotazování záznamů

Jakmile jsou data uvnitř databáze, můžeš se na ně začít dotazovat:

In [None]:
db_name = "employee_test"
table_name = "employee_table"

In [None]:
select_query = f"""\
SELECT *
FROM {table_name};"""

In [None]:
with pyodbc.connect(connection_str, autocommit=True) as connection:
    cursor = connection.cursor()
    cursor.execute(query)

    for row in cursor.fetchall():
        print(row)

### Aktualizace záznamů

In [None]:
db_name = "employee_test"
table_name = "employee_table"

In [None]:
connection_str = \
    'Driver={ODBC Driver 17 for SQL Server};' \
    'Server=localhost;uid=sa;pwd=csoB2023;' \
    f'port=1443;database={db_name};'

In [None]:
update_query = f"""\
UPDATE
    {table_name}
SET
    Email = 'andres@seznam.cz'
WHERE CustomerId = 4;"""

In [None]:
with pyodbc.connect(connection_str, autocommit=True) as connection:
    cursor = connection.cursor()
    cursor.execute(update_query)

    cursor.execute(f"SELECT * FROM {table_name}")

    for row in cursor.fetchall():
        print(row)

### Zahodit jak data, tak tabulku

In [None]:
db_name = "employee_test"
table_name = "employee_table"

In [None]:
connection_str = \
    'Driver={ODBC Driver 17 for SQL Server};' \
    'Server=localhost;uid=sa;pwd=csoB2023;' \
    f'port=1443;database={db_name};'

In [None]:
drop_query = f"DROP TABLE IF EXISTS {table_name}"

In [None]:
with pyodbc.connect(connection_str, autocommit=True) as connection:
    cursor = connection.cursor()
    cursor.execute(drop_query)

    cursor.execute(f"SELECT * FROM {table_name}")

    for row in cursor.fetchall():
        print(row)

##### 🧠 CVIČENÍ 🧠, vyzkoušet SELECT na existují tabulky

<img src="https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Ftse1.mm.bing.net%2Fth%3Fid%3DOIP.Ujo_4-EC56gfVZ7ZKWm8YQHaHa%26pid%3DApi&f=1&ipt=15ab5f24656b27411a019df56115fc2bc5c6f95e760a65f25b78fd23bbf04a0f&ipo=images" width="120"/>

## ORM, pomocí knihovny `sqlalchemy` 

---

Střídáš často různé správce databázových systémů?

Možná hledáš pomůcku pro tvoření připojovacích objektů nebo nástroj, který SQL dotazy namapuje na objekty Pythonu.

V takovém případě se určitě podívej na knihovnou `sqlalchemy`.

<img src="../onsite/lesson01/sql_alchemy_orm.png" width="700"/>

Je to v podstatě vrstva mezi uživatelem (tebou) a databázovým systémem, se kterým pracuješ.

Ta pracuje na bázi mapování relaci přes objekty (~*object relation mapper*, ORM).

### Připravení připojení

Připojit se můžeš **dvěma způsoby**:
1. Zadání připojovacího stringu ručně, popř. formátovat,
2. vytvoření objektu `URL`.

#### Zadání stringu, ručně

In [None]:
import pyodbc

In [None]:
from sqlalchemy import create_engine, text

<br>

..následně potřebuješ správně zapsat připojovací *string*.

Jde o tzv. databázové URL, které má vždy podobný vzor:
```
"<dialect>+<knihovna>://<uzivatel>:<heslo>@<adresa>:<port>/<databaze>?<ovladac>"
```

In [None]:
engine = create_engine(
    "mssql+pyodbc://sa:csoB2023@localhost:1433/master?driver=ODBC+Driver+17+for+SQL+Server"
)

In [None]:
with engine.connect() as connection:
    result = connection.execute(text("SELECT * FROM Employees"))
    for row in result:
        print(row)

<br>

V tomto případě tě zajímá pouze vytvoření připojení Pythonu na řidící systém.

Později uvidíš další použití této knihovny `sqlalchemy`.

#### Vytvoření objektu URL

Tentokrát budeš ještě přísnější a budeš chtít, aby ti *interpret* sám vytvořil *připojovací string*:

In [None]:
import pyodbc

In [None]:
from sqlalchemy.engine import URL

In [None]:
from sqlalchemy import create_engine

In [None]:
type(create_engine)

<br>

Pomocí metody `create()` a klíčových argumentů si necháš předpřipravit tento objekt:

In [None]:
url_object = URL.create(
    drivername="mssql+pyodbc",
    username="sa",
    password="csoB2023",
    host="localhost",
    database="master"
)

<br>

Následně tento předpřipravený objekt můžeš zadat do funkce `create_engine()`, kde navíc **doplníš klíčový argument**:

In [None]:
engine = create_engine(url_object, driver="ODBC+Driver+17+for+SQL+Server")

In [None]:
with engine.connect() as connection:
    result = connection.execute(text("SELECT * FROM Employees"))
    for row in result:
        print(row)

### Tvorba tabulek

Obecně je celý postup složen ze tří komponentů:
* `Table` objekt, reprezentující tabulky v databázi,
* `mapper` objekt, spojující třídy Pythonu na tabulky,
* `class` objekt, který říká, jak záznam přemapuje na objekt Pythonu.

Místo zapisování zdrojového kódu pro tabulky, mapper a třídy na různých místech, deklarativní způsob zapisování dovoluje zadat vše v rámci jednoho objektu.

Nejprve si **nahraj všechny prerekvizity**, pro takové zadání budeš potřebovat:

In [None]:
from sqlalchemy import create_engine
from sqlalchemy import Column, Integer, String
from sqlalchemy.ext.declarative import declarative_base

Nejprve potřebuješ deklarativně nachystat třídní definici:

In [None]:
Base = declarative_base()

Vytvoříš třídu, která bude zastupovat konkrétní tabulku:

In [None]:
class CustomerTable(Base):
__tablename__ = 'customer_table'

Customerid = Column(Integer, primary_key=True)
LastName = Column(String(250), nullable=False)
FirstName = Column(String(250), nullable=False)
PhoneNumber = Column(String(100), nullable=False)
Email = Column(String(250))

Připojíš se, podle vzoru výš, do databáze:

In [None]:
engine = create_engine(
    "mssql+pyodbc://sa:csoB2023@localhost:1433/master?driver=ODBC+Driver+17+for+SQL+Server"
)

Spustíš ekvivalent pro `CREATE TABLE` pomocí enginu `sqlalchemy`:

In [None]:
Base.metadata.create_all(engine)

Nově vzniklou tabulku můžeš prohlédnout pomocí *browseru*.

### Vkládání záznamů pomocí ORM

Klíčovým objektem pro interakce s existují tabulkou je tzv. `sessionmaker`:

In [None]:
from sqlalchemy.orm import sessionmaker

In [None]:
engine = create_engine(
    "mssql+pyodbc://sa:csoB2023@localhost:1433/master?driver=ODBC+Driver+17+for+SQL+Server"
)

Propojíš objekt s metadaty `Base` s připojovacím objektem `engine`.

In [None]:
Base.metadata.bind = engine

Tím si zajistíš přístup v rámci sessiony.

Nakonec definuješ stagingovou zónu, kde budeš chystat objekty pro dotazy a následně je spouštět:

In [None]:
DBSession = sessionmaker(bind=engine)
session = DBSession()

Vkládáš první záznam pomocí ORM:

In [None]:
new_customer = CustomerTable(
    Customerid=1,
    LastName="Holinka",
    FirstName='Matouš',
    PhoneNumber="+420111222333",
    Email="matous@matousholinka.com"
)

In [None]:
session.add(new_customer)
session.commit()

Nakonec ještě kontrola, jestli záznam skutečně existuje:

In [None]:
print(session.query(CustomerTest).all())

In [None]:
person = session.query(Person).first()
print(person.name)

<img src="https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Ftse4.mm.bing.net%2Fth%3Fid%3DOIP.W2N7dQ3O6Ap5P9j5ySALFgHaHa%26pid%3DApi&f=1&ipt=7281764d1fc68c062b10965458a6f0ba9c4c28b1cebcd949afa0d57907cd2bbe&ipo=images" width="120"/>

## Integrace SQL v rámci notebooků

---

Pokud chceš jednoduše pracovat s databázovými systémy pohodlně a **z prostředí notebooků**, musíš si nejprve nainstalovat pomocnou knihovnu `ipython-sql`([zdroj](https://pypi.org/project/ipython-sql/)):

In [None]:
!pip install ipython-sql

<br>

Jakmile je knihovna nainstalovaná, stačí načíst pomocí dalšího [magického příkazu](#Magické-příkazy) `%load_ext sql`:

In [None]:
%load_ext sql

<br>

Od teď můžeš pracovat jak s jednořádkovým `%`, tak s víceřádkovým příkazem `%%`.


Jakmile budeš vytvářet *connection* objekt, můžeš pracovat s různými formami:
* `postgresql://username:password@hostname/dbname`,
* `sqlite:///:memory:`,
* `sqlite://`,
* `sqlite:///relative/path/to/file.db`,
* `sqlite:////absolute/path/to/file.db`.

<br>

Nyní uvidíš ukázku u databázového souboru `zamestnanci.db`:

### SQlite3
Speciálním případem je engine `sqlite3`, který je  zabudovaný jako standardní knihovna pro Python.

Dále je `sqlite3`  výhodný v tom, že je:
* **serverless**, netřeba autentikace na vzdáleném serveru,
* **self-contained**, takže jej můžu inicializovat u sebe jako lokální soubor, není potřeba instalovat.

In [None]:
!pip install pyodbc

In [None]:
import sqlite3
import logging
import sqlalchemy

In [None]:
def vytvor_spojeni_db(path: str) -> str:
    try:
        connection = sqlite3.connect(path)

    except Exception as e:
        logging.error(f"Objevila se výjimka {e}")
        connection = None
    else:
        logging.info("Připojeni k DB..")
    finally:
        logging.info("Vracím objekt pro připojení..")
        return connection

In [None]:
!ls -l ../onsite/lesson01 

Nyní zajistíš spojení notebooku a souboru, příp. objektu databázového systémů:

In [None]:
%sql sqlite:///../onsite/lesson01/testing.db

Nakonec můžeš posílat dotazy na objekt:

**Jednořádkový** (~*line magic*)

In [None]:
%sql SELECT * FROM uzivatele;

**Víceřádkový** (~*cell magic*):

In [None]:
%%sql

SELECT *
FROM uzivatele
WHERE vek >= 13;

In [None]:
%sql INSERT INTO uzivatele VALUES(4,'Tom','Hrom', 15);

Pokud chceš provést několik dotazů současně, můžeš.

Výstup se ti však zobrazí pouze pro poslední zapsaný dotaz.

##### Použití proměnných
    
V rámci *IPythonu* můžeš kombinovat jak dotazy (~*queries*), tak proměnné:

In [None]:
databaze = "uzivatele"

In [None]:
%sql SELECT * FROM db_name = :databaze

In [None]:
%sql SELECT * FROM db_name = '{databaze}'

##### Spolupráce s `pandas`

Vytvoření nového *DataFrame* je možné přímo spojit se spuštěním a uložení výstupu z dotazu:

In [None]:
from pandas import DataFrame

In [None]:
selekce_dospelych = %%sql
SELECT *
FROM uzivatele
WHERE 'vek' >= 13;

In [None]:
dospeli = selekce_dospelych.DataFrame()

##### Grafický výstup

In [None]:
import matplotlib

In [None]:
selekce_dospelych = %%sql
SELECT *
FROM uzivatele
WHERE 'vek' >= 13;

In [None]:
%matplotlib inline

In [None]:
selekce_dospelych.pie()

---