# Databáze

V této lekci si ukážeme, jak se dá z Pandas připojit k databázi. To nám umožní psát v rámci Pythonu SQL dotazy a jako výsledky dostávat dataframes. Ukážeme si pár příkladů a porovnáme rozdíly mezi zpracováním dat v databázi a v Pandas.

Lekce předpokládá, že máte nainstalovaný Snowflake connector a funguje vám připojení k databázi. Pokud nemáte, využijte přiložený [skript](check_db.py). Spustíte jako `python check_db.py --name '<vas-snowflake-login>' --password '<vase-snowflake-heslo>'` včetně těch jednoduchých uvozovek. V mém případě tedy `python check_db --name 'CZECHITA_KALAT' --password '12345'`. Skript zkontroluje jestli máte nainstalovaný Snowflake connector, správně zadané heslo a jestli funguje připojení. Pokud ne, vypíše krátký komentář a chybu.

Než se připojíme k databázi, ukážeme si nějakou další práci s textovými řetězci, která se nám bude hodit při psaní SQL dotazů.

## 1. Víceřádkové stringy a další formátování

### Víceřádkové stringy

SQL dotazy se v Pythonu píšou jako obyčejné stringy. Jupyter to neumí, ale chytřejší programy poznají že je ve stringu SQL, a zvýrazní nám jeho syntaxi.

Pro snazší čitelnost je, stejně jako v klasickém SQL, zvykem psát dotazy rozdělené do více řádků. Začneme tedy ukázkou, jak psát v Pythonu víceřádkové stringy.

Pokud ukončíme řádek uprostřed obyčejného stringu, chápe to Python jako oddělení dvou příkazů, a začne si stěžovat na neukončené uvozovky.

In [1]:
tohle_nepujde = "SELECT sloupec
FROM tabulka"

print(tohle_nepujde)

SyntaxError: EOL while scanning string literal (<ipython-input-1-18a9d138385f>, line 1)

Můžeme tam sice přidat znak `\n` jako nový řádek, ale ten funguje jen po vypsání na obrazovku nebo do souboru. Čitelnosti kódu to nijak nepomůže.

In [2]:
tohle_neni_citelne = "SELECT sloupec\nFROM tabulka"

print(tohle_neni_citelne)

SELECT sloupec
FROM tabulka


Python umožňuje začít (a ukončit) string třemi uvozovkami. Takový string pak chápe jako víceřádkový.

In [3]:
tohle_je_ok = """
SELECT sloupec
FROM tabulka
"""

print(tohle_je_ok)


SELECT sloupec
FROM tabulka



Takový string dokonce zachovává odsazení.

In [4]:
odsazeny_string = """
SELECT sloupec1,
       sloupec2,
FROM tabulka
WHERE sloupec3 IN (
    SELECT sloupec4
    FROM tabulka2
)
"""

print(odsazeny_string)


SELECT sloupec1,
       sloupec2,
FROM tabulka
WHERE sloupec3 IN (
    SELECT sloupec4
    FROM tabulka2
)



Občas si lidé myslí, že tři uvozovky znamenají víceřádkový komentář. To ale není pravda, Python žádné víceřádkové komentáře nemá.

In [5]:
"""
Zde není komentář.

Zde už vůbec ne.
"""

'\nZde není komentář.\n\nZde už vůbec ne.\n'

Jak vidíme z výstupu Jupyteru, Python vytvořil víceřádkový string. Jen se neuložil do žádné proměnné a tak hned zanikl. Narozdíl od komentářů (které se při spuštění programu přeskakují) ale Python každý víceřádkový string vytvoří, což stojí nějakou práci navíc.

Navíc je možné v rámci takového (f-)stringu spustit libovolný kód, což by v komentáři určitě jít nemělo. Není to speciální vlastnost víceřádkových stringů, totéž lze provést i v klasickém f-stringu. Jen to ukazuje rozdíl oproti komentářům.

In [6]:
f"""
Zde není komentář.

Zkusíme dělit nulou: {1 / 0}.
"""

ZeroDivisionError: division by zero

### Další způsob formátování stringů

Pro formátování stringů jsme si už dříve ukázali f-stringy. Ty nám umožňují do stringu dodat hodnotu libovolného Pythonovského výrazu. Ačkoliv Python umí víc způsobů, f-stringy se používají nejčastěji, protože jsou nejčitelnější a nejrychlejší.

Jejich nevýhodou ale je, že nemůžeme stejný string využít víckrát s různými hodnotami. Právě to se nám někdy hodí při psaní modulárních SQL dotazů.

Dejme tomu, že máme tabulku studentů.

<table>
    <tr><th>Jméno</th><th>Bydliště</th><th>Studijní obor</th></tr>
    <tr><td>František Novák</td><td>Praha</td><td>Historie</td></tr>
    <tr><td>Josef Krátký</td><td>Litomyšl</td><td>Matematika</td></tr>
    <tr><td>Petr Švec</td><td>Olomouc</td><td>Alchymie</td></tr>
    <tr><td>David Kovář</td><td>Znojmo</td><td>Hudba</td></tr>
    <tr><td>Prokop Novotný</td><td>Praha</td><td>Tanec</td></tr>
    <tr><td>Marek Černý</td><td>Plzeň</td><td>Medicína</td></tr>
</table>

Podobně máme tabulku profesorů.

<table>
    <tr><th>Jméno</th><th>Bydliště</th><th>Vydaných článků</th></tr>
    <tr><td>Jiří Volf</td><td>Brno</td><td>1</td></tr>
    <tr><td>Jan Kulhavý</td><td>Praha</td><td>40</td></tr>
    <tr><td>Michal Horák</td><td>Ostrava</td><td>3</td></tr>
    <tr><td>Ondřej Veselý</td><td>Plzeň</td><td>18</td></tr>
</table>

Chceme vybrat studenty i profesory, kteří žijí v Praze. V obou případech bude dotaz podobný.

In [7]:
studenti_praha = """
SELECT jmeno
FROM studenti
WHERE bydliste = 'Praha'
"""

profesori_praha = """
SELECT jmeno
FROM profesori
WHERE bydliste = 'Praha'
"""

Protože se oba dotazy liší jen názvem tabulky, bylo by mnohem hezčí napsat si obecný dotaz pro výběr jmen s bydlištěm v Praze, a podle potřeby do něj doplnit název tabulky.

In [8]:
bydliste_praha = """
SELECT jmeno
FROM {tabulka}
WHERE bydliste = 'Praha'
"""

In [9]:
print(bydliste_praha.format(tabulka="studenti"))


SELECT jmeno
FROM studenti
WHERE bydliste = 'Praha'



In [10]:
print(bydliste_praha.format(tabulka="profesori"))


SELECT jmeno
FROM profesori
WHERE bydliste = 'Praha'



Můžeme jít ještě dál, a i místo bydliště nechat jako parametr. Jen pozor na jednoduché uvozovky okolo hodnoty.

In [11]:
jmeno_podle_bydliste = """
SELECT jmeno
FROM {tabulka}
WHERE bydliste = '{bydliste}'
"""

In [12]:
print(jmeno_podle_bydliste.format(tabulka="studenti", bydliste="Brno"))


SELECT jmeno
FROM studenti
WHERE bydliste = 'Brno'



## 2. SELECT

### Připojení a základní SELECTy

Zatím jsme si vyráběli SQL dotazy ve stringu, ale neposílali jsme je do databáze. To přijde teď.

In [13]:
import pandas as pd
import snowflake.connector

Nejprve potřebujeme zadat jméno a heslo pro přístup do databáze. Formálně je potřeba i role, ale zde víme jak vypadá, tak ji dostaneme automaticky.

In [14]:
name = ...  # Dopln svuj login jako string.
password = ...  # Dopln svoje heslo jako string.
role = "ROLE_" + name.upper()

Doplníme údaje o databázovém serveru a pomocí Snowflake connectoru navážeme spojení.

In [15]:
DATABASE = "COURSES"
HOST = "https://ip68917.eu-west-1.snowflakecomputing.com/"
SCHEMA = "SCH_CZECHITA"
WAREHOUSE = "COMPUTE_WH"
ACCOUNT = "ip68917.eu-west-1"

conn = snowflake.connector.connect(
    user=name,
    password=password,
    account=ACCOUNT,
    warehouse=WAREHOUSE,
    database=DATABASE,
    schema=SCHEMA,
    role=role,
)

Vyzkoušíme jednoduchý SQL dotaz -- vybereme všechny státy z tabulky `country` ve schématu `SCH_CZECHITA`. Výsledkem je obyčejný Pandas dataframe.

In [16]:
sql = """
SELECT *
FROM SCH_CZECHITA.country
"""

pd.read_sql_query(sql, conn)

Unnamed: 0,ID,NAME
0,4,Afghanistan
1,5,Albania
2,6,Algeria
3,8,Angola
4,11,Argentina
...,...,...
132,603,United Kingdom
133,1001,Serbia
134,1002,Montenegro
135,1003,Kosovo


Protože jsme schéma uvedli už při připojení, nemusíme ho opakovat u každé tabulky.

In [17]:
sql = """
SELECT *
FROM country
"""

pd.read_sql_query(sql, conn)

Unnamed: 0,ID,NAME
0,4,Afghanistan
1,5,Albania
2,6,Algeria
3,8,Angola
4,11,Argentina
...,...,...
132,603,United Kingdom
133,1001,Serbia
134,1002,Montenegro
135,1003,Kosovo


Podobně jako při načítání souboru můžeme nějaký sloupec použít jako index. Typicky se k tomu hodí primární klíč.

In [18]:
sql = """
SELECT *
FROM country
"""

pd.read_sql_query(sql, conn, index_col="ID")

Unnamed: 0_level_0,NAME
ID,Unnamed: 1_level_1
4,Afghanistan
5,Albania
6,Algeria
8,Angola
11,Argentina
...,...
603,United Kingdom
1001,Serbia
1002,Montenegro
1003,Kosovo


### Porovnání SQL a Pandas

Teď si ukážeme jak by vypadal stejný dotaz v SQL a v Pandas. Vybereme počet mrtvých (`nkill`) a zemi (`country_txt`) z tabulky `teror` ze všech útoků, kde někdo zemřel a staly se v Iráku nebo v Sýrii. Protože je jich hodně, omezíme se jen na prvních 100 nejsmrtelnějších.

In [19]:
sql = """
SELECT nkill,
       country_txt
FROM teror
WHERE nkill > 0
  AND country_txt IN ('Iraq', 'Syria')
ORDER BY nkill DESC
LIMIT 100
"""

pd.read_sql_query(sql, conn)

Unnamed: 0,NKILL,COUNTRY_TXT
0,1570,Iraq
1,953,Iraq
2,670,Iraq
3,517,Syria
4,433,Syria
...,...,...
95,49,Iraq
96,49,Iraq
97,49,Iraq
98,48,Syria


In [20]:
sql = """
SELECT *
FROM teror
"""

df = pd.read_sql_query(sql, conn)

nekdo_zemrel = df["NKILL"] > 0
zadana_zeme = df["COUNTRY_TXT"].isin(["Syria", "Iraq"])
zadane_sloupce = ["NKILL", "COUNTRY_TXT"]

df.loc[nekdo_zemrel & zadana_zeme, zadane_sloupce].sort_values(by="NKILL", ascending=False).head(100)

Unnamed: 0,NKILL,COUNTRY_TXT
8181,1570.0,Iraq
10946,953.0,Iraq
7888,670.0,Iraq
11409,517.0,Syria
44861,433.0,Syria
...,...,...
21901,49.0,Iraq
37832,49.0,Iraq
48001,49.0,Iraq
20139,48.0,Syria


Vidíme, že výsledek je téměř stejný. Jediný rozdíl je v datových typech - počet mrtvých z SQL je v celých číslech, pandy nám to daly jako floaty. Z minulé lekce můžeme tušit, že by tam mohly být nějaké chybějící hodnoty.

In [21]:
df["NKILL"].isna().sum()

3220

Je to tak. Chybějící hodnoty byly v tabulce ještě před protříděním, proto se nám datový typ float propagoval až na konec. Když jsme výsledek získali jako SQL dotaz, do Pandas dorazila jen výsledná tabulka 100 nejsmrtelnějších útoků, ve které nic nechybí.

O něco fundamentálnější rozdíl je v přístupu k datům. Pokud zadáme celý dotaz v SQL, celý výpočet běží na databázovém serveru. Pokud použijeme Pandas, běží výpočet na našem počítači. Navíc je s tím spojená práce navíc -- abychom dostali data pro Pandas, museli jsme selectnout úplně celou tabulku.

Tohle byl demonstrační příklad. V praxi bychom preferovali nechat maximum práce na databázi, aby k nám do počítače šlo co nejmenší množství dat. Pandas (případně jiné Pythonovské knihovny) pak použijeme na tento pročitěný dataset. To nám umožňí provést operace, které SQL buď přímo nepodporuje, nebo jsou v něm zbytečně těžkopádné.

### UNION

Na závěr si ukážeme `UNION` a už zmínené formátování stringů.

Budeme chtít vybrat všechny názvy zbraní (`weaptype.name`) ať už byly při útoku použity jako primární nebo sekundární. K tabulce `teror2` je joinneme pomocí sloupců `teror2.weaptype1`, respektive `teror2.weaptype2` a sloupce `weaptype.id`.

In [22]:
sql = """
SELECT w.name 
FROM teror2 t
JOIN weaptype w
ON t.weaptype1 = w.id
UNION
SELECT w.name 
FROM teror2 t
JOIN weaptype w
ON t.weaptype2 = w.id
"""

pd.read_sql(sql, conn)

Unnamed: 0,NAME
0,Explosives
1,Unknown
2,Firearms
3,Incendiary
4,Fake Weapons
5,Other
6,"""Vehicle (not to include vehicle-borne explosi..."
7,Chemical
8,Sabotage Equipment
9,Melee


Vidíme, že oba dotazy jsou skoro stejné, liší se jen sloupcem `t.weaptype1` nebo `t.weaptype2`. Nabízí se tedy poskládat dotaz z více částí.

In [23]:
select_sql = """
SELECT w.name
FROM teror2 t
JOIN weaptype w
ON t.{column} = w.id
"""

union_sql = f"""
{select_sql.format(column='weaptype1')}
UNION
{select_sql.format(column='weaptype2')}
"""

print(union_sql)



SELECT w.name
FROM teror2 t
JOIN weaptype w
ON t.weaptype1 = w.id

UNION

SELECT w.name
FROM teror2 t
JOIN weaptype w
ON t.weaptype2 = w.id




In [24]:
pd.read_sql_query(union_sql, conn)

Unnamed: 0,NAME
0,Explosives
1,Unknown
2,Firearms
3,Incendiary
4,Fake Weapons
5,Other
6,"""Vehicle (not to include vehicle-borne explosi..."
7,Chemical
8,Sabotage Equipment
9,Melee


## 3. JOIN

Opět si porovnáme JOIN mezi SQL a Pandas.

Vybereme název státu (`country.name`) a typ útoku (`attacktype.name`) tak, že k tabulce `teror2` najoinujeme tabulku `country` přes `teror2.country` <-> `country.id` a tabulku `attacktype` přes `teror2.attacktype1` <-> `attacktype.id`. Pro urychlení opět jen prvních 100 záznamů.

In [25]:
sql = """
SELECT c.name AS country_name,
       atyp.name AS attack_name
FROM teror2 AS t
LEFT JOIN country AS c
ON t.country = c.id
LEFT JOIN attacktype AS atyp
ON t.attacktype1 = atyp.id
LIMIT 100;
"""

pd.read_sql_query(sql, conn)

Unnamed: 0,COUNTRY_NAME,ATTACK_NAME
0,Somalia,Bombing/Explosion
1,Pakistan,Bombing/Explosion
2,Pakistan,Bombing/Explosion
3,Somalia,Hostage Taking (Kidnapping)
4,Iraq,Bombing/Explosion
...,...,...
95,Bangladesh,Facility/Infrastructure Attack
96,Bangladesh,Facility/Infrastructure Attack
97,Bangladesh,Facility/Infrastructure Attack
98,Bangladesh,Facility/Infrastructure Attack


In [26]:
sql_teror2 = """
SELECT *
FROM teror2
"""

sql_country = """
SELECT *
FROM country
"""

sql_attacktype = """
SELECT *
FROM attacktype
"""

df_teror2 = pd.read_sql_query(sql_teror2, conn)
df_country = pd.read_sql_query(sql_country, conn)
df_attacktype = pd.read_sql_query(sql_attacktype, conn)

In [27]:
merge1 = df_teror2.merge(df_country, how="left", left_on="COUNTRY", right_on="ID")
merge2 = merge1.merge(df_attacktype, how="left", left_on="ATTACKTYPE1", right_on="ID")

merge2.rename(columns={"NAME_x": "COUNTRY_NAME", "NAME_y": "ATTACK_NAME"}, inplace=True)
merge2[["COUNTRY_NAME", "ATTACK_NAME"]].head(100)

Unnamed: 0,COUNTRY_NAME,ATTACK_NAME
0,Somalia,Bombing/Explosion
1,Pakistan,Bombing/Explosion
2,Pakistan,Bombing/Explosion
3,Somalia,Hostage Taking (Kidnapping)
4,Iraq,Bombing/Explosion
...,...,...
95,Bangladesh,Facility/Infrastructure Attack
96,Bangladesh,Facility/Infrastructure Attack
97,Bangladesh,Facility/Infrastructure Attack
98,Bangladesh,Facility/Infrastructure Attack


Tohle je poměrně těžkopádné. Jednak musíme rozepsat merge po dvojicích, jednak musíme přejmenovat sloupce. Hlavně je to mimořádně neefektivní. Potřebujeme z databáze získat 3 velké tabulky, na našem počítači je postupně zmergovat, a nechat si z nich jen malý zlomek.

Tohle je typický případ, kdy bychom preferovali nechat veškerou práci na databázi.

## INSERT

Je samozřejmě taky možný, ale tady se do něj pouštět nebudeme. Vyžadovalo by to přenastavit schéma aby měl každý práva zapisovat, a je trochu problém napsat to efektivně. Smyslem lekce bylo ukázat že je možné propojit Python se Snowflake (případně libovolnou jinou databází), detaily si podle potřeby každý dohledá.

## Zavření spojení

Stejně jako spojení do souboru je potřeba spojení do databáze na konci zavřít.

Opět lze použít `with` blok a nechat si ho zavřít automaticky.
```python
with snowflake.connector.connect(
    user=name,
    password=password,
    account=ACCOUNT,
    warehouse=WAREHOUSE,
    database=DATABASE,
    schema=SCHEMA,
    role=role,
) as conn:
    pass
```
V rámci tohoto notebooku se to úplně nehodí, protože spojení potřebujeme používat na víc dotazů během celé lekce. Pokud ale provádíme dotazy zhruba po sobě, je vhodné `with` blok použít, stejně jako při práci se soubory. Pozor jen že navázání spojení chvíli trvá, stejně jako otevření souboru. Taky se může stát, že po mnoha opakovaných spojeních nás server na nějakou dobu zablokuje.

In [28]:
conn.close()