# Věci okolo

Nechtěl jsem moc záviset na cizích knihovnách, takže jsem si pro pohodlí používání naimplementoval: 

- vlastní DotDict (prostě dictionary s accessem jak klasickým, tak přes tečku - jestli znáte `argparse.Namespace`, tak v podstatě takhle)
- vlastní serializer/deserializer (kterej převede moje `Schema` do obyč dictionary a zpátky, aby se to dalo uložit třeba do jsonu nebo do čehokoli)
     - pokud tady hrozí, že to bude moc obtížný na správu, tak to můžeme
     vyhodit a používat třeba `yaml` balíček z pipu, který v podstatě umí totéž
     jako pythoní pickle, akorát do souboru. Jinak moc nevím, jak jinak to
     pohodlně ukládat do souboru.

## Importy

Jinak ve všech souborech používám `__all__` proměnnou (což definuje, co všechno
se naimportuje, když někdo udělá na ten soubor `import *`), a pak v různých
`__init__.py` souborech dělám relativní import podsouborů právě pomocí `import
*`, takže jsou pak pohodlnější importy - např. místo `from
db_transformer.schema.schema import Schema` a `from
db_transformer.schema.columns import NumericColumnDef` stačí `from
db_transformer.schema import Schema, NumericColumnDef`, atp.

To mi přijde jako nejčistší kompromis, jak zpohodlnit importy, přitom zachovat
rozdělení do různých souborů, nic přitom nerozbít, a navíc se v těch `__init__`
člověk nemusí rozepisovat, a přitom se nebude ani importovat nic zbytečně
navíc.

Děláme knihovnu, tak to beru vážně ;)

# Schéma

Takhle jde definovat schéma ručně:

In [2]:
from db_transformer.schema import *

schema = Schema(
    molecule = TableSchema(columns=ColumnDefs(
        molecule_id = KeyColumnDef(key=True),
        ind1 = CategoricalColumnDef(key=False, card=2),
        inda = CategoricalColumnDef(key=False, card=2),
        logp = NumericColumnDef(key=False),
        lumo = NumericColumnDef(key=False),
        mutagenic = CategoricalColumnDef(key=False, card=2)
    ), foreign_keys=[]),
    bond = TableSchema(columns=ColumnDefs(
        atom1_id = ForeignKeyColumnDef(key=True),
        atom2_id = ForeignKeyColumnDef(key=True),
        type = CategoricalColumnDef(key=False, card=6)
    ), foreign_keys=[
        ForeignKeyDef(columns=['atom1_id'], ref_table='atom', ref_columns=['atom_id']),
        ForeignKeyDef(columns=['atom2_id'], ref_table='atom', ref_columns=['atom_id'])
    ]),
    atom = TableSchema(columns=ColumnDefs(
        atom_id = KeyColumnDef(key=True),
        molecule_id = ForeignKeyColumnDef(key=False),
        element = CategoricalColumnDef(key=False, card=7),
        type = CategoricalColumnDef(key=False, card=36),
        charge = NumericColumnDef(key=False)
    ), foreign_keys=[
        ForeignKeyDef(columns=['molecule_id'], ref_table='molecule', ref_columns=['molecule_id'])
    ])
)

schema

Schema(
    molecule = TableSchema(columns=ColumnDefs(
        molecule_id = KeyColumnDef(key=True),
        ind1 = CategoricalColumnDef(key=False, card=2),
        inda = CategoricalColumnDef(key=False, card=2),
        logp = NumericColumnDef(key=False),
        lumo = NumericColumnDef(key=False),
        mutagenic = CategoricalColumnDef(key=False, card=2)
    ), foreign_keys=[]),
    bond = TableSchema(columns=ColumnDefs(
        atom1_id = ForeignKeyColumnDef(key=True),
        atom2_id = ForeignKeyColumnDef(key=True),
        type = CategoricalColumnDef(key=False, card=6)
    ), foreign_keys=[
        ForeignKeyDef(columns=['atom1_id'], ref_table='atom', ref_columns=['atom_id']),
        ForeignKeyDef(columns=['atom2_id'], ref_table='atom', ref_columns=['atom_id'])
    ]),
    atom = TableSchema(columns=ColumnDefs(
        atom_id = KeyColumnDef(key=True),
        molecule_id = ForeignKeyColumnDef(key=False),
        element = CategoricalColumnDef(key=False, card=7),
        type 

Foreign klíče jsou zvlášť, protože jsme řešili že jeden foreign klíč může být
tvořen více sloupečky, tak aby to šlo vyjádřit.

Přesto používám `ForeignKeyColumnDef` i ve sloupečcích, abych rozlišil
sloupečky, které neznamenají nic navíc kromě toho že jsou foreign klíč, od
takových, které si tam třeba chceš nechat a mít je i jako featury té
referencing tabulky (co já vím, třeba to tak někdo bude chtít).

Stejně tak všude je sice `key` boolean, značící jestli něco patří do primary
klíče, ale přesto jsem tam zvlášť přidal `KeyColumnDef`, který právě znamená
"tenhle sloupeček nenese žádnou další informaci, kromě toho, že je to primary
key." Automatický schéma detektor (vizte níže) přiřazuje `KeyColumnDef` jenom
pokud je primární klíč tvořen jediným sloupečkem (protože ten tak musí být
unikátní, takže nejspíš je fakt jenom ID a je tedy blbost se podle něj učit).
Pokud je primární klíč tvořen více sloupečky, pak je pravděpodobné, že nesou
nějakou důlěžitou informaci, protože jednak kdyby tomu tak nebylo, nebyl by
důvod aby víc sloupečků tvořilo primary key, a jednak patrně nepatí, že každý
takový sloupeček je pro každý řádek unikátní (ovšem ta celá N-tice už ano).
Takže v takovém případě se `KeyColumnDef` automaticky nepoužije a použije se
místo toho `ColumnDef` prostě podle typů těch sloupečků - aby sloupečky zůstaly
jako featury.

## Vlastní ColumnDef

Takhle snadno si může člověk nadefinovat vlastní sloupečkový typ. Ideálně když
v té classe není nic složitého, tak se to bude serializovat normálně samo. Může
to být dataclass nebo obyč třída, záleží na pohodlí.

Když to jde picklovat, tak to půjde i tady normálně.

Ideálně by to mělo extendovat `ColumnDef` čistě aby IDE nekřičelo, ale jinak nemusí.

Tady takový bláznivý příklad:

In [3]:
from dataclasses import dataclass

@dataclass
class UltraHighDefinitionVideoColumnDef(ColumnDef):
    codec: str

A přidáme ho i do našeho schéma:

In [4]:
schema.atom.columns.video = UltraHighDefinitionVideoColumnDef(codec='h265')

In [5]:
schema

Schema(
    molecule = TableSchema(columns=ColumnDefs(
        molecule_id = KeyColumnDef(key=True),
        ind1 = CategoricalColumnDef(key=False, card=2),
        inda = CategoricalColumnDef(key=False, card=2),
        logp = NumericColumnDef(key=False),
        lumo = NumericColumnDef(key=False),
        mutagenic = CategoricalColumnDef(key=False, card=2)
    ), foreign_keys=[]),
    bond = TableSchema(columns=ColumnDefs(
        atom1_id = ForeignKeyColumnDef(key=True),
        atom2_id = ForeignKeyColumnDef(key=True),
        type = CategoricalColumnDef(key=False, card=6)
    ), foreign_keys=[
        ForeignKeyDef(columns=['atom1_id'], ref_table='atom', ref_columns=['atom_id']),
        ForeignKeyDef(columns=['atom2_id'], ref_table='atom', ref_columns=['atom_id'])
    ]),
    atom = TableSchema(columns=ColumnDefs(
        atom_id = KeyColumnDef(key=True),
        molecule_id = ForeignKeyColumnDef(key=False),
        element = CategoricalColumnDef(key=False, card=7),
        type 

## Ukládání do JSONu

Serialize z toho nap5ed udělá plain dictionary:

In [6]:
from db_transformer.helpers.objectpickle import serialize, deserialize

serialize(schema)

{'molecule': {'columns': {'molecule_id': {'key': True, 'type': 'key'},
   'ind1': {'key': False, 'card': 2, 'type': 'cat'},
   'inda': {'key': False, 'card': 2, 'type': 'cat'},
   'logp': {'key': False, 'type': 'num'},
   'lumo': {'key': False, 'type': 'num'},
   'mutagenic': {'key': False, 'card': 2, 'type': 'cat'}},
  'foreign_keys': []},
 'bond': {'columns': {'atom1_id': {'key': True, 'type': 'foreign_key'},
   'atom2_id': {'key': True, 'type': 'foreign_key'},
   'type': {'key': False, 'card': 6, 'type': 'cat'}},
  'foreign_keys': [{'columns': ['atom1_id'],
    'ref_table': 'atom',
    'ref_columns': ['atom_id']},
   {'columns': ['atom2_id'],
    'ref_table': 'atom',
    'ref_columns': ['atom_id']}]},
 'atom': {'columns': {'atom_id': {'key': True, 'type': 'key'},
   'molecule_id': {'key': False, 'type': 'foreign_key'},
   'element': {'key': False, 'card': 7, 'type': 'cat'},
   'type': {'key': False, 'card': 36, 'type': 'cat'},
   'charge': {'key': False, 'type': 'num'},
   'video': 

Všimněte si, jak builtin typy sloupečků jsou takové normální stringy, zatímco
výše uvedený vlastní je takový sloitý. To jde udělat přehlednější pomocí
pohodlné anotace, která třídu zaregistruje do globálního registru aliasů:

In [7]:
@named_column_def("video")
@dataclass
class UltraHighDefinitionVideoColumnDef(ColumnDef):
    codec: str

schema.atom.columns.video = UltraHighDefinitionVideoColumnDef(codec='h265')

serialize(schema)

{'molecule': {'columns': {'molecule_id': {'key': True, 'type': 'key'},
   'ind1': {'key': False, 'card': 2, 'type': 'cat'},
   'inda': {'key': False, 'card': 2, 'type': 'cat'},
   'logp': {'key': False, 'type': 'num'},
   'lumo': {'key': False, 'type': 'num'},
   'mutagenic': {'key': False, 'card': 2, 'type': 'cat'}},
  'foreign_keys': []},
 'bond': {'columns': {'atom1_id': {'key': True, 'type': 'foreign_key'},
   'atom2_id': {'key': True, 'type': 'foreign_key'},
   'type': {'key': False, 'card': 6, 'type': 'cat'}},
  'foreign_keys': [{'columns': ['atom1_id'],
    'ref_table': 'atom',
    'ref_columns': ['atom_id']},
   {'columns': ['atom2_id'],
    'ref_table': 'atom',
    'ref_columns': ['atom_id']}]},
 'atom': {'columns': {'atom_id': {'key': True, 'type': 'key'},
   'molecule_id': {'key': False, 'type': 'foreign_key'},
   'element': {'key': False, 'card': 7, 'type': 'cat'},
   'type': {'key': False, 'card': 36, 'type': 'cat'},
   'charge': {'key': False, 'type': 'num'},
   'video': 

No a takhle z toho normálně uděláme JSON (nebo obdobně do souboru, jak je každý zvyklý):

In [8]:
import json

schema_serialized = json.dumps(serialize(schema), indent=4) 
print(schema_serialized)

{
    "molecule": {
        "columns": {
            "molecule_id": {
                "key": true,
                "type": "key"
            },
            "ind1": {
                "key": false,
                "card": 2,
                "type": "cat"
            },
            "inda": {
                "key": false,
                "card": 2,
                "type": "cat"
            },
            "logp": {
                "key": false,
                "type": "num"
            },
            "lumo": {
                "key": false,
                "type": "num"
            },
            "mutagenic": {
                "key": false,
                "card": 2,
                "type": "cat"
            }
        },
        "foreign_keys": []
    },
    "bond": {
        "columns": {
            "atom1_id": {
                "key": true,
                "type": "foreign_key"
            },
            "atom2_id": {
                "key": true,
                "type": "foreign_key"
     

A takhle to zase načteme zpátky:

In [9]:
deserialize(json.loads(schema_serialized))

Schema(
    molecule = TableSchema(columns=ColumnDefs(
        molecule_id = KeyColumnDef(key=True),
        ind1 = CategoricalColumnDef(key=False, card=2),
        inda = CategoricalColumnDef(key=False, card=2),
        logp = NumericColumnDef(key=False),
        lumo = NumericColumnDef(key=False),
        mutagenic = CategoricalColumnDef(key=False, card=2)
    ), foreign_keys=[]),
    bond = TableSchema(columns=ColumnDefs(
        atom1_id = ForeignKeyColumnDef(key=True),
        atom2_id = ForeignKeyColumnDef(key=True),
        type = CategoricalColumnDef(key=False, card=6)
    ), foreign_keys=[
        ForeignKeyDef(columns=['atom1_id'], ref_table='atom', ref_columns=['atom_id']),
        ForeignKeyDef(columns=['atom2_id'], ref_table='atom', ref_columns=['atom_id'])
    ]),
    atom = TableSchema(columns=ColumnDefs(
        atom_id = KeyColumnDef(key=True),
        molecule_id = ForeignKeyColumnDef(key=False),
        element = CategoricalColumnDef(key=False, card=7),
        type 

A ověříme, že jsme dostali, co jsme měli:

In [10]:
deserialize(json.loads(schema_serialized)) == schema

True

# Automatická detekce schématu

Používám SQLAlchemy, aby to za mě vyřešilo rozdíly mezi různými SQL syntaxemi a
různými SQL typy. Nepoužívám ORM (jakože mappingy tabulek na Python třídy),
vyjma kde je to nevyhnutelné, aby ty univerzální selecty šly vůbec psát. Zatím
tam mám jediný select: příklad, jak se select provádí, je v
`SchemaAnalyzer.do_guess_categorical_cardinality` metodě. To 'ORM' které
používám je doslova "tabulka se takhle jmenuje a takovéhle má sloupečky", vůbec
nemapuju žádné foreign klíče pomocí ORM, takže bych radši používal normální SQL
joiny (přes SQLAlchemy) místo ORM mappingů.

In [11]:
from sqlalchemy import create_engine
from sqlalchemy.orm import Session
from db_transformer.db import SchemaAnalyzer

Příklad použití pro mutagenesis z relational FIT:

In [12]:
engine = create_engine("mysql+pymysql://guest:relational@relational.fit.cvut.cz:3306/mutagenesis")

with Session(engine) as session:
    schema = SchemaAnalyzer(engine, session, verbose=True).guess_schema()

Table: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 15.13it/s]

SELECT count(DISTINCT mutagenesis.atom.element) AS count_1 
FROM mutagenesis.atom
SELECT count(DISTINCT mutagenesis.atom.type) AS count_1 
FROM mutagenesis.atom
SELECT count(DISTINCT mutagenesis.molecule.ind1) AS count_1 
FROM mutagenesis.molecule
SELECT count(DISTINCT mutagenesis.molecule.inda) AS count_1 
FROM mutagenesis.molecule
SELECT count(DISTINCT mutagenesis.molecule.mutagenic) AS count_1 
FROM mutagenesis.molecule
SELECT count(DISTINCT mutagenesis.bond.type) AS count_1 
FROM mutagenesis.bond





In [13]:
schema

Schema(
    atom = TableSchema(columns=ColumnDefs(
        atom_id = KeyColumnDef(key=True),
        molecule_id = ForeignKeyColumnDef(key=False),
        element = CategoricalColumnDef(key=False, card=7),
        type = CategoricalColumnDef(key=False, card=36),
        charge = NumericColumnDef(key=False)
    ), foreign_keys=[
        ForeignKeyDef(columns=['molecule_id'], ref_table='molecule', ref_columns=['molecule_id'])
    ]),
    molecule = TableSchema(columns=ColumnDefs(
        molecule_id = KeyColumnDef(key=True),
        ind1 = CategoricalColumnDef(key=False, card=2),
        inda = CategoricalColumnDef(key=False, card=2),
        logp = NumericColumnDef(key=False),
        lumo = NumericColumnDef(key=False),
        mutagenic = CategoricalColumnDef(key=False, card=2)
    ), foreign_keys=[]),
    bond = TableSchema(columns=ColumnDefs(
        atom1_id = ForeignKeyColumnDef(key=True),
        atom2_id = ForeignKeyColumnDef(key=True),
        type = CategoricalColumnDef(key=Fal

Složitější příklady:

In [14]:
engine = create_engine("mysql+pymysql://guest:relational@relational.fit.cvut.cz:3306/stats")

with Session(engine) as session:
    schema = SchemaAnalyzer(engine, session, verbose=True).guess_schema()

Table:   0%|                                                                                                                                                                                                                                                                                              | 0/8 [00:00<?, ?it/s]

SELECT count(DISTINCT stats.users."Reputation") AS count_1 
FROM stats.users
SELECT count(DISTINCT stats.users."DisplayName") AS count_1 
FROM stats.users
SELECT count(DISTINCT stats.users."WebsiteUrl") AS count_1 
FROM stats.users
SELECT count(DISTINCT stats.users."Location") AS count_1 
FROM stats.users
SELECT count(DISTINCT stats.users."AboutMe") AS count_1 
FROM stats.users


Table:  12%|██████████████████████████████████▊                                                                                                                                                                                                                                                   | 1/8 [00:00<00:03,  2.22it/s]

SELECT count(DISTINCT stats.users."Views") AS count_1 
FROM stats.users
SELECT count(DISTINCT stats.users."UpVotes") AS count_1 
FROM stats.users
SELECT count(DISTINCT stats.users."DownVotes") AS count_1 
FROM stats.users
SELECT count(DISTINCT stats.users."AccountId") AS count_1 
FROM stats.users
SELECT count(stats.users."AccountId") AS count_1 
FROM stats.users 
WHERE stats.users."AccountId" IS NOT NULL
SELECT count(DISTINCT stats.users."Age") AS count_1 
FROM stats.users
SELECT count(DISTINCT stats.users."ProfileImageUrl") AS count_1 
FROM stats.users
SELECT count(DISTINCT stats."postLinks"."LinkTypeId") AS count_1 
FROM stats."postLinks"
SELECT count(stats."postLinks"."LinkTypeId") AS count_1 
FROM stats."postLinks" 
WHERE stats."postLinks"."LinkTypeId" IS NOT NULL
SELECT count(DISTINCT stats."postHistory"."PostHistoryTypeId") AS count_1 
FROM stats."postHistory"
SELECT count(stats."postHistory"."PostHistoryTypeId") AS count_1 
FROM stats."postHistory" 
WHERE stats."postHistory"."Po

Table:  38%|████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                                                                                             | 3/8 [00:25<00:47,  9.45s/it]

SELECT count(DISTINCT stats.votes."VoteTypeId") AS count_1 
FROM stats.votes
SELECT count(stats.votes."VoteTypeId") AS count_1 
FROM stats.votes 
WHERE stats.votes."VoteTypeId" IS NOT NULL


Table:  50%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                                                                           | 4/8 [00:26<00:25,  6.31s/it]

SELECT count(DISTINCT stats.votes."BountyAmount") AS count_1 
FROM stats.votes
SELECT count(DISTINCT stats.posts."PostTypeId") AS count_1 
FROM stats.posts
SELECT count(stats.posts."PostTypeId") AS count_1 
FROM stats.posts 
WHERE stats.posts."PostTypeId" IS NOT NULL
SELECT count(DISTINCT stats.posts."AcceptedAnswerId") AS count_1 
FROM stats.posts
SELECT count(stats.posts."AcceptedAnswerId") AS count_1 
FROM stats.posts 
WHERE stats.posts."AcceptedAnswerId" IS NOT NULL
SELECT count(DISTINCT stats.posts."Score") AS count_1 
FROM stats.posts
SELECT count(DISTINCT stats.posts."ViewCount") AS count_1 
FROM stats.posts
SELECT count(DISTINCT stats.posts."Body") AS count_1 
FROM stats.posts
SELECT count(DISTINCT stats.posts."Title") AS count_1 
FROM stats.posts
SELECT count(DISTINCT stats.posts."Tags") AS count_1 
FROM stats.posts
SELECT count(DISTINCT stats.posts."AnswerCount") AS count_1 
FROM stats.posts
SELECT count(DISTINCT stats.posts."CommentCount") AS count_1 
FROM stats.posts
SELECT

Table:  62%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                        | 5/8 [00:28<00:15,  5.09s/it]

SELECT count(DISTINCT stats.tags."TagName") AS count_1 
FROM stats.tags
SELECT count(DISTINCT stats.tags."Count") AS count_1 
FROM stats.tags
SELECT count(DISTINCT stats.tags."WikiPostId") AS count_1 
FROM stats.tags
SELECT count(stats.tags."WikiPostId") AS count_1 
FROM stats.tags 
WHERE stats.tags."WikiPostId" IS NOT NULL
SELECT count(DISTINCT stats.comments."Score") AS count_1 
FROM stats.comments
SELECT count(DISTINCT stats.comments."Text") AS count_1 
FROM stats.comments


Table: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:31<00:00,  3.88s/it]

SELECT count(DISTINCT stats.comments."UserDisplayName") AS count_1 
FROM stats.comments
SELECT count(DISTINCT stats.badges."Name") AS count_1 
FROM stats.badges





In [15]:
schema

Schema(
    users = TableSchema(columns=ColumnDefs(
        Id = KeyColumnDef(key=True),
        Reputation = CategoricalColumnDef(key=False, card=965),
        CreationDate = DateTimeColumnDef(key=False),
        DisplayName = CategoricalColumnDef(key=False, card=34858),
        LastAccessDate = DateTimeColumnDef(key=False),
        WebsiteUrl = CategoricalColumnDef(key=False, card=7780),
        Location = CategoricalColumnDef(key=False, card=2401),
        AboutMe = CategoricalColumnDef(key=False, card=9094),
        Views = CategoricalColumnDef(key=False, card=362),
        UpVotes = NumericColumnDef(key=False),
        DownVotes = NumericColumnDef(key=False),
        AccountId = OmitColumnDef(key=False),
        Age = CategoricalColumnDef(key=False, card=70),
        ProfileImageUrl = CategoricalColumnDef(key=False, card=13115)
    ), foreign_keys=[]),
    postLinks = TableSchema(columns=ColumnDefs(
        Id = KeyColumnDef(key=True),
        CreationDate = DateTimeColumnDef(key=

## K typům

Jak už jsem zmínil, `KeyColumnDef` je v podstatě `OmitColumnDef`, který jenom
zdůrazňuje "toto je primární klíč", kdyby náhodou. Předpokládám, že v další
fázi pipeliny se takový typ bude ignorovat, stejně jako `OmitColumnDef`. Když
je primary key složený z vícero sloupečků, tak se `KeyColumnDef` by default
nepoužije vůbec, protože u složených primary key lze předpokládat, že mají svůj
nějaký sématnický význam, takže to budou stringy/čísla/něco, podle toho, co to
je za klíč.

Stejně tak `ForeignKeyDef` je v podstatě nadbytečný, protože foreign keys se
definujou jinde; jenom je to zase v podstatě něco jako "omit", s tím že je
jenom odlišeno, proč je to omitnuto, kdyby náhodou se to někomu hodilo
rozlišit.

Přidal jsem typy `Date`, `DateTime`, `Duration` a `Time`, protože mi přišlo
dobré je odlišit od obyč čísel, s tím že si to člověk namapuje kdyžtak podle
sebe, ale možná to není nutné.

Jinak všimněte si, že hodně typů, které jsou evidentně text, dostává
`Categorical` s hrozně vysokou cardinality. Možná je na místě přidat nějaký
`TextColumnDef`, aby se odlišilo, že to nemá jít do obyč embeddingu, ale do
nějakého pretrained textového tokenizeru a embeddingu?

# DataLoader podle typů

Neimplementoval jsem, nekoukal jsem moc do Lukášova kódu a moc nevím jak přesně
je to potřeba, takže zatím mám jenom to výše uvedené. :)
