## Uso dei Data Cube

Utilizzeremo il pacchetto `cubes` che va installato con `pip` nel nostro ambiente. `cubes` comunica con un backend SQL, detto `Store`, che verrà creato con `sqlalchemy` fornisce l'astrazione necessaria per le creazione di diversi modelli di analisi (decsrizioni json del datacube, delle sue dimensioni, categorie e misure di aggregazione) all'interno di un _workspace_.

![Architettura di `cubes`](https://cubes.readthedocs.io/en/v1.1/_images/cubes-workspace_simplified.png)


La gerarchia delle dimensioni viene sostanziata in dei _mapping_ verso le misure fisiche dei fatti:

![Gerarchia delle dimensioni](https://pythonhosted.org/cubes/_images/logical-to-physical.png)

Il modello dei dati è strutturato come un file `json` che ha differenti proprietà mirate a descrivere gli aspetti del modello, dai metadati alla loro corrispondenza fisica con i dati presenti nel database:

![Proprietà del modello](https://pythonhosted.org/cubes/_images/cubes-model_metadata.png)

Segue una breve descrizione

### Modello logico

- `name`: nome del modello
- `label`: etichetta opzionale del modello
- `description`: descrizione estesa opzionale del modello
- `locale`: etichetta opzionale di localizzazione del modello (ad es. `'en'`, `'it'`, ...)
- `cubes`: lista dei metadati dei cubi definiti nel modello
- `dimensions`: lista dei metadati delle dimensioni
- `public_dimensions`: lista delle dimensioni pubbliche che verrebbero esportate se definite. Tutte le dimensioni sono pubbliche per default

### Modello fisico

- `store`: nome del data store in cui si trovano i dati: il nome di default è `Default`; si tratta della connessione al database utilizzato
- `mappings`: dizionario delle corrispondenze tra i nomi logici delle dimensioni e quelli fisici delle colonne nel database che viene ereditata da tutti i cubi del modello
- `joins`: specifiche di eventuali `join` utilizzati, per esempio con un backend `SQL` nella forma di una lista di `dict` che viene ereditata da tutti i cubi del modello
- `browser_options`: eventuali opzioni passate al `browser`che è la struttura dati utilizzata per navigare i dati dei cubi.

### Cubi

Ecco un esempio di cubo, con le proprietà di metadati, di dimensione e fisiche:

```json
{
    "name": "sales",                // nome del cubo
    "label": "Sales",               // etichetta
    "dimensions": [ "date", ... ]   // array delle dimensioni come stringhe

    "measures": [...],              // array delle misure che corrispondono alle colonne del database
    "aggregates": [...],            // array delle misure di aggregazione
    "details": [...],               // array degli attributi dei fatti che si vogliono eventualmente mostrare

    "fact": "fact_table_name",      // riferimento esplicito alla tabella dei fatti 
                                    // che dev'essere usata dal backend
    "mappings": { ... },            // mapping di colonne sulla tabella dei fatti
    "joins": [ ... ]                // array dei join
}
```

#### Misure di aggregazione

Le funzioni di aggregazione sono gestite dal browser:

![browser_aggregate](https://pythonhosted.org/cubes/_images/cubes-backend_browser.png)


Ecco un esempio di definizione nel modello, ma la API consente la definizione di funzioni da parte dell'utente.

```json
"aggregates": [
    {
        "name": "amount_sum",
        "label": "Total Sales Amount",
        "measure": "amount",
        "function": "sum"
    },
    {
        "name": "vat_sum",
        "label": "Total VAT",
        "measure": "vat",
        "function": "sum"
    },
    {
        "name": "item_count",
        "label": "Item Count",
        "function": "count"
    }
]
```

#### Join nel backend SQL

Il beckend `SQL`accetta schemi a stella e snowflake:

![](https://pythonhosted.org/cubes/_images/schema_star.png) ![](https://pythonhosted.org/cubes/_images/schema_snowflake.png)

Il join dev'essere specificato esplicitamente per ottenere una rappresentazione tabellare unica di fatti e dimensioni con categorie e sotto-categorie:

![](https://pythonhosted.org/cubes/_images/snowflake_schema.png)
![](https://pythonhosted.org/cubes/_images/denormalized_schema.png)

Ecco un esempio di specifica del join:

```json
"joins" = [
    {
        "master": "fact_sales.product_id",
        "detail": {
            "schema": "sales",
            "table": "dim_products",
            "column": "id"
        }
]
```

In [2]:
# importiamo le librerie
import pymysql
from sqlalchemy import create_engine
from cubes.tutorial.sql import create_table_from_csv
from cubes import Workspace

# creiamo l'engine sql e il database fisico
engine = create_engine('mysql+pymysql://mysqluser:mysqlpassword@localhost:3306/data_cube',pool_pre_ping=True)
create_table_from_csv(engine,
                       "./Data/IBRD_Balance_Sheet__FY2010.csv", 
                       table_name="ibrd_balance",
                       fields=[
                             ("category", "string"),
                             ("category_label", "string"),
                             ("subcategory", "string"),
                             ("subcategory_label", "string"),
                             ("line_item", "string"),
                             ("year", "integer"),
                             ("amount", "integer")],
                       create_id=True
                   )

Il workspace potrebbe essere creato a partire da un file di configurazione chiamato `slicer.ini` di default e che ha una sintassi simile alla seguente:

```
[workspace]
model = model.json

[store]
type = sql
url = postgresql://localhost/database
```
dove viene specificata la coppia store-workspace. In alternativa è possibile inizializzare il workspace direttamente dalla API.

In [3]:
# creiamo il workspace con le API

workspace = Workspace()
workspace.register_default_store("sql", url="mysql+pymysql://mysqluser:mysqlpassword@localhost:3306/data_cube")

# importiamo il modello del data cube che è definito come un file json
# in cui è definito il cubo "ibrd_balance"
workspace.import_model("./Data/tutorial_model.json")

In [4]:
# Creiamo un browser sul data cube per eseguire le operazioni

browser = workspace.browser("ibrd_balance")

In [5]:
# calcoliamo le misure di aggregazione previste dal modello
result = browser.aggregate()
result.summary["record_count"]

62

In [6]:
result.summary["amount_sum"]

Decimal('1116860')

In [7]:
result.aggregates

[{'name': 'amount_sum', 'info': {}, 'label': 'Sum of Amount', 'ref': 'amount_sum', 'function': 'sum', 'measure': 'amount'},
 {'name': 'record_count', 'info': {}, 'label': 'Record Count', 'ref': 'record_count', 'function': 'count'}]

In [8]:
result = browser.aggregate(drilldown=[("year")])
for record in result:
    print(record)

{'year': 2010, 'amount_sum': Decimal('566020'), 'record_count': 31}
{'year': 2009, 'amount_sum': Decimal('550840'), 'record_count': 31}


In [9]:
result = browser.aggregate(drilldown=[("item",None,"subcategory")])
for record in result:
    print(record)

{'item.category': 'a', 'item.category_label': 'Assets', 'item.subcategory': 'dfb', 'item.subcategory_label': 'Due from Banks', 'amount_sum': Decimal('4847'), 'record_count': 4}
{'item.category': 'a', 'item.category_label': 'Assets', 'item.subcategory': 'i', 'item.subcategory_label': 'Investments', 'amount_sum': Decimal('77024'), 'record_count': 2}
{'item.category': 'a', 'item.category_label': 'Assets', 'item.subcategory': 's', 'item.subcategory_label': 'Securities', 'amount_sum': Decimal('322'), 'record_count': 2}
{'item.category': 'a', 'item.category_label': 'Assets', 'item.subcategory': 'nn', 'item.subcategory_label': 'Nonnegotiable', 'amount_sum': Decimal('2325'), 'record_count': 2}
{'item.category': 'a', 'item.category_label': 'Assets', 'item.subcategory': 'da', 'item.subcategory_label': 'Derivative Assets', 'amount_sum': Decimal('244691'), 'record_count': 8}
{'item.category': 'a', 'item.category_label': 'Assets', 'item.subcategory': 'rcv', 'item.subcategory_label': 'Receivables', 

In [10]:
report=browser.aggregate(drilldown=[('item',None,'category'),'year'])
for record in report:
    print(record)

{'item.category': 'a', 'item.category_label': 'Assets', 'year': 2010, 'amount_sum': Decimal('283010'), 'record_count': 16}
{'item.category': 'a', 'item.category_label': 'Assets', 'year': 2009, 'amount_sum': Decimal('275420'), 'record_count': 16}
{'item.category': 'l', 'item.category_label': 'Liabilities', 'year': 2010, 'amount_sum': Decimal('245455'), 'record_count': 11}
{'item.category': 'l', 'item.category_label': 'Liabilities', 'year': 2009, 'amount_sum': Decimal('235383'), 'record_count': 11}
{'item.category': 'e', 'item.category_label': 'Equity', 'year': 2010, 'amount_sum': Decimal('37555'), 'record_count': 4}
{'item.category': 'e', 'item.category_label': 'Equity', 'year': 2009, 'amount_sum': Decimal('40037'), 'record_count': 4}


In [11]:
from cubes import Cell, PointCut

cut = [
    PointCut('year', [2010]),
    PointCut('item', ['l','dl'])
]

cell = Cell(workspace.cube('ibrd_balance'),cut)

report=browser.aggregate(cell,drilldown=[('item',None,'line_item')])

for record in report:
    print(record)

{'item.category': 'l', 'item.category_label': 'Liabilities', 'item.subcategory': 'dl', 'item.subcategory_label': 'Derivative Liabilities', 'item.line_item': 'Investments', 'amount_sum': Decimal('13360'), 'record_count': 1}
{'item.category': 'l', 'item.category_label': 'Liabilities', 'item.subcategory': 'dl', 'item.subcategory_label': 'Derivative Liabilities', 'item.line_item': 'Client Operations', 'amount_sum': Decimal('17623'), 'record_count': 1}
{'item.category': 'l', 'item.category_label': 'Liabilities', 'item.subcategory': 'dl', 'item.subcategory_label': 'Derivative Liabilities', 'item.line_item': 'Borrowings', 'amount_sum': Decimal('78655'), 'record_count': 1}
{'item.category': 'l', 'item.category_label': 'Liabilities', 'item.subcategory': 'dl', 'item.subcategory_label': 'Derivative Liabilities', 'item.line_item': 'Other', 'amount_sum': Decimal('780'), 'record_count': 1}


In [12]:
cell=Cell(workspace.cube('ibrd_balance'))

cell=cell.drilldown('year',2009)

facts = browser.facts(cell)

for fact in facts:
    print(fact)


{'__fact_key__': 2, 'item.category': 'a', 'item.category_label': 'Assets', 'item.subcategory': 'dfb', 'item.subcategory_label': 'Due from Banks', 'item.line_item': 'Unrestricted currencies', 'year': 2009, 'amount': 2380}
{'__fact_key__': 4, 'item.category': 'a', 'item.category_label': 'Assets', 'item.subcategory': 'dfb', 'item.subcategory_label': 'Due from Banks', 'item.line_item': 'Currencies subject to restriction', 'year': 2009, 'amount': 664}
{'__fact_key__': 6, 'item.category': 'a', 'item.category_label': 'Assets', 'item.subcategory': 'i', 'item.subcategory_label': 'Investments', 'item.line_item': 'Trading', 'year': 2009, 'amount': 41012}
{'__fact_key__': 8, 'item.category': 'a', 'item.category_label': 'Assets', 'item.subcategory': 's', 'item.subcategory_label': 'Securities', 'item.line_item': 'Securities purchased under resale agreements', 'year': 2009, 'amount': 33}
{'__fact_key__': 10, 'item.category': 'a', 'item.category_label': 'Assets', 'item.subcategory': 'nn', 'item.subcat

In [16]:
report = browser.aggregate(cell,drilldown=[('item',None,'category')])

for record in report:
    print(record)

report.total_cell_count

{'item.category': 'a', 'item.category_label': 'Assets', 'amount_sum': Decimal('275420'), 'record_count': 16}
{'item.category': 'l', 'item.category_label': 'Liabilities', 'amount_sum': Decimal('235383'), 'record_count': 11}
{'item.category': 'e', 'item.category_label': 'Equity', 'amount_sum': Decimal('40037'), 'record_count': 4}


3