# Dataverk

Dataverk gjør det enkelt å lage data pipelines som publiserer og oppdaterer datapakker. Denne filen inneholder et eksempel på hvordan man kan lage en data pipeline.

### Begreper
* **Data pipeline:** En jobb som kjører med en viss frekvens (som definert i data pipelinens schedule), og som publiserer og oppdaterer datapakker basert på logikken definert denne filen.
* **Datapakke / data package:** Ett eller flere datasett med tilhørende metadata.
* **Datasett:** Typisk en tabell, her materialisert som en fil.
* **Metadata:** Beskrivelse av datapakken og datasettene i datapakken. Dette må manuelt legges inn i filen **metadata.json**.

### Data pipeline
Kun celler som starter med ```#export``` vil bli en del av den publiserte data pipelinen (og vil dermed kjøre regelmessig som definert i cronjob'en).

In [None]:
#export
import dataverk as dv

In [None]:
#export


# Importer kildedata som en dataframe 
# Kilden her er databasen 'datalab', og spørringen ligger i filen 'mydata.sql'
# Credentials for 'datalab' ligger i Vault
dp = dv.Datapackage(public=True)
df = dp.read_sql(source='datalab', sql='sql/mydata.sql')

In [None]:
# Ser på de første radene i dataframen. Denne cellen blir ikke en del av pipelinen.
df.head()

In [None]:
# Eksempel på transformasjoner man kan gjøre. Med dataverk får man pandas på kjøpet.
#df = df.groupby(['date','color')].count()

In [None]:
# Ser på dataframen igjen etter transformasjonen
df.head()

In [None]:
#export

# Legger dataframen til som en ressurs i datapakken
dp.add_resource(df, dataset_name='Mitt Fargerike Datasett', dataset_description="Beskrivelse av Mitt Fargerike datasett")

In [None]:
#export

# Publiserer datapakken
dp.publish()