In [1]:
import os
os.environ['GOOGLE_APPLICATION_CREDENTIALS'] = '/users/b149899/projects/binder/binder/keys/nav_opendata.json'

In [2]:
from dataverk import Client, Datapackage
import datetime

In [3]:
readme = """
# Vega wordcloud examples

Source: 

"""

auth = 'paul.bencze@nav.no'
published = datetime.datetime.now().isoformat()

metadata = {
'readme': readme,
'store': 'gs',
'accessRights': 'Open',
'author': auth,
'published': published,
'license': 'CC BY 4.0',
'category': 'Åpne data',
'created_by': auth,
'description': 'Examples: wordcloud',
'format': 'datapackage',
'keywords': ['wordcloud example'],
'provenance': 'NAV',
'publisher': 'NAV',
'spatial': 'Norge',
'theme': ['Åpne data'],
'title': 'Trygdemisbruk',
'type': 'datakatalog',
'project': 'odata', 
'user':'nav-examples',
'repo': 'https://github.com/datasett/examples/blob/master/wordcloud/vega-wordcloud.ipynb',
'bucket': 'nav-opendata'
}

In [4]:
dp = Datapackage(metadata)

In [5]:
text = """
Det legemeldte sykefraværet var 4,9 prosent i 2. kvartal 2019. Sammenlignet med samme kvartal i fjor innebærer dette en økning på 2,2 prosent. Økningen var størst hos kvinner hvor sykefraværet gikk fra 6,2 prosent til 6,4 prosent. For menn var sykefraværet stabilt på 3,6 prosent
Endringene i sykefraværet fra 2. kvartal 2018 til 2. kvartal 2019 for kvinner viser størst økning blant de aller yngste aldersgruppene under 25 år og blant de aller eldste. For menn økte sykefraværet mest for de yngste under 19 år. For menn mellom 50-59 år gikk sykefraværet noe ned.
Blant fylkene er det Sogn og Fjordane som har den største økningen i sykefraværet med 9,6 prosent. Deretter fulgte Finnmark med 8,1 prosent oppgang og Nordland med 6,5 prosent. To fylker hadde nedgang i sykefraværet. I Vestfold gikk sykefraværet ned med 3,1 prosent og i Troms med 1,8 prosent. 
Oslo har fremdeles det laveste legemeldte sykefraværet med 4,0 prosent. Finnmark og Nordland har det høyeste sykefraværet med 5,9 prosent
Statistikk fra Arbeids- og velferdsdirektoratet omfatter bare legemeldt fravær
"""

In [6]:
stopwords_no = "(i|var|fra|på)" 

In [7]:
stopwords_en = "(i|me|my|myself|we|us|our|ours|ourselves|you|your|yours|yourself|yourselves|he|him|his|himself|she|her|hers|herself|it|its|itself|they|them|their|theirs|themselves|what|which|who|whom|whose|this|that|these|those|am|is|are|was|were|be|been|being|have|has|had|having|do|does|did|doing|will|would|should|can|could|ought|i'm|you're|he's|she's|it's|we're|they're|i've|you've|we've|they've|i'd|you'd|he'd|she'd|we'd|they'd|i'll|you'll|he'll|she'll|we'll|they'll|isn't|aren't|wasn't|weren't|hasn't|haven't|hadn't|doesn't|don't|didn't|won't|wouldn't|shan't|shouldn't|can't|cannot|couldn't|mustn't|let's|that's|who's|what's|here's|there's|when's|where's|why's|how's|a|an|the|and|but|if|or|because|as|until|while|of|at|by|for|with|about|against|between|into|through|during|before|after|above|below|to|from|up|upon|down|in|out|on|off|over|under|again|further|then|once|here|there|when|where|why|how|all|any|both|each|few|more|most|other|some|such|no|nor|not|only|own|same|so|than|too|very|say|says|said|shall)"

In [8]:
spec = {
  "$schema": "https://vega.github.io/schema/vega/v5.json",
  "width": 800,
  "height": 400,
  "padding": 0,

  "data": [
    {
      "name": "table",
      "values": [text],
      "transform": [
        {
          "type": "countpattern",
          "field": "data",
          "case": "upper",
          "pattern": "[\\w']{3,}",
          "stopwords": stopwords_no
        },
        {
          "type": "formula", "as": "angle",
          "expr": "[-45, 0, 45][~~(random() * 3)]"
        },
        {
          "type": "formula", "as": "weight",
          "expr": "if(datum.text=='VEGA', 600, 300)"
        }
      ]
    }
  ],

  "scales": [
    {
      "name": "color",
      "type": "ordinal",
      "domain": {"data": "table", "field": "text"},
      "range": ["#d5a928", "#652c90", "#939597"]
    }
  ],

  "marks": [
    {
      "type": "text",
      "from": {"data": "table"},
      "encode": {
        "enter": {
          "text": {"field": "text"},
          "align": {"value": "center"},
          "baseline": {"value": "alphabetic"},
          "fill": {"scale": "color", "field": "text"}
        },
        "update": {
          "fillOpacity": {"value": 1}
        },
        "hover": {
          "fillOpacity": {"value": 0.5}
        }
      },
      "transform": [
        {
          "type": "wordcloud",
          "size": [800, 400],
          "text": {"field": "text"},
          "rotate": {"field": "datum.angle"},
          "font": "Open Sans, Arial",
          "fontSize": {"field": "datum.count"},
          "fontWeight": {"field": "datum.weight"},
          "fontSizeRange": [12, 56],
          "padding": 2
        }
      ]
    }
  ]
}

In [9]:
description = '''
Sykefravær rapport 2019
'''

dp.add_view(
    spec_type='vega',
    name='Sykefravær rapport 2019',
    description = description,
    resources=[],
    attribution = "Kilde: Dataverk",
    spec=spec
)

In [10]:
client = Client()
client.publish(dp)

gs
2019-10-02T21:05:25.322349: B149899 <class 'dataverk.connectors.google_storage.GoogleStorageConnector'>: String (format: json) written to https://storage.googleapis.com/nav-opendata/ec09d325ad41cc5b001ece8a9876ec66/datapackage.json
2019-10-02T21:05:26.064455: B149899 <class 'dataverk.connectors.elasticsearch.ElasticsearchConnector'>: Document ec09d325ad41cc5b001ece8a9876ec66 of type dcat indexed to elastic index: dcat.
