# Wordcloud with Vega

In [1]:
import deetly
import altair as alt

In [2]:
# Create datapackage
description = """
Example Wordcloud with vega
"""

package = {
    "name":"Wordcloud with vega", 
    "description":description, 
    "author":"deetly", 
    "theme":"examples",
    "license": "MIT",
    "keywords": ["altair, vega"]
}

dp = deetly.package(package)

Missing mandatory props(s): ['title']
Missing recommended props(s): ['contactPoint', 'distribution', 'keyword', 'publisher', 'spatial', 'temporal']
Property not in DCAT schema: ['name', 'author', 'license', 'keywords']
Invalid type: ['String:name', 'String:description', 'String:author', 'String or list of strings:theme', 'String:license', 'String:keywords', 'ISO date or datetime:issued', 'ISO date or datetime:modified']


In [3]:
text = """
Det legemeldte sykefraværet var 4,9 prosent i 2. kvartal 2019. Sammenlignet med samme kvartal i fjor innebærer dette en økning på 2,2 prosent. Økningen var størst hos kvinner hvor sykefraværet gikk fra 6,2 prosent til 6,4 prosent. For menn var sykefraværet stabilt på 3,6 prosent
Endringene i sykefraværet fra 2. kvartal 2018 til 2. kvartal 2019 for kvinner viser størst økning blant de aller yngste aldersgruppene under 25 år og blant de aller eldste. For menn økte sykefraværet mest for de yngste under 19 år. For menn mellom 50-59 år gikk sykefraværet noe ned.
Blant fylkene er det Sogn og Fjordane som har den største økningen i sykefraværet med 9,6 prosent. Deretter fulgte Finnmark med 8,1 prosent oppgang og Nordland med 6,5 prosent. To fylker hadde nedgang i sykefraværet. I Vestfold gikk sykefraværet ned med 3,1 prosent og i Troms med 1,8 prosent. 
Oslo har fremdeles det laveste legemeldte sykefraværet med 4,0 prosent. Finnmark og Nordland har det høyeste sykefraværet med 5,9 prosent
Statistikk fra Arbeids- og velferdsdirektoratet omfatter bare legemeldt fravær
"""

In [4]:
stopwords_no = "(i|var|fra|på)" 

In [5]:
spec = {
  "$schema": "https://vega.github.io/schema/vega/v5.json",
  "description": "A word cloud visualization depicting Vega research paper abstracts.",
  "width": 800,
  "height": 400,
  "padding": 0,

  "data": [
    {
      "name": "table",
        "values": [text],
      "transform": [
        {
          "type": "countpattern",
          "field": "data",
          "case": "upper",
          "pattern": "[\\w']{3,}",
          "stopwords": stopwords_no
        },
        {
          "type": "formula", "as": "angle",
          "expr": "[-45, 0, 45][~~(random() * 3)]"
        },
        {
          "type": "formula", "as": "weight",
          "expr": "if(datum.text=='SYKEFRAV', 600, 300)"
        }
      ]
    }
  ],

  "scales": [
    {
      "name": "color",
      "type": "ordinal",
      "domain": {"data": "table", "field": "text"},
      "range": ["#d5a928", "#652c90", "#939597"]
    }
  ],

  "marks": [
    {
      "type": "text",
      "from": {"data": "table"},
      "encode": {
        "enter": {
          "text": {"field": "text"},
          "align": {"value": "center"},
          "baseline": {"value": "alphabetic"},
          "fill": {"scale": "color", "field": "text"}
        },
        "update": {
          "fillOpacity": {"value": 1}
        },
        "hover": {
          "fillOpacity": {"value": 0.5}
        }
      },
      "transform": [
        {
          "type": "wordcloud",
          "size": [800, 400],
          "text": {"field": "text"},
          "rotate": {"field": "datum.angle"},
          "font": "Helvetica Neue, Arial",
          "fontSize": {"field": "datum.count"},
          "fontWeight": {"field": "datum.weight"},
          "fontSizeRange": [12, 56],
          "padding": 2
        }
      ]
    }
  ]
}

In [6]:
description = """
Om legemeldt sykefravær
"""

dp.plot("vega",spec,"Wordcloud", description)

In [7]:
item = dp.publish()

View: https://public.deetly.com/examples/4ef64a1e4bd56a9cdc6da1f59a1adc20 

Metadata: https://storage.googleapis.com/deetly/examples/4ef64a1e4bd56a9cdc6da1f59a1adc20/datapackage.json 

