# ipymarkup

<a href="https://en.wikipedia.org/wiki/Named-entity_recognition">NER</a> markup visualization for Jupyter Notebook, similar to <a href="https://explosion.ai/demos/displacy-ent">DisplaCy NER</a>.

In [1]:
from ipymarkup.example import show_table
show_table()

0,1,2
BoxMarkup,LineMarkup,AsciiMarkup
a a aa b bb c c cc,a a aa b bb c c cc,a a a b b c c c a---- b-- c----
a a aa b bb cc ee d d dd f ff g gg hh,a a aa b bb cc ee d d dd f ff g gg hh,a a a b b c e d d d f f g g h a---- b-- c e d---- f-- g-- h
a d a b a a aad a b a a a b c c c f ddb a a a bb c c cc ff d,a ad a db a a ab b c c cc ff d,a d a b a a a b c c c f d a------------ c---- f d----------------------  b--------
a b b c c d e f g h h i i aab bb c cc dd ee ff gg h hh i ii a,a ab bb c cc dd ee ff gg h hh i ii a,a b b c c d e f g h h i i a a--------------------------  b-- c-- d e f g h-- i--


## Install

`ipymarkup` supports both Python 2.7+ / 3.4+, non Jupyter functionality should work on 2.7+ / 3.3+, PyPy.

## API

The most minimal interface is `show_markup`:

In [2]:
from ipymarkup import show_markup


text = 'South Korean President Moon Jae-in announced in a joint press conference on 23 July ...'
spans = [
    (0, 12),
    (13, 22),
    (23, 34),
    (76, 83)
]
show_markup(text, spans)

An element of `spans` can be `tuple` or object with `start`, `stop` and `type` attributes:

In [3]:
class C(object):
    def __init__(self, start, stop, type=None):
        self.start = start
        self.stop = stop
        self.type = type
        
        
text = '0123456789'
spans = [
    (1, 2),
    (3, 4, 'b'),
    [5, 6],
    C(7, 8),
    C(9, 10, 'c')
]
show_markup(text, spans)

`show_markup(...)` is an alias to `display(markup(...))`. `markup` has 3 arguments `text`, `spans` and optional `Markup` that defines the visualization type (`BoxMarkup` by default):

In [4]:
from ipymarkup import markup, LineMarkup

text = 'a d a b a a a b c c c f d'
spans = [
    (0, 13, 'a'),
    (2, 25, 'd'),
    (6, 15, 'b'),
    (16, 21, 'c'),
    (22, 23, 'f'),
]
markup(text, spans, LineMarkup)

`markup` automatically converts `spans` to a sequence of `Span` objects. The previous example is equivalent to:

In [5]:
from ipymarkup import Span

text = 'a d a b a a a b c c c f d'
spans = [
    Span(0, 13, 'a'),
    Span(2, 25, 'd'),
    Span(6, 15, 'b'),
    Span(16, 21, 'c'),
    Span(22, 23, 'f'),
]
LineMarkup(text, spans)

There is a number of visualizations available with the sample interface, for example, `AsciiMarkup`:

In [6]:
from ipymarkup import AsciiMarkup

AsciiMarkup(text, spans)

a d a b a a a b c c c f d
a------------   c---- f  
  d----------------------
      b--------          


## Visualizations

In [7]:
from ipymarkup import *
from ipymarkup.example import *

All visualizations have the same interface, they have text and markup as input and format them. Markup is a sequence of spans. Each span defines the start, stop and type of substring: name, geo or date, for example.

The most common case is nonoverlapping spans. If there are just 1-3 different types of spans, simple `BoxMarkup` does the job:

In [8]:
BoxMarkup(TEXT1, SPANS1)

In [9]:
BoxMarkup(TEXT2, SPANS2)

Spans may overlap, is such case it is better to use `LineMarkup`:

In [10]:
LineMarkup(TEXT3, SPANS3)

Finally, in case HTML formating is not available, use `AsciiMarkup`:

In [11]:
AsciiMarkup(TEXT5, SPANS5)

Секретарь Совета национальной безопасности и обороны (СНБО) Андрей 
                                                            NAME-- 
Парубий не исключил скорого введения военного положения в Донбассе. 
NAME---                                                             
Как сообщает «Интерфакс», он уточнил, что речь идет непосредственно о 
Донецкой и Луганской областях. По словам Парубия, документ о введении 
военного положения уже подготовлен ведомством. Он предусматривает не 
только указ президента Украины Петра Порошенко, но и «координацию и 
                               NAME-----------                      
систему управления всех наших подразделений в новой системе 
координат». Комментируя информацию о возможном введении российских 
миротворцев на восток страны, Парубий заявил, что эти действия 
представляют собой прямую агрессию в отношении Украины, сообщает 
«Сегодня.ua». Он подчеркнул, что решение о введении миротворцев должно
 приниматься под эгидой ООН. Секретарь СНБО та

## Cookbook

### Non random colors

In [12]:
from ipymarkup import show_box_markup
from ipymarkup.color import PALETTE, BLUE, GREEN


PALETTE.register('Name', BLUE)
PALETTE.register('Date', GREEN)
show_box_markup('Alan born in 1912', [(0, 4, 'Name'), [13, 17, 'Date']], palette=PALETTE)

### Using ipymarkup outside of Jupyter Notebook

In [13]:
markup = BoxMarkup(TEXT6, SPANS6)
list(markup.as_html)

['<div class="tex2jax_ignore" style="white-space: pre-wrap">',
 '',
 '<span style="padding: 2px; border-radius: 4px; border: 1px solid #fdf07c; background: #ffffc2">',
 'a d a b a a a',
 '<span style="vertical-align: middle; margin-left: 2px; font-size: 0.7em; color: #c3b95f;">',
 'a',
 '</span>',
 '</span>',
 '',
 '<span style="padding: 2px; border-radius: 4px; border: 1px solid #afeca3; background: #efffec">',
 'd a b a a a b c c c f d',
 '<span style="vertical-align: middle; margin-left: 2px; font-size: 0.7em; color: #98df8a;">',
 'd',
 '</span>',
 '</span>',
 '',
 '<span style="padding: 2px; border-radius: 4px; border: 1px solid #c6e1f9; background: #ecf6ff">',
 'b a a a b',
 '<span style="vertical-align: middle; margin-left: 2px; font-size: 0.7em; color: #98bbda;">',
 'b',
 '</span>',
 '</span>',
 ' ',
 '<span style="padding: 2px; border-radius: 4px; border: 1px solid #ffd9b4; background: #fff1e4">',
 'c c c',
 '<span style="vertical-align: middle; margin-left: 2px; font-size: 0.7

In [14]:
markup = AsciiMarkup(TEXT6, SPANS6)
list(markup.as_ascii)

['a d a b a a a b c c c f d',
 'a------------   c---- f  ',
 '  d----------------------',
 '      b--------          ']

### display vs print

In [15]:
print(markup)

AsciiMarkup('a d a b a a a b c c c f d', [Span(0, 13, 'a'), Span(2, 25, 'd'), Span(6, 15, 'b'), Span(16, 21, 'c'), Span(22, 23, 'f')])


In [16]:
from IPython.display import display

for _ in range(3):
    display(markup)

a d a b a a a b c c c f d
a------------   c---- f  
  d----------------------
      b--------          


a d a b a a a b c c c f d
a------------   c---- f  
  d----------------------
      b--------          


a d a b a a a b c c c f d
a------------   c---- f  
  d----------------------
      b--------          
