# ipymarkup

Библиотека для визуализации разметки <a href="https://en.wikipedia.org/wiki/Named-entity_recognition">NER</a> для Jupyter Notebook. Аналог <a href="https://explosion.ai/demos/displacy-ent">DisplaCy NER</a> для Jupyter Notebook.

In [1]:
from ipymarkup.example import show_table
show_table()

0,1,2,3,4
BoxMarkup,BoxLabelMarkup,LineMarkup,LineLabelMarkup,AsciiMarkup
a a a b b c c c,a a aa b bb c c cc,a a a b b c c c,a a aa b bb c c cc,a a a b b c c c a---- b-- c----
a a a b b c e d d d f f g g h,a a aa b bb cc ee d d dd f ff g gg hh,a a a b b c e d d d f f g g h,a a aa b bb cc ee d d dd f ff g gg hh,a a a b b c e d d d f f g g h a---- b-- c e d---- f-- g-- h
a d a b a a ad a b a a a b c c c f db a a a b c c c f d,a d a b a a aad a b a a a b c c c f ddb a a a bb c c cc ff d,a d a b a a a b c c c f d,a ad a adb a a aadb bdb c c ccd ffd dd,a d a b a a a b c c c f d a------------ c---- f d----------------------  b--------
a b b c c d e f g h h i i ab b c c d e f g h h i i a,a b b c c d e f g h h i i aab bb c cc dd ee ff gg h hh i ii a,a b b c c d e f g h h i i a,a ab bab c cac dad eae faf gag h hah i iai aa,a b b c c d e f g h h i i a a--------------------------  b-- c-- d e f g h-- i--


## Установка

Поддерживается Python 2.7+, 3.4+
<pre>pip install ipymarkup</pre>

## Примеры

In [2]:
from ipymarkup import Span, LineMarkup

text = 'a d a b a a a b c c c f d'
spans = [
    Span(0, 13, 'a'),
    Span(2, 25, 'd'),
    Span(6, 15, 'b'),
    Span(16, 21, 'c'),
    Span(22, 23, 'f'),
]
LineMarkup(text, spans)

In [3]:
from ipymarkup import AsciiMarkup

AsciiMarkup(text, spans)

a d a b a a a b c c c f d
a------------   c---- f  
  d----------------------
      b--------          


## Типы визуализаций

In [4]:
from ipymarkup import *
from ipymarkup.example import *

Все доступные в библиотеки типы визуализаций имеют одинаковый интерфейс, они принимают на вход текст и разметку, выводят их в удобном формате. Разметка — это набор спанов. Спан указывает начало, конец и тип подстроки, например, имя, название организации, дата. В разных ситуациях удобно использовать разные визуализации.

Самый распространённый случай: спаны не пересекаются, разных типов спанов немного, обычно, вообще один, тогда удобно использовать `BoxMarkup`. Подписи с названиями типов выводить не нужно, и так понятно, что, например, "Анна Павловна" это `Name`, а `июле 1805 года` — `Date`:

In [5]:
BoxMarkup(TEXT1, SPANS1)

Когда типов становится много, цвета начинают повторяться. Можно добавить больше цветов, но тогда их становится тяжело различать:

In [6]:
BoxMarkup(TEXT2, SPANS2)

В таких случаях лучше использовать `BoxLabelMarkup`. Помечать разные типы цветом уже не нужно, есть подписи:

In [7]:
BoxLabelMarkup(TEXT2, SPANS2)

Спаны могут пересекаться. Например, во фразе "... на улице Льва Толстого в доме 5 на первом этаже ..." есть адрес и ФИО, которые пересекаются. На практике в сложных проектах такая ситуация встречается часто. Например, есть судебный акт, система запускает набор независимых друг от друга анализаторов, извлекает судей, стороны, требования, их разметки могут легко пересекаться. Для таких случаев есть `LineMarkup`:

In [8]:
LineMarkup(TEXT3, SPANS3)

Иногда типов становится слишком много или разметки сильно пересекаются:

In [9]:
LineMarkup(TEXT4, SPANS4)

Тогда удобно использовать `LineLabelMarkup`:

In [10]:
LineLabelMarkup(TEXT4, SPANS4)

И, наконец, бывают ситуации, когда мы не можем использовать HTML. Например, Github вырезает вёрстку из ноутбуков у себя в интерфейсе. На этот случай есть `AsciiMarkup`:

In [11]:
AsciiMarkup(TEXT5, SPANS5)

Секретарь Совета национальной безопасности и обороны (СНБО) Андрей 
                                                            NAME-- 
Парубий не исключил скорого введения военного положения в Донбассе. 
NAME---                                                             
Как сообщает «Интерфакс», он уточнил, что речь идет непосредственно о 
Донецкой и Луганской областях. По словам Парубия, документ о введении 
военного положения уже подготовлен ведомством. Он предусматривает не 
только указ президента Украины Петра Порошенко, но и «координацию и 
                               NAME-----------                      
систему управления всех наших подразделений в новой системе 
координат». Комментируя информацию о возможном введении российских 
миротворцев на восток страны, Парубий заявил, что эти действия 
представляют собой прямую агрессию в отношении Украины, сообщает 
«Сегодня.ua». Он подчеркнул, что решение о введении миротворцев должно
 приниматься под эгидой ООН. Секретарь СНБО та

## Cookbook

### Порядок цветов

Может так получиться, что при разных запусках программы один и тот же тип спана будет иметь разные цвета. Например, пользователь уже привык, что `Name` синего цвета. Неудобно, когда при следующем запуске `Name` зелёный. Палитра цветов глобальная. Цвета выдаются циклически в порядке обращения. Если в ходе разработки, `Name` встретилось в разметке первым, а при следующем запуске программы вторым, цвета будут разные. Чтобы побороть эту проблему, нужно при инициализации зарегистрировать все возможные типы спанов:

In [12]:
from ipymarkup.color import register
register('Name')
register('Date')

### Использование вне Jupyter Notebook

Иногда нужно, например, сгенерировать отчёт с разметкой. Вывести всё то же самое, что в Jupyter Notebook, но на отдельной html-странице. Для этого у объектов с разметкой есть атрибут `as_html`:

In [13]:
markup = BoxMarkup(TEXT6, SPANS6)
list(markup.as_html)

['<div class="tex2jax_ignore" style="white-space: pre-wrap">',
 '',
 '<span style="padding: 0.15em; border-radius: 0.25em; border: 1px solid #c6e1f9; background: #ecf6ff">',
 'a d a b a a a',
 '</span>',
 '',
 '<span style="padding: 0.15em; border-radius: 0.25em; border: 1px solid #ffd6d5; background: #fff1f1">',
 'd a b a a a b c c c f d',
 '</span>',
 '',
 '<span style="padding: 0.15em; border-radius: 0.25em; border: 1px solid #ffd9b4; background: #fff1e4">',
 'b a a a b',
 '</span>',
 ' ',
 '<span style="padding: 0.15em; border-radius: 0.25em; border: 1px solid #afeca3; background: #efffec">',
 'c c c',
 '</span>',
 ' ',
 '<span style="padding: 0.15em; border-radius: 0.25em; border: 1px solid #c6e1f9; background: #ecf6ff">',
 'f',
 '</span>',
 ' d',
 '</div>']

У `AsciiMarkup` есть аналогичный атрибут `as_ascii`:

In [14]:
markup = AsciiMarkup(TEXT6, SPANS6)
list(markup.as_ascii)

['a d a b a a a b c c c f d',
 'a------------   c---- f  ',
 '  d----------------------',
 '      b--------          ']

### display

Если просто вывести разметку через `print`, она будет выглдятель неправильно:

In [15]:
print(markup)

AsciiMarkup('a d a b a a a b c c c f d', [Span(0, 13, 'a'), Span(2, 25, 'd'), Span(6, 15, 'b'), Span(16, 21, 'c'), Span(22, 23, 'f')])


Нужно использовать `display`:

In [16]:
from IPython.display import display

for _ in range(3):
    display(markup)

a d a b a a a b c c c f d
a------------   c---- f  
  d----------------------
      b--------          


a d a b a a a b c c c f d
a------------   c---- f  
  d----------------------
      b--------          


a d a b a a a b c c c f d
a------------   c---- f  
  d----------------------
      b--------          
