# ipyannotate

Виджет для Jupyter Notebook для проверки и разметки данных. Упрощенный налог <a href="https://prodi.gy/demo?view_id=ner">Prodigy</a> для Jupyter Notebook.
<img src="i/screencast.gif"/>

Примеры задач на разметку, которые можно решить с помощью `ipyannotate`:
- Есть набор новостных статей, нужно для каждой проставить одну или несколько тем
- Есть тексты отзывов, нужно отфильтровать токсичные
- Есть скриншоты сайтов, нужно пометить взрослый контент
- Есть NER-разметка, нужно понять какие типы ошибок встречаются чаще всего

Примеры задач, для которых не подходит `ipyannotate`:
- Есть фотографии товаров, нужно нарисовать на них маску, выделить фон
- Есть портреты людей, нужно пометить на них рот, нос, глаза
- Есть тексты нужно "нарисовать" на них разметку, выделить имена, адреса, названия организаций

`ipyannotate` подходит, чтобы удобно поставить для набора объектов (картинок, текстов) по одной или несколько меток.

Существует массам инструментов, которые позволяют делать то же самое, например <a href="https://prodi.gy/">Prodigy</a>, <a href="http://toloka.yandex.ru/">Толока</a>. `ipyannotate` оформлен в виде виджета для Jupyter Notebook, это удобно по трём причинам:
1. Ввод, вывод данных

Часто весь процесс работы с данными происходит внутри Jupyter Notebook. Неудобно оформлять данные в json или xml-файл, отправлять их в другой сервис, выгружать и парсить результаты. С `ipyannotate` можно размечать данные прямо в ноутбуке:

In [23]:
from ipyannotate import annotate
from ipyannotate.buttons import (
    ValueButton as Button,
    NextButton as Next,
    BackButton as Back
)

data = [1, 15, 62, 33, 83, 12, 949, 71]
annotation = annotate(data, buttons=[Button('чётное'), Button('нечётное'), Back(), Next()])
annotation

<img src="i/odd_even.gif"/>

In [15]:
annotation.tasks

[Task(output=1, value=нечётное),
 Task(output=15, value=нечётное),
 Task(output=62, value=чётное),
 Task(output=33, value=нечётное),
 Task(output=83, value=нечётное),
 Task(output=12, value=чётное),
 Task(output=949, value=нечётное),
 Task(output=71, value=нечётное)]

2. Представление данных

В Jupyter встроена удобная система представления данных. Если результат работы команды — график, пользователь видит картинку, а не `<Figure #881dabb ...>` как в обычной консоли. Эта функциональность доступна в `ipyannotate`, можно, например, удобно размечать картинки:

In [24]:
from glob import glob
from PIL import Image

data = [Image.open(_) for _ in glob('i/dogs_cats/*.jpg')]
annotation = annotate(data, buttons=[Button('dog'), Button('cat'), Back(), Next()])
annotation

<img src="i/dogs_cats.gif">

3. Интерактивность

При разметке текстов по категориям, часто заранее не известны все возможные темы. Грубо говоря, до начала работы нельзя задать список кнопочек в `ipyannotate.annotate`. Виджеты интерактивные, поэтому кнопку можно добавить на ходу. Также, например, можно сохранить промежуточные результаты разметки, `annotation.tasks` обновляется в памяти интерактивно.

In [21]:
data = [
    'тур в турцию',
    'озеро гарда сентябрь',
    'минигостиницы на черном море',
    'Smartline Konaktepe Hotel 4*',
    'какой район амстердама выбрать карта',
    'база лесная сказка еловое',
    'кабардинка что посмотреть куда сходить',
    'ресторан дубовичи святой стефан',
    'дом музей дали'
]

buttons = [
    Button('место'),
    Button('гостиница')
]
controls = [
    Back(),
    Next()
]
annotation = annotate(data, buttons=buttons + controls)
annotation

In [22]:
fun = Button('развлечения')
annotation.toolbar.buttons = buttons + [fun] + controls

<img src="i/interactive.gif"/>

## Справочник

Основной интерфейс для пользователя — функция `annotate`, у неё один обязательный аргумент `tasks` — список заданий, и три опциональных: `buttons`, `display` и `multi`:

In [25]:
data = range(10)

annotate(data, buttons=None, display=None, multi=False)

<img src="i/default.gif"/>

По умолчанию, `buttons` — это четыре кнопки "ok", "err", "back", "next". Такой набор подходит для простой проверки результатов работы какого-нибудь классификатора. Пользователь, может указать свои кнопки, настроить цвета и шоткаты:

In [31]:
from ipyannotate.buttons import (
    ValueButton as Button,
    BackButton as Back,
    NextButton as Next
)

buttons = [
    Button(2, label='делится на 2', color='blue', icon='½ ', shortcut='1'),
    Button(3, label='на 3', color='red', icon='⅓ ', shortcut='2'),
    Button(5, label='на 5', color='green',  icon='⅕ ', shortcut='3'),
]
controls = [
    Back(),
    Next()
]
annotate(data, buttons=buttons + controls)

Когда `multi=False`, виджет работает в режиме radiobutton, пользователь может указать только одну метку для объекта. C `multi=False` можно указывать несколько меток:

In [37]:
buttons = [
    Button(2, label='делится на 2', color='blue', icon='½ ', shortcut='1'),
    Button(3, label='на 3', color='red', icon='⅓ ', shortcut='2'),
    Button(5, label='на 5', color='green',  icon='⅕ ', shortcut='3'),
]
controls = [
    Back(),
    Next()
]
annotation = annotate(data, buttons=buttons + controls, multi=True)
annotation

<img src="i/multi.gif"/>

С `multi=True` в `annotation.tasks` в `value` будет `set`:

In [39]:
annotation.tasks

[MultiTask(output=0, value={2, 3, 5}),
 MultiTask(output=1, value=set()),
 MultiTask(output=2, value={2}),
 MultiTask(output=3, value={3}),
 MultiTask(output=4, value={2}),
 MultiTask(output=5, value={5}),
 MultiTask(output=6, value={2, 3}),
 MultiTask(output=7, value=set()),
 MultiTask(output=8, value={2}),
 MultiTask(output=9, value={3})]

По-умолчанию, для вывода используется стандартный `IPython.display`. Пользователь может указать свою функцию, например, выводить вместе с картинкой путь до файла:

In [42]:
data = {_: Image.open(_) for _ in glob('i/dogs_cats/*.jpg')}


def display_item(item):
    from IPython.display import display
    
    path, image = item
    print(path)
    display(image)


buttons = [
    Button('dog', shortcut='1'),
    Button('cat', shortcut='2'),
    Back(),
    Next()
]
annotation = annotate(data.items(), buttons=buttons, display=display_item)
annotation

<img src="i/display.gif">