Bokeh — это Python-библиотека для интерактивной визуализации данных.

В отличие от популярных аналогов в области визуализации Python, таких как Matplotlib и Seaborn, Bokeh отображает свою графику с помощью HTML и JavaScript. Это делает его отличным кандидатом для создания веб-панелей и приложений. Тем не менее, это не менее мощный инструмент для изучения и понимания данных или создания красивых пользовательских диаграмм для проекта или отчета.

Создание визуализации с помощью Bokeh включает следующие шаги:
* Подготовка данных.
* Определение, как будет показана визуализация.
* Установка фигуры.
* Подключение и рисование данные.
* Организация макета.
* Предварительный просмотр и сохранение созданных данных.

Давайте рассмотрим каждый шаг более подробно.

### Подготовка данных
Любая хорошая визуализация данных начинается с данных. Этот шаг обычно включает библиотеки обработки данных, такие как Pandas и Numpy и заключается в том, чтобы предпринять необходимые шаги для преобразования его в форму, которая лучше всего подходит для предполагаемой визуализации.

### Определить, как будет показана визуализация
На этом этапе определяемся, как хочется создавать и в конечном итоге просматривать визуализацию. В примерах будут использоваться такие параметры, которые предоставляет Bokeh: создание статического файла HTML и рендеринг визуализации в Jupyter Notebook.

### Настройка рисунков
На этом шаге создаётся внешнее представление, готовится холст для визуализации. Здесь можно настроить всё, от заголовков до отметок. Также можно настроить набор инструментов, которые обеспечивают пользователю различное интерактивное взаимодействие с визуализацией.

### Подключиться к своим данным и извлекать их
Затем воспользуемся множеством средств рендеринга Bokeh для того, чтобы придать выразительную форму данным. Можно отобразить и нарисовать свои данные, буквально, с нуля, используя множество доступных параметров маркеров и представлений, которые легко настроить. Здесь невероятная свобода творчества для представления своих данных.

Кроме того, в Bokeh есть встроенные функциональные возможности для создания таких вещей, как гистограммы с накоплением, а так-же множества примеров для создания более сложных вариантов инфографики, таких как сетевые графики и карты.

### Предварительный просмотр и сохранение созданных данных
Наконец, пора посмотреть, что было сделано.

Независимо от того, просматривается ли инфографика в браузере или в Notebook, можно изучить визуализацию, изучить настройки и поиграть с любыми добавленными взаимодействиями.

Также можно сохранить визуализацию в файл изображения.

Эти шесть шагов представляют собой строительные блоки аккуратного гибкого шаблона, который можно использовать для переноса данных из таблицы на большой экран:

```python
"""
Шаблон визуализации Bokeh

Этот шаблон представляет собой общую схему преобразования данных при
создании инфографики с использованием Bokeh.
"""
# Обработка данных
import pandas as pd
import numpy as np

# Библиотеки Bokeh
from bokeh.io import output_file, output_notebook
from bokeh.plotting import figure, show
from bokeh.models import ColumnDataSource
from bokeh.layouts import row, column, gridplot
from bokeh.models.widgets import Tabs, Panel

# Подготовка данных

# Определить, как будет отображаться визуализация
output_file('filename.html')  # Рендеринг в статический HTML, или
output_notebook() # Встроенный рендеринг в Jupyter Notebook

# Установка фигуры
fig = figure()  # Создание экземпляра объекта figure()

# Подключиться и нарисовать данные

# Предварительный просмотр и сохранение
show(fig)  # Посмотрите, что получилось и сохраните, если нравится
```

Здесь показаны самые распространенные фрагменты кода для каждого этапа. Ниже будет указано, как написать остальное.

## Создание первой фигуры
Есть несколько способов сделать инфографику в Bokeh. У меня используются два варианта:
1. **output_file(‘filename.html’)** запишет инфографику в статический HTML-файл.
2. **output_notebook()** отобразит инфографику непосредственно в Jupyter Notebook.

Важно отметить, что ни одна из функций не отображает визуализацию. Этого не произойдет, пока не будет вызвана функция `show()`. Однако они гарантируют, что при вызове `show()` визуализация появится там, где нужно.

Вызывая как `output_file()`, так и `output_notebook()` в одном исполнении, инфографика будет отображаться как в статическом HTML-файле, так и в записной книжке. Однако, если по какой-либо причине запускается несколько раз команд `output_file()` в одном исполнении, для рендеринга будет использоваться только последняя из них.

Это отличная возможность впервые взглянуть на Bokeh `figure()` с помощью `output_file()`:

```python
# Библиотеки Bokeh
from bokeh.io import output_file
from bokeh.plotting import figure, show

# Рисунок будет отображен в статическом HTML-файле с именем output_file_test.html
output_file('output_file_test.html', 
            title='Empty Bokeh Figure')

# Настроить общий объект figure()
fig = figure()

# Посмотрите, как это выглядит
show(fig)
```

![](https://tlgur.com/d/GVqQB7X8)

Новое окно браузера открылось с вкладкой под названием **Empty Bokeh Figure** и пустой фигурой. Не показан файл, созданный с именем **output_file_test.html** в текущем рабочем каталоге.

Если запускать тот же фрагмент кода с `output_notebook()` вместо `output_file()`, предполагая, что запущен и готов к работе Jupyter Notebook, получится следующее:

```python
# Библиотеки Bokeh
from bokeh.io import output_notebook
from bokeh.plotting import figure, show

# Рисунок будет прямо у меня в Jupyter Notebook
output_notebook()

# Настроить общий объект figure ()
fig = figure()

# Посмотрите, как это выглядит
show(fig)
```

![](https://tlgur.com/d/GPqVvp2g)

Результат тот же, только отрендерен в другом месте.

*Примечание. Иногда при последовательном рендеринге нескольких визуализаций можно увидеть, что прошлые рендеры не очищаются при каждом выполнении. Если столкнулись с этим, импортируйте и выполняйте между выполнениями следующее:*

```python
# Импортировать reset_output (требуется только один раз) 
from bokeh.plotting import reset_output

# Используйте reset_output () между последующими вызовами show (), если необходимо
reset_output()
```

## Подготовка фигуры к данным
Теперь давайте узнаем больше о том, как настроить объект `figure()`.

Объект `figure()` — это не только основа визуализации данных, но и объект, который открывает все доступные инструменты Bokeh для инфографики. Figure Bokeh является подклассом объекта Bokeh Plot, который предоставляет многие параметры, которые позволяют настраивать эстетические элементы инфографики.

Для получения представление о доступных параметрах настройки, создадим несложную инфографику:

```python
# Библиотеки Bokeh
from bokeh.io import output_notebook
from bokeh.plotting import figure, show

# Рисунок будет встроен в мой блокнот Jupyter
output_notebook()

# Пример рисунка
fig = figure(background_fill_color='gray',
             background_fill_alpha=0.5,
             border_fill_color='blue',
             border_fill_alpha=0.25,
             plot_height=300,
             plot_width=500,
             h_symmetry=True,
             x_axis_label='X Label',
             x_axis_type='datetime',
             x_axis_location='above',
             x_range=('2018-01-01', '2018-06-30'),
             y_axis_label='Y Label',
             y_axis_type='linear',
             y_axis_location='left',
             y_range=(0, 100),
             title='Example Figure',
             title_location='right',
             toolbar_location='below',
             tools='save')

# Пример рисунка
show(fig)
```

![](https://tlgur.com/d/89BexA5G)

После создания экземпляра объекта figure() все равно можно настроить его постфактум. Допустим, нужно избавиться от линий сетки:

```python
# Удаляем линии сетки с объекта figure ()
fig.grid.grid_line_color = None

# Посмотрите, как это выглядит 
show(fig)
```

Свойства линии сетки доступны через атрибут сетки фигуры. В этом случае установка для `grid_line_color` значения `None` фактически полностью удаляет линии сетки.

![](https://tlgur.com/d/4NqNavvg)

*Примечание. Если работать в Notebook или в среде IDE с функцией 

---

автозаполнения, эта функция определенно подойдет. Благодаря такому количеству настраиваемых элементов он может быть очень полезен при обнаружении доступных опций:*

![](https://chel-center.ru/python-yfc/wp-content/uploads/sites/15/2021/01/auto_complete.37c7846717461.gif)

## Рисование данных с помощью глифов
Пустая фигура не так уж и интересна, поэтому давайте посмотрим на глифы: строительные блоки визуализации боке. Глиф — это векторизованная графическая форма или маркер, который используется для представления данных в виде круга или квадрата. После создадания фигуры, предоставляется доступ к набору настраиваемых методов глифов.

Начнем с очень простого примера, нарисовав несколько точек на координатной сетке x-y:

```python
# Библиотеки Bokeh
from bokeh.io import output_file
from bokeh.plotting import figure, show

# Мои данные о координатах x-y
x = [1, 2, 1]
y = [1, 1, 2]

# Вывести визуализацию прямо в блокнот
output_file('first_glyphs.html', title='First Glyphs')

# Создайте фигуру без панели инструментов и диапазонов осей
fig = figure(title='My Coordinates',
             plot_height=300, plot_width=300,
             x_range=(0, 3), y_range=(0, 3),
             toolbar_location=None)

# Нарисуйте координаты в виде кругов
fig.circle(x=x, y=y,
           color='green', size=10, alpha=0.5)

# Показать сюжет
show(fig)
```

![](https://tlgur.com/d/4x5ZN0E8)

Вот несколько категорий глифов:
* **Маркер** включает в себя формы, такие как круги, ромбы, квадраты и треугольники, и эффективен для создания визуализаций, таких как точечные и пузырьковые диаграммы.
* **Линия** охватывает такие вещи, как одиночные и многолинейные фигуры, которые можно использовать для построения линейных диаграмм.
* **Фигуры гистограмм/прямоугольников** можно использовать для создания традиционных или составных столбчатых диаграмм, а также каскадных диаграмм или диаграмм Ганта.

Эти глифы можно комбинировать по мере необходимости, чтобы соответствовать потребностям в визуализации. Допустим, нужно создать визуализацию, которая показывает, сколько слов было написано за каждый день, с наложенной линией тренда совокупного количества слов:

```python
import numpy as np

# Библиотеки боке
from bokeh.io import output_notebook
from bokeh.plotting import figure, show

# Данные о подсчете слов
day_num = np.linspace(1, 10, 10)
daily_words = [450, 628, 488, 210, 287, 791, 508, 639, 397, 943]
cumulative_words = np.cumsum(daily_words)

# Выввод визуализацию в Notebook
output_notebook()

# Создание фигуры с осью x типа datetime
fig = figure(title='My Tutorial Progress',
             plot_height=400, plot_width=700,
             x_axis_label='Day Number', y_axis_label='Words Written',
             x_minor_ticks=2, y_range=(0, 6000),
             toolbar_location=None)

# Ежедневные слова будут представлены в виде вертикальных полос (столбцов)
fig.vbar(x=day_num, bottom=0, top=daily_words, 
         color='blue', width=0.75, 
         legend='Daily')

# Накопленная сумма будет линией тренда
fig.line(x=day_num, y=cumulative_words, 
         color='gray', line_width=1,
         legend='Cumulative')

# Помещение легенды в левый верхний угол
fig.legend.location = 'top_left'

# Проверка
show(fig)
```

![](https://tlgur.com/d/GPqVv02g)

Чтобы объединить столбцы и линии на рисунке, они просто создаются с использованием одного и того же объекта figure().

Кроме того, можно увидеть выше, как легко можно создать легенду, задав свойство легенды для каждого глифа. Затем легенда была перемещена в верхний левый угол графика путем присвоения `top_left` значению `fig.legend.location`.

*Примечание. Далее в примерах будут использоваться общедоступные данные. Чтобы прочитать их в Pandas DataFrame, используются следующие команды:*

```python
import pandas as pd

# Прочитать csv файлы
player_stats = pd.read_csv('2017-18_playerBoxScore.csv', parse_dates=['gmDate'])
team_stats = pd.read_csv('2017-18_teamBoxScore.csv', parse_dates=['gmDate'])
standings = pd.read_csv('2017-18_standings.csv', parse_dates=['stDate'])
```

*Этот фрагмент кода считывает данные из трех файлов CSV и автоматически интерпретирует столбцы даты как объекты `datetime`.*

## Использование объекта ColumnDataSource
В приведенных выше примерах для представления данных использовались списки Python и массивы Numpy, и Bokeh хорошо оснащено для обработки этих типов данных. Однако, когда дело доходит до данных в Python, то скорее всего, встретятся словари Python и Pandas DataFrames, особенно если читаются данные из файла или внешнего источника данных.

Bokeh хорошо оснащен для работы с этими более сложными структурами данных, и даже имеет встроенные функции для их обработки, а именно `ColumnDataSource`.

Но зачем использовать `ColumnDataSource`, если Bokeh может напрямую взаимодействовать с другими типами данных?

Во-первых, когда ссылаются напрямую на список, массив, словарь или DataFrame, Bokeh за кулисами все равно превратит его в ColumnDataSource. Что еще более важно, ColumnDataSource значительно упрощает реализацию интерактивных возможностей Bokeh.

ColumnDataSource лежит в основе передачи данных глифам, которые используются для визуализации. Его основная функция — отображать имена столбцам данных. Это упрощает использование ссылок на элементы данных при построении визуализации.

ColumnDataSource может интерпретировать три типа объектов данных:
* **Python dict**: ключи — это имена, связанные с соответствующими последовательностями значений (списки, массивы и т. д.).
* **Pandas DataFrame**: столбцы DataFrame становятся ссылочными именами для ColumnDataSource.
* **Pandas groupby**: столбцы ColumnDataSource ссылаются на столбцы, как видно при вызове `groupby.describe()`.

Давайте начнем с визуализации гонки за первое место в Западной конференции НБА в 2017–2018 годах между действующим чемпионом Golden State Warriors и претендентом Houston Rockets. Ежедневные записи о победах и поражениях этих двух команд хранятся в DataFrame с именем `west_top_2`:

```python
>>> west_top_2 = (standings[(standings['teamAbbr'] == 'HOU') | (standings['teamAbbr'] == 'GS')]
...               .loc[:, ['stDate', 'teamAbbr', 'gameWon']]
...               .sort_values(['teamAbbr','stDate']))
>>> west_top_2.head()
        stDate teamAbbr  gameWon
9   2017-10-17       GS        0
39  2017-10-18       GS        0
69  2017-10-19       GS        0
99  2017-10-20       GS        1
129 2017-10-21       GS        1
```

Отсюда можно загрузить этот DataFrame в два объекта ColumnDataSource и визуализировать гонку:

```python
# Bokeh libraries
from bokeh.plotting import figure, show
from bokeh.io import output_file
from bokeh.models import ColumnDataSource

# Output to file
output_file('west-top-2-standings-race.html', 
            title='Western Conference Top 2 Teams Wins Race')

# Isolate the data for the Rockets and Warriors
rockets_data = west_top_2[west_top_2['teamAbbr'] == 'HOU']
warriors_data = west_top_2[west_top_2['teamAbbr'] == 'GS']

# Create a ColumnDataSource object for each team
rockets_cds = ColumnDataSource(rockets_data)
warriors_cds = ColumnDataSource(warriors_data)

# Create and configure the figure
fig = figure(x_axis_type='datetime',
             plot_height=300, plot_width=600,
             title='Western Conference Top 2 Teams Wins Race, 2017-18',
             x_axis_label='Date', y_axis_label='Wins',
             toolbar_location=None)

# Render the race as step lines
fig.step('stDate', 'gameWon', 
         color='#CE1141', legend='Rockets', 
         source=rockets_cds)
fig.step('stDate', 'gameWon', 
         color='#006BB6', legend='Warriors', 
         source=warriors_cds)

# Move the legend to the upper left corner
fig.legend.location = 'top_left'

# Show the plot
show(fig)
```

![](https://tlgur.com/d/gwqaLXW8)

Обратите внимание на ссылки на соответствующие объекты ColumnDataSource при создании двух строк. Просто передаются исходные имена столбцов в качестве входных параметров и указывается, какой ColumnDataSource использовать через свойство источника.

Визуализация показывает напряженную гонку на протяжении всего сезона, Warriors создают довольно большую подушку в середине сезона. Тем не менее, небольшой спад в конце сезона позволил Rockets наверстать упущенное и в конечном итоге превзойти защищающихся чемпионов и завершить сезон победным номером один в Западной конференции.

*Примечание. В Bokeh можно указать цвета по имени, шестнадцатеричному значению или цветовому коду RGB.*

*Для визуализации выше указан цвет соответствующих линий, представляющих две команды. Вместо использования названий цветов CSS, таких как `red` для Rockets и `blue` для Warriors, возможно, захочется добавить приятный визуальный штрих, используя официальные цвета команды в виде шестнадцатеричных цветовых кодов. В качестве альтернативы можно было бы использовать кортежи, представляющие цветовые коды RGB: (206, 17, 65) для Rockets, (0, 107, 182) для Warriors.*

Объекты ColumnDataSource могут не только служить простым способом ссылки на столбцы DataFrame. Объект ColumnDataSource имеет три встроенных фильтра, которые можно использовать для создания представлений данных с помощью объекта CDSView:
* **GroupFilter** выбирает строки из ColumnDataSource на основе категориального ссылочного значения;
* **IndexFilter** фильтрует ColumnDataSource через список целочисленных индексов;
* **BooleanFilter** позволяет использовать список логических значений с выбранными строками True.

В предыдущем примере были созданы два объекта ColumnDataSource, по одному из подмножества фрейма данных west_top_2. В следующем примере будет воссоздан тот же вывод из одного ColumnDataSource на основе всего west_top_2 с использованием GroupFilter, который создает представление для данных:

```python
# Библиотеки боке
from bokeh.plotting import figure, show
from bokeh.io import output_file
from bokeh.models import ColumnDataSource, CDSView, GroupFilter

# Вывод в файл
output_file('west-top-2-standings-race.html', 
            title='Western Conference Top 2 Teams Wins Race')

# Создать ColumnDataSource
west_cds = ColumnDataSource(west_top_2)

# Создайте представления для каждой команды
rockets_view = CDSView(source=west_cds,
                       filters=[GroupFilter(column_name='teamAbbr', group='HOU')])
warriors_view = CDSView(source=west_cds,
                        filters=[GroupFilter(column_name='teamAbbr', group='GS')])

# Создаем и настраиваем фигуру
west_fig = figure(x_axis_type='datetime',
                  plot_height=300, plot_width=600,
                  title='Western Conference Top 2 Teams Wins Race, 2017-18',
                  x_axis_label='Date', y_axis_label='Wins',
                  toolbar_location=None)

# Отрисовываем гонку в виде ступенчатых линий
west_fig.step('stDate', 'gameWon',
              source=west_cds, view=rockets_view,
              color='#CE1141', legend='Rockets')
west_fig.step('stDate', 'gameWon',
              source=west_cds, view=warriors_view,
              color='#006BB6', legend='Warriors')

# Переместите легенду в верхний левый угол
west_fig.legend.location = 'top_left'

# Показать сюжет
show(west_fig)
```

![](https://tlgur.com/d/4zebNk6g)

Обратите внимание, как GroupFilter передается в CDSView в виде списка. Это позволяет комбинировать несколько фильтров вместе, чтобы при необходимости изолировать нужные данные от ColumnDataSource.


---

