# Визуализация в Plotly

Ты уже изучил библиотеки `Matplotlib` и `Seaborn`, которые используют для создания статичных графиков. Но если данные требуют более глубокого анализа и интерактивной подачи, то лучше подойдёт библиотека `Plotly`.

Она поднимает визуализацию данных на новый уровень: позволяет создавать графики, в которых пользователь может менять масштаб, настройки отображения и быстро находить ключевые закономерности. C `Plotly` можно легко создать анимированный график и сделать его доступным в веб-приложениях.

Из этого текста ты узнаешь:

*   как строить интерактивные графики;
*   как их оформить и настроить;
*   какие элементы могут быть полезны в визуализации с Plotly.

Время чтения: ~1 час.

## Библиотека Plotly

> `Plotly` — это интерактивная библиотека с открытым исходным кодом. Она используется для создания графиков и поддерживает более 40 уникальных типов диаграмм.

Библиотека построена на базе `Plotly.js` и помогает создавать красивые интерактивные визуализации для веба. Эти графики можно выводить в Jupyter-ноутбуках, сохранять в виде HTML-файлов или интегрировать в веб-приложения на базе Dash. В Python-окружении библиотеку иногда называют `plotly.py`, чтобы отличать её от JavaScript-версии.

### Преимущества Plotly

1. Значительно упрощает процесс разработки. Благодаря высокоуровневым функциям, таким как `plotly.express`, создание сложных визуализаций требует минимальных затрат времени и усилий.

2. Поддерживает множество форматов для экспорта графиков и легко интегрируется в различные бизнес-приложения и дашборды. Это позволяет быстро и удобно передавать информацию коллегам или клиентам. Интерактивные графики легко можно включить в отчёты и презентации, делая их более наглядными.

3. Может работать с большими объёмами данных. В современных компаниях, где объём информации огромен, критически важно анализировать данные без потери производительности. Например, можно изучать данные о продажах по регионам с высокой скоростью, выявляя тренды и паттерны.

### Форматы работы с Plotly




| Программа              | Какие графики создаёт                |                                   Особенности                | Когда использовать                | Документация                |
|------------------------|-----------------------------------------|-----------------|-----------------------------------------------|-------------------------|
| Plotly Express | Простые интерактивные графики       | Требует буквально одной строки кода для построения многих типов графиков                             | Когда нужно быстро создать визуализацию без глубокой настройки или провести быстрое прототипирование и анализ данных      | [Документация](https://plotly.com/python/plotly-express/)  |
| Plotly Graph Objects | Графики с детализированной настройкой       | Предоставляет доступ к полному контролю над каждым элементом графика | Когда нужна сложная визуализация с высокой степенью персонализации     | [Документация](https://plotly.com/python-api-reference/plotly.graph_objects.html)  |
| Plotly.js | Интерактивные графики в веб-приложениях      | Основной движок визуализации для всех версий Plotly | Когда нужно использовать Plotly в клиентских приложениях и проектах, написанных на JavaScript или других веб-технологиях    | [Документация](https://plotly.com/graphing-libraries/)  |  
| Plotly Chart Studio | Графики без написания кода     | Простой способ визуализировать данные, не используя программирования. Позволяет публиковать графики в интернете или делиться ими с другими пользователями |     |[Документация](https://chart-studio.plotly.com/create/)  |

Также есть возможность интегрировать графики `Plotly` в фреймворк Dash, который позволяет публиковать набор графиков как веб-сервисы.

В этом материале мы будем рассматривать ` Plotly Express`, потому что это упрощённый интерфейс к `Plotly`, а следом перейдём непосредственно к `Plotly`, так как в этой библиотеке больше возможностей для кастомизации.

Импортируем необходимые зависимости:

In [2]:
import numpy as np
# Для создания подграфиков
from plotly.subplots import make_subplots
import plotly.express as px
# Для операций с графическими объектами
import plotly.graph_objects as go
import plotly.io as pio

# Настраиваем шаблон для лонгрида. Об этом ниже.
custom_template = {
    'layout': {
        'width': 800,
        'height': 350,
        'plot_bgcolor': '#E5ECF6',
        'font': {
            'color': 'black'
        },

    }
}
pio.templates['custom'] = custom_template
pio.templates.default = 'custom'

ModuleNotFoundError: No module named 'numpy'

## Анатомия графика

В `Matplotlib` и `Seaborn` используется линейная структура объектов. Это значит, что объекты графика (данные, оси, легенда) находятся на одном уровне и управляются через отдельные параметры или функции. Это удобно при создании простых графиков, но усложняет задачу, если нужно изменить только часть объекта.

`Plotly` использует многоуровневую архитектуру, что позволяет настраивать каждый элемент отдельно и создавать более сложные графики.

> Основа для создания и настройки графиков в библиотеке `Plotly` — это объект **Figure**.

`Figure` можно представить как коробку. В этой коробке хранятся данные и инструкции, как эти данные отобразить и оформить. Всё, что нужно для создания графика, находится в этой «коробке», а её содержимое при необходимости можно дополнять или изменять.

## Особенности `Figure`

**Многоуровневая структура**

  Объект `Figure` включает вложенные структуры для данных, оформления, аннотаций и других визуальных элементов. Такая иерархия позволяет настраивать параметры отдельных частей графика и всей визуализации, например цвет линий или метки осей.

**Изучение структуры**

  -	Используй `print(fig)`, чтобы отобразить состав объекта `Figure`. Команда выводит содержимое объекта, созданного в `Plotly Express` или в `Plotly Graph Objects`. При этом значение `layout.template` сокращается до `...` для удобства восприятия.
  -	В JupyterLab удобно применять `fig.show('json')`, чтобы визуально просмотреть структуру в формате JSON. Это облегчает навигацию по графику и поиск нужных параметров.

**Методы для доступа к данным**

  - `fig.to_dict()`: преобразует объект `Figure` в словарь Python, позволяя работать с его данными как с обычным словарём.
  -	`fig.to_json()`: сохраняет объект в формате JSON, что полезно для передачи данных или интеграции с другими приложениями.

**Основные компоненты `Figure`**

-	`data`: данные для построения графика.
-	`layout`: параметры оформления и стилизации.
-	`frames`: кадры для анимации, если график анимирован.

Доступ к этим атрибутам осуществляется по «пути» вложенности. Например:

-	`layout.width` задаёт ширину графика. Чтобы получить к ней доступ, нужно сначала обратиться к объекту `layout`, а затем к свойству `width`.
-	`layout.annotations[].text` используется для доступа к тексту аннотаций. Сначала нужно обратиться к массиву `annotations`, затем выбрать нужный элемент массива и получить доступ к его свойству `text`.

**Способы изменения атрибутов**

Атрибуты объекта `Figure` можно изменять несколькими способами:

- Прямое изменение. Например: `fig.layout.title.font.family = 'Arial'` задаёт шрифт заголовка как Arial.
-	Методы обновлений. Например: `fig.update_layout(title_font_family='Arial')`.

**Пример.** Создадим простейший линейный график и рассмотрим его структуру. Для этого возьмём простейшую зависимость с точками $(a; 1), (b; 3), (c; 2)$:

Этот объект содержит как данные, так и настройки для построения графика:

| Параметр               | Значение                                                       | Описание                                                   |
|------------------------|----------------------------------------------------------------|------------------------------------------------------------|
| **Данные графика**     |                                                                |                                                            |
| `hovertemplate`        | `x=%{x}<br>y=%{y}<extra></extra>`                             | Формат отображения информации при наведении курсора      |
| `legendgroup`          | `''`                                                           | Группа для легенды, не используется                      |
| `line`                 | `{'color': '#1F77B4', 'dash': 'solid'}`                     | Свойства линии графика: цвет (синий), стиль (сплошная)  |
| `marker`               | `{'symbol': 'circle'}`                                        | Тип маркера — круг                                       |
| `mode`                 | `'lines'`                                                     | Тип отображения данных — линии                           |
| `name`                 | `''`                                                           | Имя графика, не указано                                  |
| `orientation`          | `'v'`                                                          | Ориентация графика — вертикальная                        |
| `showlegend`           | `False`                                                       | Легенда не отображается                                   |
| `type`                 | `'scatter'`                                                   | Тип графика — разброс                                    |
| `x`                    | `array(['a', 'b', 'c'], dtype=object)`                        | Значения по оси X — категории `'a'`, `'b'`, `'c'`       |
| `y`                    | `array([1, 3, 2])`                                            | Значения по оси Y — числовые значения `1`, `3`, `2`     |
| `xaxis`                | `'x'`                                                          | Обозначение оси X                                       |
| `yaxis`                | `'y'`                                                          | Обозначение оси Y                                       |
| **Настройки графика**   |                                                                |                                                            |
| `legend`               | `{'tracegroupgap': 0}`                                        | Настройки легенды, ширина между группами следов (0)     |
| `template`             | `'...'`                                                       | Шаблон стиля для графика (точное имя не указано)        |
| `title`                | `{'text': 'sample figure'}`                                   | Заголовок графика — «sample figure»                     |
| `xaxis`                | `{'anchor': 'y', 'domain': [0.0, 1.0], 'title': {'text': 'x'}}` | Настройки оси X: привязка, диапазон, заголовок          |
| `yaxis`                | `{'anchor': 'x', 'domain': [0.0, 1.0], 'title': {'text': 'y'}}` | Настройки оси Y: привязка, диапазон, заголовок          |

In [None]:
fig = px.line(x=['a','b','c'], y=[1,3,2], title='sample figure')
print(fig)
fig.show()

Figure({
    'data': [{'hovertemplate': 'x=%{x}<br>y=%{y}<extra></extra>',
              'legendgroup': '',
              'line': {'color': '#1F77B4', 'dash': 'solid'},
              'marker': {'symbol': 'circle'},
              'mode': 'lines',
              'name': '',
              'orientation': 'v',
              'showlegend': False,
              'type': 'scatter',
              'x': array(['a', 'b', 'c'], dtype=object),
              'xaxis': 'x',
              'y': array([1, 3, 2]),
              'yaxis': 'y'}],
    'layout': {'legend': {'tracegroupgap': 0},
               'template': '...',
               'title': {'text': 'sample figure'},
               'xaxis': {'anchor': 'y', 'domain': [0.0, 1.0], 'title': {'text': 'x'}},
               'yaxis': {'anchor': 'x', 'domain': [0.0, 1.0], 'title': {'text': 'y'}}}
})


Если не указаны все параметры, `Plotly` сам вычислит их на этапе генерации графика. Например, если не задать `layout.xaxis.range`, он будет рассчитан на основе данных по оси $X$.

Рассмотрим элементы вывода.

### Атрибут `data`

Объект `Figure` содержит атрибут `data`, который представляет собой список словарей. Эти словари называются трейсами.

> **Трейс** (от анг. trace) — это базовый строительный блок графика в Plotly, который отвечает за отображение одного набора данных.

В примере список содержит только один трейс:

```
    'data': [{'hovertemplate': 'x=%{x}<br>y=%{y}<extra></extra>',
              'legendgroup': '',
              'line': {'color': '#1F77B4', 'dash': 'solid'},
              'marker': {'symbol': 'circle'},
              'mode': 'lines',
              'name': '',
              'orientation': 'v',
              'showlegend': False,
              'type': 'scatter',
              'x': array(['a', 'b', 'c'], dtype=object),
              'xaxis': 'x',
              'y': array([1, 3, 2]),
              'yaxis': 'y'}],
```

Каждый трейс определяет:

**Тип визуализации:** например, scatter (график рассеяния), bar (столбчатая диаграмма) или pie (круговая диаграмма).

**Данные:** массивы для осей (например, $x$ и $y$) и другие параметры.

**Настройки:** цвет линий, размеры маркеров, название трейса для легенды и прочее.

В атрибуте `data` может быть один трейс или несколько. Если нужно отображать разные графики (например, линии и точки), они добавляются как отдельные трейсы в список.



### Атрибут `layout`
Cледом идёт атрибут `layout`:
```
'layout': {'legend': {'tracegroupgap': 0},
            'template': '...',
            'title': {'text': 'sample figure'},
            'xaxis': {'anchor': 'y', 'domain': [0.0, 1.0], 'title': {'text': 'x'}},
            'yaxis': {'anchor': 'x', 'domain': [0.0, 1.0], 'title': {'text': 'y'}}}
```
Это словарь, который задаёт внешний вид графика: размеры, шрифты, заголовки, легенды, оси и подграфики. Можно настраивать оси, размещать аннотации и добавлять элементы управления, такие как кнопки и слайдеры.


Рассмотрим таблицу с возможными параметрами для словаря:

| Ключ                      | Значение                                            | Описание                                                       |
|---------------------------|-----------------------------------------------------|----------------------------------------------------------------|
| `title`                   | `str`                                              | Заголовок графика                                            |
| `xaxis.title`            | `str`                                              | Заголовок для оси X                                         |
| `xaxis.range`            | `[min, max]`                                      | Диапазон значений для оси X                                |
| `xaxis.ticks`            | `str`                                              | Указание, как будут отображаться метки на оси X (например, 'outside', 'inside') |
| `xaxis.tickvals`         | `[val1, val2, ...]`                               | Значения, по которым будут размещены метки на оси X        |
| `xaxis.ticktext`         | `[text1, text2, ...]`                             | Тексты меток для указанных значений на оси X               |
| `xaxis.gridcolor`        | `str`                                              | Цвет сетки для оси X                                       |
| `xaxis.gridwidth`        | `int`                                              | Ширина линии сетки для оси X                               |
| `yaxis.title`            | `str`                                              | Заголовок для оси Y                                         |
| `yaxis.range`            | `[min, max]`                                      | Диапазон значений для оси Y                                |
| `yaxis.ticks`            | `str`                                              | Указание, как будут отображаться метки на оси Y            |
| `yaxis.tickvals`         | `[val1, val2, ...]`                               | Значения, по которым будут размещены метки на оси Y        |
| `yaxis.ticktext`         | `[text1, text2, ...]`                             | Тексты меток для указанных значений на оси Y               |
| `yaxis.gridcolor`        | `str`                                              | Цвет сетки для оси Y                                       |
| `yaxis.gridwidth`        | `int`                                              | Ширина линии сетки для оси Y                               |
| `margin`                 | `{ 'l': int, 'r': int, 't': int, 'b': int }`     | Отступы (слева, справа, сверху, снизу) вокруг графика     |
| `width`                   | `int`                                             | Ширина графика в пикселях                                   |
| `height`                  | `int`                                             | Высота графика в пикселях                                   |
| `showlegend`              | `bool`                                            | Отображение легенды (True или False)                        |
| `legend`                  | `{ 'x': float, 'y': float, 'orientation': 'h' \| 'v', 'bgcolor': 'color', 'bordercolor': 'color' }` | Параметры настройки легенды, такие как позиция, ориентация, цвет фона и цвет рамки. |
| `plot_bgcolor`           | `str`                                              | Цвет фона графика                                          |
| `paper_bgcolor`          | `str`                                              | Цвет фона всей бумаги (графика)                            |
| `hovermode`              | `str`                                              | Режим отображения информации при наведении (например, 'closest', 'x', 'y') |
| `xaxis.showgrid`         | `bool`                                            | Отображение сетки на оси X (True или False)               |
| `yaxis.showgrid`         | `bool`                                            | Отображение сетки на оси Y (True или False)               |
| `xaxis.zeroline`         | `bool`                                            | Отображение нулевой линии на оси X (True или False)       |
| `yaxis.zeroline`         | `bool`                                            | Отображение нулевой линии на оси Y (True или False)       |
| `annotations`             | `list of { 'x': value, 'y': value, 'text': 'str', 'showarrow': bool }` | Аннотации для графика, позволяющие добавлять текстовые метки |
| `shapes`                 | `list of { 'type': 'line' \| 'rect' \| 'circle', 'x0': value, 'y0': value, 'x1': value, 'y1': value }` | Фигуры, которые можно добавить на график (например, линии, прямоугольники) |
| `template`                | `str`                                              | Шаблон стиля для графика (например, 'plotly', 'ggplot2')   |
| `transition`              | `{ 'duration': int, 'easing': 'str' }`          | Параметры для анимации переходов между изменениями графика |

### Атрибут `frames`

Атрибут управляет покадровой отрисовкой графика, что важно при создании анимации. Анимация представляет собой последовательность кадров, где каждый кадр — это отдельное состояние графика. Этот атрибут задаёт последовательные изменения данных, вида или других свойств графических объектов, чтобы создать плавное визуальное движение. На практике мы поработаем с ним позже.

## Описание датасета

После разбора структуры объекта `Figure`, перейдём к датасету, который будут использоваться в примерах.

Возьмём встроенный в `Plotly Express` набор данных — `gapminder`. Он содержит демографические данные по разным странам. Если хочешь изучить и другие встроенные датасеты, можно посмотреть их полный список [тут](https://plotly.com/python-api-reference/generated/plotly.express.data.html). Возможно, ты даже найдёшь уже знакомые.

Импортируем `gapminder` через `px.data`:

In [None]:
import plotly.express as px
df = px.data.gapminder()
df.head()

Unnamed: 0,country,continent,year,lifeExp,pop,gdpPercap,iso_alpha,iso_num
0,Afghanistan,Asia,1952,28.801,8425333,779.445314,AFG,4
1,Afghanistan,Asia,1957,30.332,9240934,820.85303,AFG,4
2,Afghanistan,Asia,1962,31.997,10267083,853.10071,AFG,4
3,Afghanistan,Asia,1967,34.02,11537966,836.197138,AFG,4
4,Afghanistan,Asia,1972,36.088,13079460,739.981106,AFG,4


Датасет `gapminder` содержит данные по странам мира, охватывающие несколько десятилетий, и включает показатели, которые позволяют анализировать экономическое и социальное развитие разных стран и регионов. Вот, что представляют собой его столбцы:

1.	`country` (страна): название страны, к которой относятся данные.
2.	`continent` (континент): континент, на котором находится страна.
3.	`year` (год): год, в котором были собраны данные.
4.	`lifeExp` (продолжительность жизни): средняя продолжительность жизни в стране в конкретном году, измеряется в годах. Этот показатель часто используется для оценки общего уровня благосостояния и развития здравоохранения в стране.
5.	`pop` (численность населения): население страны в конкретный год. Этот столбец помогает учитывать демографические данные при анализе, например, для расчёта ВВП на душу населения.
6.	`gdpPercap` (ВВП на душу населения): внутренний валовый продукт на душу населения, который является ключевым показателем экономического благосостояния страны. Этот показатель позволяет оценить уровень экономического развития и стандарты жизни в стране.
7.	`iso_alpha` (ISO Alpha): трёхбуквенный код страны по стандарту ISO. Например, для России это RUS. Коды используются для стандартизации и идентификации стран.
8.	`iso_num` (ISO Numeric): числовой код страны по стандарту ISO. Например, для России это 643. Эти коды также стандартизируют идентификацию стран, особенно в международных статистических и экономических отчётах.

С этим датасетом можно исследовать взаимосвязи между экономическими показателями (например, ВВП на душу населения), социальными показателями (например, продолжительность жизни) и географией (страна, континент). Набор данных полезен для изучения:

- влияния экономического развития на качество жизни;
- демографических изменений и их связи с экономическим ростом;
- региональных различий между континентами и странами в разные исторические периоды.

## Классические графики в Plotly Express

### Scatter plot

В `Plotly` точечный график (scatter plot) — это диаграмма, где точки на координатной плоскости представляют связь между двумя переменными. Каждая точка отражает значения двух переменных:

-	$X$-координата обозначает значение одной переменной,
-	$Y$-координата — значение другой переменной.

Scatter plot полезен для анализа зависимости и выявления трендов между переменными, такими как возраст и доход или рост и вес. Уникальность scatter plot в `Plotly` по сравнению с аналогичным графиком в `Matplotlib` заключается в его интерактивности. Рассмотрим основные параметры `px.scatter()`:

- `df`: это параметр, указывающий на DataFrame, содержащий данные для визуализации.
-	`x`: указывает столбец данных, который будет использоваться для оси $X$.
-	`y`: указывает столбец данных для оси $Y$.
-	`color`: используется для того, чтобы цвет точек на графике зависел от категории. Аналогичен параметру `hue` из `Seaborn/Matplotlib`.
-	`size`: этот параметр определяет размер маркеров на основе данных в столбце. Чем больше значение категории, тем крупнее маркер.
-	`hover_name`: определяет, какая информация будет отображаться при наведении мыши на маркер.
-	`title`: заголовок графика.
-	`labels`: словарь, используемый для изменения подписей осей.
-	`symbol`: определяет, какие маркеры будут использоваться для точек на графике.
-	`width` и `height`: эти параметры определяют размеры графика в пикселях.
-	`marginal_x='histogram'`: добавляет гистограмму сверху графика, показывая распределение значений по оси $X$.
-	`marginal_y='rug'`: добавляет «коврик» (rug plot) справа от графика, который помогает визуализировать распределение данных по оси $Y$.

**Пример.** Построим график влияния уровня ВВП на продолжительность жизни по континентам. Это ключевая метрика, чтобы оценить влияние экономических факторов на здоровье и уровень жизни. Этот график объясняет взаимосвязь между продолжительностью жизни и благосостоянием населения и пооказывает, какие страны нуждаются в улучшении инфраструктуры или социальных программ для повышения качества жизни.

-	**Ось X (gdpPercap):** это показатель ВВП на душу населения.
-	**Ось Y (lifeExp):** это продолжительность жизни.

Каждая точка на графике — это страна, и по её координатам можно определить, какой у неё уровень ВВП на душу населения и средняя продолжительность жизни.

**Что показывает график:**

-	**Цвет точек:** обозначает континенты. Это помогает визуально разделить страны на регионы и лучше разобраться в географических различиях.
-	**hover_name:** когда наводишь курсор на точку, появляется название страны. Так проще идентифицировать каждую точку на графике.
- **marginal_x='rug':** на оси $X$ добавлен «коврик» (rug plot), который отображает отдельные точки вдоль оси ВВП. Это показывает распределение данных по оси $X$.
-	**marginal_y='histogram':** по оси $Y$ добавлена гистограмма. Она отображает распределение продолжительности жизни среди всех стран.

В `Plotly Express` для параметра `marginal_x` (как и `marginal_y`) доступны несколько вариантов, чтобы добавить дополнительные графики по краям основного графика, которые помогают лучше понять распределение данных.

Доступные параметры для `marginal_x`:

- `None` (по умолчанию) — без дополнительного графика по оси $X$.
-	`rug` — добавляет коврик (plot rug), который представляет собой маленькие отметки вдоль оси $X$, показывающие распределение данных вдоль этой оси.
- `box` — добавляет коробчатую диаграмму (box plot) по оси $X$. Это позволяет видеть медиану, межквартильный размах, а также выбросы вдоль оси $X$.
-	`violin` — добавляет виолончельный график (violin plot), который показывает распределение данных в виде сглаженной плотности вероятности вдоль оси $X$.
-	`histogram` — добавляет гистограмму (histogram), которая показывает распределение данных вдоль оси $X$, разделяя их на интервалы.

In [None]:
fig = px.scatter(df,
                 x='gdpPercap',
                 y='lifeExp',
                 color='continent',
                 hover_name='country',
                 title='Влияние уровня ВВП на продолжительность жизни по континентам',
                 width=1300,
                 height=800,
                 marginal_x='rug',
                 marginal_y='histogram'
                 )
fig.show()

Покликав на различные элементы графика, можно увидеть, как распределена продолжительность жизни в отдельно взятой стране, а по `rug`-графику увидеть распределение точек более компактно. Уже по этому графику можно сказать, что Океания и Европа являются одними из самых благополучных континентов.

### Линии тренда и добавление объекта на график

Если нужно создать график с несколькими типами визуализаций и настроить его внешний вид для наглядности, то можно воспользоваться двумя ключевыми функциями библиотеки `Plotly` — `add_trace` и `update_layout`.

#### Функция `add_trace`

Функция `add_trace` добавляет новые графики (или трейсы) к существующему объекту `Figure`. Она позволяет комбинировать разные типы графиков в одной визуализации, что особенно полезно для создания сложных или многоуровневых визуализаций. Параметры:

- `trace` — объект графика, который вы хотите добавить. Например, это может быть график рассеяния (`go.Scatter`), график линий (`go.Line`), столбчатый график (`go.Bar`).
- `row` и `col` — указывают, в каком ряду и столбце подграфика следует разместить добавляемый трейс (если используется `make_subplots`).
- `name` — строка, задающая имя следа, которое будет отображаться в легенде.
- `showlegend` — булевый параметр, указывающий, следует ли отображать трейс в легенде.

#### Функция `update_layout`

Функция `update_layout` позволяет настраивать внешний вид всего графика, включая такие параметры, как заголовок, размеры, отступы, оси и другие элементы оформления. Некоторые параметры:

-	`title` — задаёт заголовок для всего графика.
-	`width` и `height` — определяют размеры графика.
-	`xaxis_title` и `yaxis_title` — задают названия для осей $X$ и $Y$ соответственно.
-	`legend` — позволяет настраивать расположение и видимость легенды.
-	`margin` — управляет отступами вокруг графика.
-	`template` — задаёт предустановленный стиль графика.

**Пример 1.** Построим график точек ВВП по годам, соединённым линиями.
Отфильтруем данные функциями, которые тебе уже известны из материалов про `Pandas`.

In [None]:
# Фильтруем только европейские страны
df_europe = df[df['continent'] == 'Europe']
# Выбираем 5 самых крупнонаселённых стран Европы
top_5_population = df_europe.groupby('country')['pop'].max().nlargest(5).index
# Фильтруем данные по выбранным странам
df_top_5 = df_europe[df_europe['country'].isin(top_5_population)]

In [None]:
# Создаём график точек
fig_temp = px.scatter(df_top_5,
                      x='year',
                      y='gdpPercap',
                      color='country',
                      labels={'gdpPercap': 'ВВП на душу населения', 'year': 'Год'})

# График линий
line_traces = px.line(df_top_5,
                      x='year',
                      y='gdpPercap',
                      color='country').data

# Идём по всем пяти трейсам, добавляем каждый на график
for line_trace in line_traces:
    # Устанавливаем showlegend в False, чтобы избежать дублирования
    line_trace.showlegend = False
    fig_temp.add_trace(line_trace)

# Устанавливаем параметры отображения
fig_temp.update_layout(title='График ВВП на душу населения по годам',
                       xaxis_title='Год',
                       yaxis_title='ВВП на душу населения')

# Отрисовываем
fig_temp.show()

На данном графике мы можем увидеть, что страны на протяжении нескольких десятилетий показывают устойчивое развитие.

### Bubble chart

Диаграмма bubble chart — это разновидность `scatter`, которая добавляет третье измерение, отображая размер маркеров. Такой подход наглядно представляет данные по осям $X$ и $Y$, а также помогает учесть дополнительную информацию о каждом элементе по размеру маркера. Такие графики отлично дополняют презентации и отчёты.

**Пример 2.** Построим график зависимости продолжительности жизни от ВВП в 2007 году. В примере ниже с помощью колонки `size='pop'` мы делаем размер каждой точки пропорциональным населению страны, за которую она отвечает. Для удобства используется логарифмическая шкала по оси, отвечающей за ВВП. Построим данные за 2007 год с помощью `df.query('year==2007')`.

In [None]:
df = px.data.gapminder()

fig = px.scatter(df.query('year==2007'),
                 x='gdpPercap',
                 y='lifeExp',
                 size='pop', color='continent',  # Размер и цвет маркеров
                 hover_name='country',
                 height=500, width=1200,
                 log_x=True,  # Логарифмическая шкала X
                 size_max=60)  # Максимальный размер пузырьков

fig.show()

Таким образом, мы видим, что одни из самых крупных стран по населению — это США, Китай и Индия, но среди них наиболее благополучной страной является США.

### Линии тренда

В `Plotly` есть существенное преимущество перед `Matplotlib` и `Seaborn`: встроенные инструменты продвинутого анализа, а именно построение регрессионных линий различными методами. Это может быть полезно для аппроксимации и предсказания данных временных рядов.

Эти методы используются в анализе временных рядов, регрессии и сглаживании данных для выявления трендов и паттернов.

- **`OLS (Ordinary Least Squares)`.** Метод наименьших квадратов (OLS) — это базовый подход, чтобы построить линейную регрессию. Он находит такие параметры линейной функции, которые минимизируют сумму квадратов ошибок между наблюдаемыми и предсказанными значениями.
  
  **Применение:** используется для анализа зависимости между одной или несколькими независимыми переменными и зависимой переменной. Например, в экономике для предсказания потребления на основе доходов или в финансах для предсказания доходности акций на основе макроэкономических индикаторов.

- **`LOWESS (Locally Weighted Scatterplot Smoothing)`.** Это метод нелинейного сглаживания, который позволяет выделить тренд в данных без необходимости указывать глобальную модель. Он работает путём локальной линейной регрессии на небольших участках данных.
  
  **Применение:** используется для сглаживания шумных данных и выделения локальных трендов. Например, в биостатистике для анализа временных изменений биологических параметров или в финансах для выявления трендов на фондовом рынке.

- **`Expanding`.** Это метод кумулятивного вычисления нарастающих агрегатов по временным рядам. Каждый новый элемент добавляется к предыдущей выборке, и на основе всего набора данных пересчитывается агрегат (например, среднее, сумма).

  **Применение:** используется для получения нарастающих метрик во времени, таких как скользящее среднее, которое учитывает все предыдущие значения. Например, можно использовать для анализа динамики средней стоимости акций или кумулятивной прибыли компании.

- **`Rolling`.** Это метод скользящего окна, который применяет вычисления к подвыборкам данных фиксированного размера, перемещающегося вдоль временного ряда. Это позволяет вычислять показатели (например, среднее, сумму) для каждых нескольких точек данных.
  
  **Применение:** используется для анализа краткосрочных тенденций во временных рядах, например скользящее среднее доходности акций за последние 30 дней. Также применяется в финансовых моделях, прогнозах спроса и временных рядах в экономике.

Рассмотрим четыре метода на примере одного из набора данных.

**Пример.** Попробуем проанализировать тренд по ВВП внутри отдельно взятого континента, чтобы понять динамику экономики. Возьмём 5 самых крупнонаселённых стран Европы и построим динамику ВВП по годам. Чтобы сделать сравнительный анализ методов предсказания тренда, воспользуемся функцией `make_subplots`, аналогичной `subplots` из `Matplotlib`, со следующими параметрами:


- `rows=n`, `cols=m` — указывает количество строк и столбцов в фигуре.
- `subplot_titles=(str1, ..., strn)` — задаёт заголовки для каждого подграфика. В этом случае четыре графика будут иметь соответствующие названия, которые помогут пользователям понять, какие данные представлены на каждом графике.
- `vertical_spacing=n` — определяет вертикальные отступы между графиками (подграфиками). Значение `0.1` означает уменьшение стандартного расстояния между подграфиками по вертикали, чтобы они были ближе друг к другу.
- `horizontal_spacing=n` — аналогичный параметр по горизонтали.

Эта функция создаёт основу для комплексного отображения нескольких визуализаций в одной фигуре, позволяя легко сравнивать различные графики и тренды.

1. Воспользуемся `make_subplots`, создав сетку и указав её размер 2x2. Настроим отступы и подпишем каждый из графиков с помощью `subplot_titles`.
2. В `trendlines` перечислим возможные значения параметра.
3. Циклом `for` переберём все методы, построим `scatter`.
4. С помощью метода `add_trace` добавим сгенерированный график в каждую из четырёх ячеек сетки.



In [None]:
# Создаём сетку с 2 строками и 2 столбцами для графиков
fig = make_subplots(rows=2, cols=2,
                    subplot_titles=('Трендовая линия (OLS)',
                                    'Трендовая линия (LOWESS)',
                                    'Трендовая линия (Expanding)',
                                    'Трендовая линия (Rolling с окном в 10 точек)'),
                    vertical_spacing=0.1,
                    horizontal_spacing=0.1)

# Список трендовых линий
# Названия соответствуют методу вычисления
trendlines = ['ols', 'lowess', 'expanding', 'rolling']

for i, trendline in enumerate(trendlines):
    fig_temp = px.scatter(df_top_5,
                          x='year',
                          y='gdpPercap',
                          color='country',
                          trendline=trendline,
                          # для метода скользящего окна нужно передать параметр ширины окна
                          trendline_options=dict(window=2) if trendline == 'rolling' else None,
                          labels={'gdpPercap': 'ВВП на душу населения', 'year': 'Год'},
                          )

    # Определяем позицию (строка и столбец) для каждого графика
    row = (i // 2) + 1
    col = (i % 2) + 1

    # Добавляем точки на соответствующую ячейку
    for trace in fig_temp.data:
        fig.add_trace(trace, row=row, col=col)

# Обновляем общий размер фигуры и заголовки
fig.update_layout(height=800, width=1200, showlegend=False,
                  title='Тренд ВВП для пяти крупнейших стран Европы (различные методы)')

fig.show()

Согласно данным, страны показывают устойчивое экономическое развитие на протяжении десятилетий. При этом в каждом методе по-разному интерпретируются данные и выделяются тренды.

**OLS** (линейная регрессия): выделяет общий линейный тренд, но может не учитывать локальные изменения, особенно если данные нелинейны.

**LOWESS** (локальное сглаживание): показывает наиболее детализированную картину, адаптируясь к локальным изменениям данных. Это помогает точнее понять тренды в сложных временных рядах.

**Expanding** (нарастающее среднее): упрощает анализ, показывая общую тенденцию, но может сгладить важные локальные особенности.

**Rolling** (скользящее окно): подходит для краткосрочного анализа, однако выбор размера окна сильно влияет на результат. Например, слишком маленькое окно может «перегрузить» график мелкими колебаниями, а слишком большое — сгладить важные детали.

Таким образом, выбор метода сглаживания становится ключевым. На графиках видно, что LOWESS лучше всех справляется с выделением плавных трендов, сохраняя локальные особенности данных. Это делает его оптимальным выбором для анализа временных рядов, где важны как общая динамика, так и локальные отклонения. Остальные методы могут быть полезны в зависимости от конкретной задачи, но не дают такого же уровня детализации.



### Гистограмма (histogram)

Гистограммы идеально подходят для отображения распределения данных и анализа частоты появления значений в одномерных непрерывных или дискретных наборах данных. Они помогают визуально понять:

- **Распределение данных:** показать, как значения распределены по диапазонам (бинам).
- **Концентрацию данных:** выявить области, где значения наиболее сконцентрированы или, наоборот, редки.
- **Асимметрию или аномалии:** легко заметить перекосы в данных, выбросы или аномалии.

Гистограммы лучше всего использовать для:

- **Числовых данных**, чтобы провести анализ распределения значений, например: роста, веса, возраста, дохода, расходов.
-	**Оценки плотности распределения**, чтобы понять, насколько равномерно или неравномерно данные распределены.
-	**Анализа временных рядов**, например частоты возникновения событий за определённые периоды.


`Plotly Express` предоставляет удобный способ создания гистограмм с помощью функции `px.histogram` со следующими параметрами.

Основные параметры `px.histogram`:

- `data_frame`: основной аргумент, который принимает DataFrame с данными. Пример:
```data_frame=df```.
- `x`:	указывает колонку для оси $X$. Это данные, по которым будет строиться распределение. Пример: ```x='age'```.
- `y`: опциональный параметр для отображения данных по оси $Y$ (например, для агрегации значений). Пример: ```y='income'```.
- `color`: используется для цветового разделения данных по разным категориям. Пример: ```color='gender'```.
- `nbins`: указывает количество бинов (интервалов) для распределения данных. Чем больше бинов, тем точнее график. Пример: ```nbins=20```.
- `barmode`: режим отображения столбиков: может быть `'overlay'` (накладываются друг на друга) или `'group'` (группируются рядом). Пример: ```barmode='overlay'```.
- `histfunc`: функция для агрегации данных в бинах, может принимать значения: `'count'`, `'sum'`, `'avg'`, `'min'`, `'max'`. Пример: ```histfunc='sum'```.
- `opacity`: управляет прозрачностью столбиков. Значения от 0 (полностью прозрачные) до 1 (полностью непрозрачные).
- `labels`: переименовывает оси для лучшего отображения. Пример:
```labels={'age': 'Возраст', 'income': 'Доход'}```.
- `log_x` и `log_y`: включают логарифмическую шкалу для осей $X$ или $Y$.
- `title`: заголовок для графика. Пример: ```title='Распределение возраста'```.
- `hover_data`: добавляет дополнительные данные при наведении на столбики. Пример:
```hover_data=['population']```.
- `orientation`: определяет ориентацию графика: `'v'` (вертикальная) или `'h'` (горизонтальная).

[Больше примеров](https://plotly.com/python/histograms/)

**Пример.** Рассмотрим, какие страны по численности населения чаще встречаются по каждому из континентов. Это поможет проанализировать экономические агломерации и составить представление о степени урбанизованности внутри континента.

При построении графика добавляется число стран, обладающих такой численностью населения, которая соответствует подписи бина (колонки).

In [None]:
df = px.data.gapminder()

fig = px.histogram(df[df['year'] == 2007],
                   x='pop',              # Столбец с численностью населения
                   color='continent',    # Цветовая группировка по континентам
                   hover_data=['country', 'year', 'gdpPercap'],  # Дополнительные данные при наведении
                   nbins=500,             # Количество бинов для гистограммм
                  )

fig.update_layout(height=500, width=1200,
                  title='Распределение численности населения по континентам в 2007 году',
                  xaxis_title='Численность населения',
                  yaxis_title='Частота',
                  legend_title='Континент',
                  xaxis=dict(range=[0, 5 * 10**7])  # Устанавливаем диапазон по оси X
                  )

fig.show()

Таким образом, мы видим, что в Азии больше всего крупных стран с высокой численностью населения. Африканский континент состоит из множества стран с маленькой численностью населения.

### Столбчатая диаграмма (bar)

`Px.bar` используется для создания столбчатых диаграмм, которые позволяют наглядно отображать табличные данные. В отличие от обычных таблиц, bar chart визуализирует количественные различия между категориями, что делает данные легче для восприятия и сравнения.

Например, для численных данных, таких как численность населения стран, столбцы различной длины показывают соотношение значений, позволяя быстро определить, в какой стране населения больше или меньше.

Основные параметры `px.bar`:

- `data_frame`: принимает DataFrame с данными, на основе которых строится диаграмма. Пример: `data_frame=df`.
- `x`: указывает колонку для оси X, категории которой будут отображены на горизонтальной оси. Пример: `x='country'`.
- `y`: задаёт колонку для оси Y, значения которой будут представлены высотой столбиков. Пример: `y='population'`.
- `color`: используется для разделения столбиков по цветам в зависимости от категории. Пример: `color='region'`.
- `text`: добавляет текстовые подписи к столбикам, например значения высоты. Пример: `text='population'`.
- `title`: устанавливает заголовок для диаграммы. Пример: `title='Население стран Европы'`.
- `labels`: позволяет переименовывать оси или категории для улучшения читаемости. Пример: `labels={'country': 'Страна', 'population': 'Население'}`.
- `hover_data`: добавляет дополнительные данные при наведении на столбики. Пример: `hover_data=['gdp', 'life_expectancy']`.
- `barmode`: режим отображения столбиков. Возможные значения:
  - `'group'` — столбики располагаются рядом (по умолчанию).
  - `'stack'` — столбики накладываются друг на друга. Пример: `barmode='stack'`.
- `opacity`: управляет прозрачностью столбиков, принимая значения от 0 (полностью прозрачные) до 1 (полностью непрозрачные). Пример: `opacity=0.7`.
- `orientation`: определяет ориентацию столбцов: `'v'` (вертикальная, по умолчанию) или `'h'` (горизонтальная). Пример: `orientation='h'`.
- `log_x` и `log_y`: включают логарифмическую шкалу для осей $X$ или $Y$. Пример: `log_y=True`.
- `xaxis_tickangle`: задаёт угол наклона меток оси $X$ для улучшения читаемости. Пример: `xaxis_tickangle=-45`.
- `facet_row` и `facet_col`: создают субграфики на основе указанной категории. Пример: `facet_col='continent'`.

**Пример.** Рассмотрим население стран Европы в 2007 году и отсортируем страны по численности населения. Это поможет понять демографический разброс внутри стран континента. Для этого передадим датасет и укажем нужные колонки, чтобы построить диаграмму.

С помощью `xaxis_tickangle` развернём метки осей для лучшей читаемости. Этот параметр принимает значение от −180 до 180, которое обозначает угол наклона.

In [None]:
# Фильтруем данные по континенту Europe и выбираем конкретный год (например, 2007)
df_europe = df[(df['continent'] == 'Europe') & (df['year'] == 2007)]

# Сортируем данные по численности населения в порядке убывания
df_europe = df_europe.sort_values(by='pop', ascending=False)

# Строим столбчатую диаграмму численности населения внутри Европы
fig = px.bar(df_europe, x='country', y='pop',
             labels={'pop': 'Численность населения', 'country': 'Страна'},
             title='Численность населения в странах Европы в 2007 году (отсортировано)')

# Обновляем визуальные параметры
fig.update_layout(height=500, width=1200,
                  xaxis_tickangle=-45)
fig.show()

Таким образом, мы получили гистограмму стран, отсортированную по числености населения.

[Больше примеров](https://plotly.com/python/bar-charts/)

### Круговая диаграмма

Круговые диаграммы подходят для визуализации данных, которые представляют собой части целого. Они лучше всего работают:

- С частями целого: показывают, как категории влияют на общее значение.
- Категориальными данными: хорошо подходят для небольшого числа категорий (обычно 2–5).
- Процентами: позволяют легко увидеть долю каждой категории.

**Примеры использования**

- Распределение бюджета по категориям.
- Процентное соотношение населения по этническим группам.
- Результаты опросов.

**Основные параметры**

- `data_frame`:	DataFrame (например, Pandas DataFrame), содержащий данные для визуализации.
- `values`:	название колонки в DataFrame, которая содержит числовые значения, представляющие размер каждого сегмента.
- `names`: название колонки в DataFrame, которая содержит категории для меток сегментов.
- `title`:	заголовок графика.
- `color`: 	название колонки, по которой будет окрашиваться сегменты. Это позволяет добавить цветовую кодировку для различных категорий.
- `hover_name`: название колонки, данные из которой будут отображаться при наведении курсора на сегменты.
- `labels`:	словарь для изменения подписей сегментов. Ключи — это названия колонок, а значения — желаемые подписи.
- `hole`: делает из круга пончик. Значение должно быть в диапазоне от 0 до 1, где 0 — это полная круговая диаграмма, а 1 — это кольцевая диаграмма.
- `textinfo`: определяет, какая информация отображается внутри сегментов. Возможные значения:
  - `'label'`: отображает метки категорий.
  -	`'percent'`: отображает проценты.
  -	`'value'`: отображает числовые значения.
  -	Комбинации: например, `'label+percent'`.
- `height` и `width`: размеры.

**Пример.** Построим распределение населения по странам Европейского континента. Это вариант отображения предыдущего графика с акцентом на сравнительный анализ стран в процентном соотношении.

Параметры, которые будем использовать:
1. **`color_discrete_sequence=px.colors.sequential.RdBu`** — меняет цветовую палитру на градиентную (красно-синяя), что улучшает восприятие секторов.
2. **`hole=0.4`** — добавляет «дырку» в центре диаграммы, превращая её в пончиковую диаграмму, которая визуально смотрится компактнее.
3. **`hover_data=['gdpPercap']`** — добавляет дополнительную информацию (ВВП на душу населения) при наведении на сектор диаграммы.

Чтобы визуально разгрузить диаграмму, объединим маленькие по населению страны в один лейбл `Other countries`.

In [None]:
# Загружаем данные и фильтруем их для года 2007 и стран Европы
df = px.data.gapminder().query('year == 2007').query('continent == 'Europe'')

# Объединяем страны с населением менее 2 миллионов в категорию 'Other countries'
df.loc[df['pop'] < 2.e6, 'country'] = 'Other countries'

fig = px.pie(df,
             values='pop',                    # Значения, которые будут отображены как размер секторов (население)
             hole=0.4,                        # Добавляем «дырку» в центре диаграммы
             names='country',                 # Названия секторов (страны)
             hover_data=['gdpPercap'],         # Всплывающие данные о ВВП на душу населения при наведении
             color_discrete_sequence=px.colors.sequential.RdBu,  # Указываем цветовую палитру (красно-синяя)
             labels={                         # Подписи для осей и дополнительных данных
                 'pop': 'Население',
                 'gdpPercap': 'ВВП на душу населения'
             },
             title='Population of European continent',
             width=800,                        # Устанавливаем ширину графика
             height=600                        # Устанавливаем высоту графика
            )


fig.show()

[Больше примеров](https://plotly.com/python/pie-charts/)

### Tree map

Рассмотрим график, который ещё не встречался при изучении `Seaborn`. Рекомендуем покликать по плиткам, чтобы его исследовать! Tree map бывает полезен при создании health maps (карт здоровья сервисов), исследовании и отбражении вложенных древовидных структур. Например, в финансах tree map можно использовать, чтобы отобразить портфель инвестиций и показать долю каждой инвестиции в общей стоимости. Размер прямоугольника может отражать величину инвестиций, а цвет — их производительность.

Параметры:
1. `color_continuous_scale`: задаёт цветовую шкалу, которая будет использоваться для отображения непрерывных данных.
2. `color_continuous_midpoint`: задаёт среднюю точку для цветовой шкалы, на которой будет сосредоточен нейтральный цвет шкалы.
3.  `path`: определяет иерархию данных, которую следует отобразить на диаграмме. Это список колонок из DataFrame, где каждая колонка представляет уровень иерархии.
4. `values`: указывает, какой числовой столбец использовать для расчёта размера прямоугольников. Размер прямоугольников пропорционален этим значениям.

**Пример.** Создадим интерактивный график tree map на основе набора данных Gapminder за 2007 год.

-	**Структура.** Tree map представляет собой иерархическую визуализацию, где каждый блок соответствует стране, а его размер пропорционален населению (значение `pop`).
- **Цветовая палитра.** Цвет каждого блока отражает ожидаемую продолжительность жизни (lifeExp) с использованием градиента от красного к зелёному, где красный обозначает низкую продолжительность жизни, а зелёный — высокую. Цвета также адаптированы к тёмной теме оформления.
- **Дополнительные данные.** При наведении курсора на блоки отображается дополнительная информация об ISO-коде страны.


In [None]:
df = px.data.gapminder().query('year == 2007')

# Создание tree map с тёмной палитрой
fig = px.treemap(df,
                 path=[px.Constant('world'), 'continent', 'country'],
                 values='pop',
                 color='lifeExp',
                 hover_data=['iso_alpha'],
                 color_continuous_scale='RdYlGn', # red, green, yellow
                 color_continuous_midpoint=np.average(df['lifeExp'], weights=df['pop'])
                )

# Обновляем макет c новыми цветами
fig.update_layout(
    margin=dict(t=50, l=25, r=25, b=25),
    template='plotly_dark',  # Тёмная тема
    font=dict(family='Arial', size=12, color='white'),  # Шрифт в духе Grafana
    paper_bgcolor='rgb(30,30,30)',  # Тёмный фон для всего графика
    plot_bgcolor='rgb(30,30,30)',   # Цвет фона в области графика
    title_font=dict(size=20, color='white'),  # Белый текст на тёмном фоне
)

# Толстые белые границы для лучшей видимости
fig.update_traces(marker=dict(line=dict(width=1.5, color='white')))

fig.show()

На графике видно, что более крупные блоки соответствуют странам, где живёт больше людей, такими как Индия и Китай. Они окрашены в более светлые оттенки зелёного, что указывает на высокую продолжительность жизни. Чем меньше размер блока и краснее оттенок, тем ниже уровень ожидаемой продолжительности жизни.

[Больше примеров](https://plotly.com/python/treemaps/)

## Красивые визуализации с Plotly

Финальная цель во всех визуализациях, связанных с `Plotly`, состоит в том, чтобы сделать визуально приятный дашборд. Подробнее об этом можно почитать здесь: https://plotly.com/python/templates/.

Рассмотрим краткую выдержку из этого материала.

### Настройка темы

> В `Plotly` темы реализованы через объекты, которые называются шаблонами (templates).

Шаблоны `Plotly` немного шире традиционных. Они могут не только определять стиль по умолчанию, но также заполнять фигуры визуальными элементами? например: аннотациями, формами, изображениями.

В начале материала ты мог видеть следующую магическую настройку:


```python
custom_template = {
    'layout': {
        'width': 800,
        'height': 350,
    }
}
pio.templates['custom'] = custom_template
pio.templates.default = 'custom'
```

Здесь настраивается шаблон отображения кода — аналог темы для UI-интерфейсов. Это нужно для того, чтобы графики в примерах не занимали много места и не нужно было каждый раз задавать их размер.

Чтобы увидеть информацию о доступных темах и текущей теме по умолчанию, отобрази объект конфигурации `plotly.io.templates`:

In [None]:
import plotly.io as pio
pio.templates

Templates configuration
-----------------------
    Default template: 'custom'
    Available templates:
        ['ggplot2', 'seaborn', 'simple_white', 'plotly',
         'plotly_white', 'plotly_dark', 'presentation', 'xgridoff',
         'ygridoff', 'gridon', 'none', 'custom']

Все функции `Plotly Express` принимают аргумент `template`, который можно установить на имя зарегистрированной темы (или на объект template, который будет обсуждён позже). Пример использования `Plotly Express` для создания и отображения одного и того же графика рассеяния с шестью различными темами:

In [None]:
df = px.data.gapminder()
df_2007 = df.query('year==2007')

width = 500
height = 350

for template in ['plotly', 'plotly_white', 'plotly_dark', 'ggplot2', 'seaborn', 'simple_white', 'none']:
    fig = px.scatter(df_2007,
                     x='gdpPercap', y='lifeExp', size='pop', color='continent',
                     log_x=True, size_max=60,
                     template=template, title='Gapminder 2007: '%s' theme' % template)
    fig.update_layout(width=width, height=height)
    fig.show()

Код создаёт график, показывающий связь между ВВП на душу населения и продолжительностью жизни в 2007 году с разбивкой по континентам. Он демонстрирует, что страны с высоким ВВП имеют высокую продолжительность жизни. Размер точек отражает население, а цветовая кодировка помогает различать континенты. Темы оформления и размеры графика адаптируют его для различных презентаций.

### Подпись элементов

Очень часто при работе с географическими картами, ключевыми показателями и другими акцентными элементами для них требуется подпись.  Для каждого типа графиков можно настраивать подписи элементов.   
Подробная информация по каждому типу графиков [тут](https://plotly.com/python/text-and-annotations/).

Чтобы настроить подпись маркера или любого другого трейса в `scatter`, используется параметр `text`. Он принимает название колонки, значения из которой будут использоваться для подписи точки.

**Пример.** Отметим названия стран на уже знакомом нам графике зависимости ВВП от продолжительности жизни.

С помощью параметра `textposition` можно установить положение текста относительно маркера. В данном случае позиция устанавливается посередине над маркером.

In [None]:
# получаем подвыборку данных
americas = px.data.gapminder().query('year==2007 and continent=='Americas'')

fig = px.scatter(americas,
                 x='gdpPercap',
                 y='lifeExp',
                 text='country',
                 size_max=60)
# регулируем текст
fig.update_traces(textposition='top center')
# добавляем подпсь
fig.update_layout(
    height=800,
    title_text='GDP and Life Expectancy (Americas, 2007)'
)

fig.show()

По данному графику сразу видно, какие из стран впереди по продолжительности жизни (США, Канада), а какие отстают в этом вопросе (Гаити, Боливия).

## Figure Factory и создание таблиц

Модуль `plotly.figure_factory` (кратко `ff`) помогает создавать специализированные графики, которые до появления `Plotly Express` было сложно реализовать с помощью стандартных объектов `Plotly`. Хотя некоторые функции в модуле устарели, они остаются для обратной совместимости. У большинства графиков, созданных с помощью модуля, довольно узкое применение. Однако в моделе есть очень полезная функция — создание таблиц.

Предположим, есть данные о продажах по продуктам в разных регионах. Интерактивная таблица позволит менеджерам по продажам быстро сравнивать продукты, видеть, какие товары лучше всего продаются в каждом регионе и принимать решения о распределении ресурсов.

Функция `ff.create_table`  позволяет легко создавать интерактивные таблицы для визуализации данных, используя структуру, которая поддерживает стилизацию и форматирование.

Параметры:

- `header` (list): список заголовков для столбцов таблицы. Заголовки могут быть представлены в виде строк.
- `cells` (list):	двумерный список, содержащий данные для каждой ячейки таблицы. Каждый подсписок представляет данные для одного столбца.
- `index` (list, optional): список, содержащий метки для индексов строк таблицы. Это может быть полезно, если вы хотите добавить наглядные индексы для строк.
- `title` (str, optional):	заголовок для всей таблицы.
- `font` (dict, optional):	словарь, позволяющий настроить шрифт для заголовков и ячеек таблицы. Пример: `dict(family='Arial', size=12, color='black')`.
- `height` (int, optional):	высота таблицы в пикселях. Это может помочь установить нужный размер для отображения на веб-страницах или в отчётах.
- `colorscale` (list, optional): список цветов для применения к ячейкам таблицы на основе значений данных. Это может помочь визуально выделить ключевые данные.

**Пример.** Создадим простую таблицы для аналитики. Сначала мы создаём датасет, в котором группируем ключевые показатели датасета по стране и получаем датафрейм с результатами. Дальше конвертируем его в лист для передачи в `create_table`, добавляя отдельным элементом названия колонок.

In [None]:
import plotly.figure_factory as ff

# Выбор данных для таблицы
data = df[['country', 'continent', 'gdpPercap', 'lifeExp']].groupby(['country', 'continent']).mean().reset_index()
# Создание таблицы
table_text = [data.columns.tolist()] + data.values.tolist()  # Заголовки + данные
# Создание таблицы с помощью create_table
table = ff.create_table(table_text)
# Отображение таблицы
table.show()

Таким образом, для построения дашборда или презентации любой датафрейм можно сконвертировать в html-таблицу.

 ## Введение в анимацию


 `Plotly Express` поддерживает создание анимированных графиков через аргументы `animation_frame` и `animation_group`.

 ### Как работают эти параметры

- `animation_frame`

Этот параметр указывает, какой столбец использовать для анимации. Каждое уникальное значение в этом столбце создаёт новый кадр в анимации. Этот параметр идеально подходит для временных данных, например, если у вас есть данные по годам или месяцам. С помощью этого параметра вы можете наглядно увидеть, как изменяются ваши данные с течением времени.

Есть очень важное понятие, называемое **кардинальностью**. Скорее всего, все аналитики или разработчики с ним столкнутся в контексте работы с логами. Высокой кардинальностью называется ситуация, в которой у параметра много значений. Например, id клиента обладает высочайшей кардинальностью — сколько клиентов, столько и id. Параметр пола клиента обладает очень низкой кардинальностью, так как у него всего лишь два возможных значения.

Для анимации стоит выбирать параметры с низкой кардинальностью, иначе график будет очень «тяжёлым» или не сгенерируется вообще.

- `animation_group`

Этот параметр помогает связать точки данных между кадрами анимации. Если есть данные о странах и нужно, чтобы каждая страна оставалась на своём месте в разных кадрах, то используют `animation_group`. Это позволяет сохранять идентичность объектов и отслеживать их изменения во времени.

Например, нужно анимировать изменения ВВП на душу населения по странам. Можно установить `animation_frame` на «год», чтобы каждый год был отдельным кадром, а `animation_group` на «страну», чтобы каждая страна оставалась на месте, даже когда кадры переключаются.


**Пример.** В результате запуска этого кода появляется анимированный график, который показывает, как со временем менялись ВВП на душу населения и ожидаемая продолжительность жизни в разных странах. При этом размер пузырьков указывает на численность населения, а цвет помогает выделить различные континенты. Таким образом, мы увидим, как растёт продолжительность жизни по всей планете на протяжении десятилетий.

Мы анимируем данные по годам. Параметр `animation_frame='year'` означает, что каждый уникальный год в датасете будет представлен отдельным кадром (фреймом) анимации.

In [None]:
df = px.data.gapminder()

fig = px.scatter(df, x='gdpPercap', y='lifeExp',
                 animation_frame='year', animation_group='country',
                 size='pop', color='continent',
                 hover_name='country',
                 log_x=True, size_max=55,
                 range_x=[100, 100000], range_y=[25, 90])
fig.show()

Также можно создать анимированные столбчатые диаграммы, указав эти два параметра. Таким образом, мы можем наблюдать динамику роста населения со временем:

In [None]:
# Создаём анимированную столбчатую диаграмму
fig = px.bar(df, x='continent', y='pop',
             color='continent',
             animation_frame='year',
             animation_group='country',
             range_y=[0, 4000000000])
fig.show()

**Ограничения анимации**

-	Анимация работает лучше, когда каждая строка данных присутствует на всех кадрах анимации.
-	Плавные переходы между кадрами в анимации доступны только для разбросов и столбчатых диаграмм.
-	Необходимо вручную указывать диапазоны `x/y/color`, чтобы избежать скачков масштаба между кадрами.


## Работа с картами

`px.scatter_mapbox` и `px.scatter_geo` — это функции библиотеки `Plotly Express`, которые позволяют визуализировать данные на картах. Они используются для создания геопространственных scatter-графиков (графиков из точек), каждый из которых отображает данные немного по-разному. Рассмотрим их подробнее.

Визуализация на картах важна во многих задачах. Например, при исследовании логистических путей, анализа распределения трафика, точек, проходимости.

### `px.scatter_mapbox`

`px.scatter_mapbox` используется для создания точечных диаграмм на основе карт Mapbox. Эта функция подходит для отображения данных на интерактивной карте с использованием точных координат (долготы и широты).

Основные параметры:

-	`lat`: колонка с широтой (latitude).
-	`lon`: колонка с долготой (longitude).
-	`color`: определяет цвет точек, может зависеть от категориальной или числовой переменной.
-	`size`: масштабирует размер точек в зависимости от величины переменной.
-	`zoom`: степень приближения карты.
-	`mapbox_style`: стиль карты (например, `open-street-map`, `carto-positron`, `stamen-terrain`).

Все остальные параметры наследуются от `scatter`, например `color` или `size`.

**Пример.** Отобразим три крупных города и сделаем их размер коррелирующим размеру маркера на графике. Для этого передаём координаты гоородов. В качестве эксперимента поменяй различные параметры в этом примере, чтобы zoom влиял на отображение.

In [None]:
# Пример данных
import pandas as pd
df = pd.DataFrame({
    'city': ['Москва', 'Санкт-Петербург', 'Новосибирск'],
    'lat': [55.7558, 59.9343, 55.0084],
    'lon': [37.6173, 30.3351, 82.9357],
    'population': [11920000, 5351935, 1625600]
})

fig = px.scatter_mapbox(df, lat='lat', lon='lon', hover_name='city',
                        color='population', size='population',
                        zoom=3, height=500, mapbox_style='open-street-map')

fig.show()

Ключевые особенности:

- Карта Mapbox интерактивна: можно её приближать и перемещаться по карте.
- Есть возможность настроить отображение слоёв карты, изменяя параметр `mapbox_style` (поэкспериментируй!).
- Цвет и размер точек можно связать с данными, чтобы подчеркнуть различия между категориями или величинами.

### `px.scatter_geo`

`px.scatter_geo` — это функция для создания точечных диаграмм, которые отображаются на географических проекциях карт. Она больше подходит для глобальных данных, где важны страны, континенты или большие регионы.

Основные параметры:

-	`lat`: колонка с широтой.
-	`lon`: колонка с долготой.
-	`locations`: коды стран (например, `ISO Alpha-3`), используемые для обозначения страны на карте.
-	`projection`: определяет проекцию карты (например, `natural earth`, `orthographic`, `albers usa`).
-	`scope`: устанавливает область карты (например, `world`, `usa`, `europe`).

**Пример.** Отобразим различные страны из уже знакомого датасета. Для этого выберем конкретный год, в качестве локации передадим ISO-код и раскрасим страны в цвет континента.

In [None]:
# Данные о жизни населения в городах
df = px.data.gapminder().query('year == 2007')
# Построение географической карты
fig = px.scatter_geo(df, locations='iso_alpha', color='continent',
                     hover_name='country', size='pop',
                     projection='natural earth')
# Отображение карты
fig.show()

**Ключевые особенности**

- Функция работает с различными географическими проекциями.
- Она поддерживает выбор области карты, что упрощает фокусировку на определённых регионах.
- Использование `locations` с кодами стран позволяет автоматически находить географические точки.

**Сравнение функций**

Сравним функции между собой:

| Функция           | `px.scatter_mapbox`                                  | `px.scatter_geo`                                 |
|-------------------|------------------------------------------------------|-------------------------------------------------|
| **Основана на**    | Картах Mapbox                                        | Географических проекциях                        |
| **Детализация**    | Точные координаты с интерактивной картой             | Поддержка крупных регионов и стран              |
| **Использование**  | Подходит для работы с детальными данными (например, координаты магазинов, событий) | Лучше подходит для глобальных или региональных данных |
| **Проекции**       | Поддержка Mapbox стилей (например, уличные карты)    | Разные типы географических проекций             |
| **Пример данных**  | Широта/долгота с привязкой к конкретным точкам       | Данные с привязкой к странам или регионам       |

## Заключение

- `Plotly` — это библиотека для создания интерактивных графиков, которая позволяет пользователям исследовать данные глубже. Это возможно благодаря увеличению масштаба, изменению параметров и интерактивному анализу.

- Объект `Figure` представляет собой основу для графиков в `Plotly`, объединяя данные, оформление и анимационные кадры, что обеспечивает детальную настройку каждого элемента визуализации.

- `Plotly Express` предоставляет простой и интуитивный интерфейс для быстрого создания базовых графиков, а `Plotly Graph Objects` позволяет тонко настраивать сложные визуализации с помощью низкоуровневого доступа.

- Библиотека поддерживает анимации через параметры `animation_frame` и `animation_group`, что позволяет наглядно отображать изменения данных во времени, однако эффективность зависит от кардинальности параметров.

- Географические визуализации в `Plotly` включают карты на основе Mapbox (`scatter_mapbox`) для детальных координат и проекционные карты (`scatter_geo`) для глобальных данных.

- Специализированные графики, такие как bubble chart, tree map и анимационные scatter-диаграммы, делают `Plotly` мощным инструментом для анализа и представления сложных данных.

- Настройка шаблонов оформления (templates) позволяет упростить процесс создания визуально согласованных графиков, а встроенные стили облегчают интеграцию в дашборды и презентации.

- Работа с таблицами через `Figure Factory` дополняет возможности визуализации, позволяя создавать интерактивные таблицы с данными, что полезно для аналитики и отчётности.


<!--

*  Для создания интерактивных графиков используется библиотека Plotly, которая поддерживает более 40 уникальных типов диаграмм.
*  Работать с библиотекой Plotly можно c помощью интерфейсов Plotly Express и Plotly Graph Objects, JavaScript-библиотеки Plotly.js, онлайн-платформы Plotly Chart Studio.
 -->
