# Интерактивная визуализация с Plotly

**Plotly** — это библиотека Python, используемая для создания **интерактивных визуализаций (графиков и диаграмм)**. В отличие от **Matplotlib** и **Seaborn**, которые создают статические изображения, **Plotly** отображает HTML-документ и использует JavaScript для обеспечения интерактивности. 

Plotly также предлагает большой выбор типов диаграмм на выбор.

В этом уроке мы рассмотрим:

- Создание фигур и добавление интерактивных элементов
- Краткий обзор популярных интерактивных диаграмм
- Использование Plotly в качестве бэкенда для Pandas
- Создание и изучение 3D-графиков
- Добавление элементов управления и анимация графиков

## Создание фигур и добавление интерактивных элементов

Как и пакет **Matplotlib**, **Plotly** предоставляет несколько низкоуровневых функций для создания и настройки фигур. Хотя они обеспечивают детальное управление параметрами графика, но они довольно громоздкие в использовании. 

Мы начнем с использования **Plotly Express**, высокоуровневого API, похожего на **Seaborn**, который позволяет создавать и настраивать диаграммы с помощью одной строки кода.

**Plotly Express** часто импортируется с использованием псевдонима **px**.

In [2]:
import pandas as pd
import numpy as np
import plotly.express as px

Давайте загрузим набор данных о населении по странам из открытых данных **Всемирного банка** (https://mydata.biz/ru/catalog/databases/wdi). Этот набор предварительно обработан и находится в репозитории GitHub нашего курса.



In [3]:
population_csv_url = 'https://github.com/SerjiEvg/data-analysis/raw/main/data/population1.csv'
population_df = pd.read_csv(population_csv_url, index_col='Year')
population_df[:5]

Unnamed: 0_level_0,Aruba,Afghanistan,Angola,Albania,Andorra,Arab World,United Arab Emirates,Argentina,Armenia,American Samoa,...,Virgin Islands (U.S.),Vietnam,Vanuatu,World,Samoa,Kosovo,"Yemen, Rep.",South Africa,Zambia,Zimbabwe
Year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
1960,54211.0,8996973.0,5454933.0,1608800.0,13411.0,92197753.0,92418.0,20481779.0,1874121.0,20123.0,...,32500.0,32670039.0,63689.0,3031438000.0,108629.0,947000.0,5315355.0,17099840.0,3070776.0,3776681.0
1961,55438.0,9169410.0,5531472.0,1659800.0,14375.0,94724510.0,100796.0,20817266.0,1941492.0,20602.0,...,34300.0,33666110.0,65705.0,3072481000.0,112105.0,966000.0,5393036.0,17524533.0,3164329.0,3905034.0
1962,56225.0,9351441.0,5608539.0,1711319.0,15370.0,97334442.0,112118.0,21153052.0,2009526.0,21253.0,...,35000.0,34683407.0,67794.0,3125457000.0,115776.0,994000.0,5473671.0,17965725.0,3260650.0,4039201.0
1963,56695.0,9543205.0,5679458.0,1762621.0,16412.0,100034179.0,125130.0,21488912.0,2077578.0,22034.0,...,39800.0,35721217.0,69946.0,3190564000.0,119559.0,1022000.0,5556766.0,18423161.0,3360104.0,4178726.0
1964,57032.0,9744781.0,5735044.0,1814135.0,17469.0,102832760.0,138039.0,21824425.0,2145001.0,22854.0,...,40800.0,36779999.0,72115.0,3256065000.0,123342.0,1050000.0,5641597.0,18896307.0,3463213.0,4322861.0


Давайте воспользуемся **px.line** для создания линейной диаграммы, например, показывающей население Венгрии (в данных столбец под названием **Hungary**) с 1960 по 2019 год.

In [4]:
?px.line

In [5]:
px.line(population_df['Hungary'], title="Численность населения")

Обратите внимание на следующее:

- `px.line` автоматически выбирает индекс серии в качестве оси X.
- мы можем навести курсор на любую точку на линии, чтобы увидеть точное значение.
- можно увеличивать и уменьшать масштаб с помощью элементов управления, чтобы поближе рассмотреть определенные области диаграммы.
- есть несколько других элементов управления, например панорамирование, автомасштабирование, загрузка PNG и т.д.

Для тонкого управления различными аспектами диаграммы мы можем использовать объект **Figure**, возвращаемый методом **px.line**. Давайте изменим метки осей, цвета диаграммы и убедимся, что ось Y начинается с 0.

In [6]:
fig = px.line(population_df['Hungary'])

In [7]:
# Set axis & legend labels
fig.update_layout(
    title="Year-Wise Population",
    xaxis_title="Year",
    yaxis_title="Population",
    legend_title="Country",
    plot_bgcolor='#ffcc9c',
    font=dict(
        family="Arial",
        size=14,
        color="#cc3e0e"
    )
)

# Start the Y axis from 0
fig.update_yaxes(rangemode='tozero')

Вот список свойств, которые вы можете установить с помощью **update_layout**: https://plotly.com/python/reference/layout/

**Plotly** также имеет встроенную поддержку фреймов данных **Pandas**.

`Примечание. Иногда график fig.show() не отображается в блокноте Jupyter, поэтому вам придется запустить приведенный ниже код в ячейке кода.`

```
#Import necessary libraries
import plotly.offline as pyo
import plotly.graph_objs as go
#Set notebook mode to work in offline
pyo.init_notebook_mode()
```

In [8]:
europe_df = population_df[['Hungary', 'Czech Republic', 'Switzerland']]
europe_df.head()

Unnamed: 0_level_0,Hungary,Czech Republic,Switzerland
Year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1960,9983967.0,9602006.0,5327827.0
1961,10029321.0,9586651.0,5434294.0
1962,10061734.0,9624660.0,5573815.0
1963,10087947.0,9670685.0,5694247.0
1964,10119835.0,9727804.0,5789228.0


In [9]:
fig = px.line(europe_df,
              title='Population', 
              color_discrete_sequence=["aquamarine", "cornflowerblue", "goldenrod"])

fig.update_layout(yaxis_title='Population', 
                  legend_title='Countries', 
                  font_size=14)

fig.update_yaxes(rangemode='tozero')

fig.show()

Обратите внимание, что помимо предоставления шестнадцатеричных кодов RGB для цветов, мы также можем использовать именованные цвета CSS: https://www.w3schools.com/cssref/css_colors.asp

In [10]:
?px.line

Для переключения с линейного графика на гистограмму достаточно просто заменить `plt.line` на `plt.bar`.

In [11]:
px.bar(population_df[['Spain', 'Pakistan']], 
       title="Численность населения", 
       barmode='group')

## Обзор популярных интерактивных диаграмм

**Plotly Express** предоставляет более 30 вариантов для создания различных типов диаграмм. Давайте рассмотрим наиболее популярные методы интерактивной визуализации. 

Мы будем использовать встроенные наборы данных **px.data**, чтобы продемонстрировать их использование.

### Точечная диаграмма

In [12]:
iris_df = px.data.iris()
iris_df

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species,species_id
0,5.1,3.5,1.4,0.2,setosa,1
1,4.9,3.0,1.4,0.2,setosa,1
2,4.7,3.2,1.3,0.2,setosa,1
3,4.6,3.1,1.5,0.2,setosa,1
4,5.0,3.6,1.4,0.2,setosa,1
...,...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica,3
146,6.3,2.5,5.0,1.9,virginica,3
147,6.5,3.0,5.2,2.0,virginica,3
148,6.2,3.4,5.4,2.3,virginica,3


In [13]:
px.scatter(iris_df, 
           x="sepal_width", 
           y="sepal_length", 
           color="species",
           size='petal_length', 
           hover_data=['petal_width'])

### Гистограмма

Мы будем использовать набор данных **medals_long**, который содержит таблицу медалей в олимпийском шорт-треке для трех лучших стран по состоянию на 2020 год.

In [14]:
long_df = px.data.medals_long()
long_df

Unnamed: 0,nation,medal,count
0,South Korea,gold,24
1,China,gold,10
2,Canada,gold,9
3,South Korea,silver,13
4,China,silver,15
5,Canada,silver,12
6,South Korea,bronze,11
7,China,bronze,8
8,Canada,bronze,12


In [15]:
fig = px.bar(long_df, 
             x="nation", 
             y="count", 
             color="medal", 
             title="Олимпийские медали по шорт-треку в конькобежном спорте",
             color_discrete_sequence=["#AF9500", "#B4B4B4", "#6A3805"])
fig.show()

### Древовидная карта и солнечные лучи

In [16]:
gapminder_df = px.data.gapminder().query("year == 2007")
gapminder_df["world"] = "World"
gapminder_df

Unnamed: 0,country,continent,year,lifeExp,pop,gdpPercap,iso_alpha,iso_num,world
11,Afghanistan,Asia,2007,43.828,31889923,974.580338,AFG,4,World
23,Albania,Europe,2007,76.423,3600523,5937.029526,ALB,8,World
35,Algeria,Africa,2007,72.301,33333216,6223.367465,DZA,12,World
47,Angola,Africa,2007,42.731,12420476,4797.231267,AGO,24,World
59,Argentina,Americas,2007,75.320,40301927,12779.379640,ARG,32,World
...,...,...,...,...,...,...,...,...,...
1655,Vietnam,Asia,2007,74.249,85262356,2441.576404,VNM,704,World
1667,West Bank and Gaza,Asia,2007,73.422,4018332,3025.349798,PSE,275,World
1679,"Yemen, Rep.",Asia,2007,62.698,22211743,2280.769906,YEM,887,World
1691,Zambia,Africa,2007,42.384,11746035,1271.211593,ZMB,894,World


In [17]:
fig = px.treemap(gapminder_df, 
                 path=['world','continent', 'country'], 
                 values='pop',
                 color='lifeExp', 
                 color_continuous_scale='RdBu')
fig.show()

In [18]:
fig = px.sunburst(gapminder_df, 
                 path=['continent', 'country'], 
                 values='pop',
                 color='lifeExp', 
                 color_continuous_scale='RdBu')
fig.show()

### Гистограмма и коврики

In [19]:
tips_df = px.data.tips()
tips_df

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.50,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4
...,...,...,...,...,...,...,...
239,29.03,5.92,Male,No,Sat,Dinner,3
240,27.18,2.00,Female,Yes,Sat,Dinner,2
241,22.67,2.00,Male,Yes,Sat,Dinner,2
242,17.82,1.75,Male,No,Sat,Dinner,2


In [20]:
fig = px.histogram(tips_df, 
                   x="total_bill", 
                   color="sex", 
                   marginal="rug", 
                   hover_data=tips_df.columns)
fig.show()

### Полярная карта

In [21]:
wind_df = px.data.wind()
wind_df


Unnamed: 0,direction,strength,frequency
0,N,0-1,0.5
1,NNE,0-1,0.6
2,NE,0-1,0.5
3,ENE,0-1,0.4
4,E,0-1,0.4
...,...,...,...
123,WSW,6+,0.1
124,W,6+,0.9
125,WNW,6+,2.2
126,NW,6+,1.5


In [22]:
fig = px.line_polar(wind_df, 
                    r="frequency",
                    theta="direction", 
                    color="strength", 
                    line_close=True,
                    color_discrete_sequence=px.colors.sequential.Plasma_r,
                    template="plotly_dark")
fig.show()

### Использование Plotly в качестве бэкенда для Pandas

Мы можем настроить **Pandas** для использования **Plotly** в качестве бэкэнда для методов кадров **plot** и рядов данных **Pandas**. Вы можете узнать больше об этом здесь: https://plotly.com/python/pandas-backend/ .

Серверную часть **Plotly** можно включить следующим образом:

In [23]:
pd.options.plotting.backend = "plotly"

Серверная часть `Plotly` поддерживает следующие типы графиков `Pandas : scatter, line, area, bar, barh` и `hist.box` 

Давайте посмотрим на некоторые примеры.

In [24]:
europe_df = population_df[['Germany', 'United Kingdom', 'France', 'Italy']]

europe_df.plot(kind='area', title="Population")

In [25]:
long_df

Unnamed: 0,nation,medal,count
0,South Korea,gold,24
1,China,gold,10
2,Canada,gold,9
3,South Korea,silver,13
4,China,silver,15
5,Canada,silver,12
6,South Korea,bronze,11
7,China,bronze,8
8,Canada,bronze,12


In [26]:
long_df.plot(x='count', 
             y='nation', 
             kind='barh', 
             color='medal', 
             barmode='group', 
             title="Olympic Short Track Speed Skating Medals",
             color_discrete_sequence=["#AF9500", "#B4B4B4", "#6A3805"])

In [27]:
tips_df

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.50,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4
...,...,...,...,...,...,...,...
239,29.03,5.92,Male,No,Sat,Dinner,3
240,27.18,2.00,Female,Yes,Sat,Dinner,2
241,22.67,2.00,Male,Yes,Sat,Dinner,2
242,17.82,1.75,Male,No,Sat,Dinner,2


In [28]:
fig = tips_df.plot('total_bill', 
                   kind='hist', 
                   title="Distribution of Total Bill")
fig.update_layout(bargap=0.1)
fig.show()

In [29]:
tips_df.plot('tip', kind='box', color='sex')

### Создание и изучение 3D-графиков

**Plotly** также можно использовать для создания 3D-графиков. Давайте рассмотрим пример 3D-графиков поверхности, построив высоту горы.

In [30]:
import pandas as pd

z_data = pd.read_csv('https://github.com/SerjiEvg/data-analysis/raw/main/data/elevation.csv', index_col=0)
z_data

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,14,15,16,17,18,19,20,21,22,23
0,27.80985,49.61936,83.08067,116.6632,130.414,150.7206,220.1871,156.1536,148.6416,203.7845,...,49.96142,21.89279,17.02552,11.74317,14.75226,13.6671,5.677561,3.31234,1.156517,-0.147662
1,27.71966,48.55022,65.21374,95.27666,116.9964,133.9056,152.3412,151.934,160.1139,179.5327,...,33.08871,38.40972,44.24843,69.5786,4.019351,3.050024,3.039719,2.996142,2.967954,1.999594
2,30.4267,33.47752,44.80953,62.47495,77.43523,104.2153,102.7393,137.0004,186.0706,219.3173,...,48.47132,74.71461,60.0909,7.073525,6.089851,6.53745,6.666096,7.306965,5.73684,3.625628
3,16.66549,30.1086,39.96952,44.12225,59.57512,77.56929,106.8925,166.5539,175.2381,185.2815,...,60.55916,55.92124,15.17284,8.248324,36.68087,61.93413,20.26867,68.58819,46.49812,0.23601
4,8.815617,18.3516,8.658275,27.5859,48.62691,60.18013,91.3286,145.7109,116.0653,106.2662,...,47.42691,69.20731,44.95468,29.17197,17.91674,16.25515,14.65559,17.26048,31.22245,46.71704
5,6.628881,10.41339,24.81939,26.08952,30.1605,52.30802,64.71007,76.30823,84.63686,99.4324,...,140.2647,81.26501,56.45756,30.42164,17.28782,8.302431,2.981626,2.698536,5.886086,5.268358
6,21.83975,6.63927,18.97085,32.89204,43.15014,62.86014,104.6657,130.2294,114.8494,106.9873,...,122.4221,123.9698,109.0952,98.41956,77.61374,32.49031,14.67344,7.370775,0.03711,0.642339
7,53.34303,26.79797,6.63927,10.88787,17.2044,56.18116,79.70141,90.8453,98.27675,80.87243,...,68.1749,46.24076,39.93857,31.21653,36.88335,40.02525,117.4297,12.70328,1.729771,0.0
8,25.66785,63.05717,22.1414,17.074,41.74483,60.27227,81.42432,114.444,102.3234,101.7878,...,59.19355,42.47175,14.63598,6.944074,6.944075,27.74936,0.0,0.0,0.094494,0.077323
9,12.827,69.20554,46.76293,13.96517,33.88744,61.82613,84.74799,121.122,145.2741,153.1797,...,79.34425,25.93483,6.944074,6.944074,6.944075,7.553681,0.0,0.0,0.0,0.0


Нам нужно использовать низкоуровневый **graph_objects API**, чтобы создать трехмерную поверхность и прикрепить ее к фигуре.

In [31]:
import plotly.graph_objects as go

surface=go.Surface(z=z_data.values)
fig = go.Figure(surface)
fig.update_layout(title='Mt. Bruno Elevation')
fig.show()


**Plotly Express** можно использовать для создания трехмерных линейных и точечных диаграмм.



In [32]:
df = px.data.gapminder().query("country=='Brazil'")
fig = px.line_3d(df, x="gdpPercap", y="pop", z="year")
fig.show()

In [33]:
iris_df

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species,species_id
0,5.1,3.5,1.4,0.2,setosa,1
1,4.9,3.0,1.4,0.2,setosa,1
2,4.7,3.2,1.3,0.2,setosa,1
3,4.6,3.1,1.5,0.2,setosa,1
4,5.0,3.6,1.4,0.2,setosa,1
...,...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica,3
146,6.3,2.5,5.0,1.9,virginica,3
147,6.5,3.0,5.2,2.0,virginica,3
148,6.2,3.4,5.4,2.3,virginica,3


In [34]:
px.scatter_3d(iris_df, 
              x='sepal_length', 
              y='sepal_width', 
              z='petal_width', color='species')

### Добавление элементов управления и анимация графиков

Сюжетные экспресс-графики можно анимировать, указав  столбец **animation_frame**. Кроме того, **animation_group** можно указать для уникальной идентификации объектов в кадрах. Анимированный график также содержит ползунки для перехода к любому кадру.

In [35]:
df = px.data.gapminder()
df

Unnamed: 0,country,continent,year,lifeExp,pop,gdpPercap,iso_alpha,iso_num
0,Afghanistan,Asia,1952,28.801,8425333,779.445314,AFG,4
1,Afghanistan,Asia,1957,30.332,9240934,820.853030,AFG,4
2,Afghanistan,Asia,1962,31.997,10267083,853.100710,AFG,4
3,Afghanistan,Asia,1967,34.020,11537966,836.197138,AFG,4
4,Afghanistan,Asia,1972,36.088,13079460,739.981106,AFG,4
...,...,...,...,...,...,...,...,...
1699,Zimbabwe,Africa,1987,62.351,9216418,706.157306,ZWE,716
1700,Zimbabwe,Africa,1992,60.377,10704340,693.420786,ZWE,716
1701,Zimbabwe,Africa,1997,46.809,11404948,792.449960,ZWE,716
1702,Zimbabwe,Africa,2002,39.989,11926563,672.038623,ZWE,716


In [36]:
df = px.data.gapminder()

fig = px.scatter(df, 
                 x="gdpPercap", 
                 y="lifeExp", 
                 animation_frame="year", 
                 animation_group="country",
#                  size="pop",     
                 color="continent", 
                 hover_name="country",
                 log_x=True, 
                 size_max=80, 
                 range_x=[100,100000], 
                 range_y=[25,90])

fig.show()

In [37]:
tips_df

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.50,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4
...,...,...,...,...,...,...,...
239,29.03,5.92,Male,No,Sat,Dinner,3
240,27.18,2.00,Female,Yes,Sat,Dinner,2
241,22.67,2.00,Male,Yes,Sat,Dinner,2
242,17.82,1.75,Male,No,Sat,Dinner,2


In [38]:
px.box(tips_df, x='sex', y='total_bill', color='smoker', animation_frame='day')