In [1]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
#print(sns.__version__)

✍ Последней (но не по значимости) библиотекой, которую мы рассмотрим в этом модуле, будет [Plotly](https://plotly.com/python/).

### Немного о библиотеке

Библиотека Plotly является сравнительно новым коммерческим продуктом с бесплатной версией, который создавался специально для Data Science, в отличие от относительно старой библиотеки Matplotlib, которая изначально разрабатывалась для научных вычислений.

- Библиотека Plotly позволяет строить интерактивные графики, которые можно приближать, отдалять, а также просматривать значения на графике в реальном времени. К тому же в библиотеке собрано огромнейшее количество красочных методов визуализации. У Plotly приятный дизайн, а способов работы с ней несколько.

- С помощью Plotly можно делать сложные визуализации с элементами управления, например строить интерактивную 3D-визуализацию, карту мира и многое другое.

- Раньше дата-сайентисты использовали Plotly как «тяжёлую артиллерию» по визуализации данных для задач, в которых нужны крайне специфичные графики, которых нет в традиционных библиотеках (например, тепловой карты мира), или в задачах составления красивых дашбордов.

*Это было связано с тем, что традиционный Plotly имеет огромную функциональность со множеством параметров, в которых легко запутаться. Графики в библиотеке строятся иногда десятками строк кода, отрисовываются медленно и очень сильно нагружают видеокарту.*

Сейчас, с появлением новых оптимизированных модулей и надстроек в Plotly ([express](https://plotly.com/python/plotly-express/) и [cufflinks](https://github.com/santosjorge/cufflinks)), которые позволили упростить работу с библиотекой, в отрасли наблюдается тенденция постепенного перехода бизнеса к использованию Plotly при работе с данными, ведь **бесплатную версию библиотеки разрешено применять в коммерческих продуктах**.

Библиотека нуждается в дополнительной установке. Для этого введите в командной строке (или командной строке Anaconda) следующее:

*pip install plotly*
*pip install --upgrade nbformat*

*Примечание. Для того чтобы графики Plotly отображались в VS Code, необходимо установить расширение Jupyter Notebook Renderers*.

In [2]:
# Из библиотеки нам понадобятся модуль express, он традиционно импортируется под псевдонимом px.
# Также импортируем саму библиотеку, чтобы можно было вывести её версию:

import plotly
import plotly.express as px
print(plotly.__version__)

6.0.1


### Экспресс-режим

Plotly позволяет строить графики в нескольких режимах. Мы рассмотрим самый новый и подающий надежды — **экспресс-режим**. Его функциональность скромнее, чем у полного режима Plotly, но нам её будет более чем достаточно. Для работы в экспресс-режиме предназначен модуль plotly.express. Он был выпущен в марте 2019 года и находится в процессе активной разработки.

*Работа с plotly.express напоминает работу с библиотекой Seaborn. Отличие лишь в том, что все настройки графика (размеры, подписи о0ей, текста на графике) прописываются в самом методе.*

С помощью экспресс-режима (px) можно строить уже знакомые нам графики:

- [line()](https://plotly.com/python-api-reference/generated/plotly.express.line.html) — линейные графики;
- [histogram()](https://plotly.com/python-api-reference/generated/plotly.express.histogram.html) — гистограммы;
- [scatter()](https://plotly.com/python-api-reference/generated/plotly.express.scatter) — диаграммы рассеяния;
- [box()](https://plotly.github.io/plotly.py-docs/generated/plotly.express.box.html) — коробчатые диаграммы;
- [bar()](https://plotly.com/python-api-reference/generated/plotly.express.bar.html) — столбчатые диаграммы;
- [pie()](https://plotly.com/python/pie-charts/) — круговые диаграммы.

Также есть множество других графиков — их список вы можете посмотреть в [документации](https://plotly.com/python/).

*Примечание. Дальнейшая работа будет вестись с таблицей covid_df — полными данными о статистике распространения вируса Covid-19, а также о вакцинации в разных странах.*

In [3]:
covid_df = pd.read_csv('data/covid_df.csv')

Рассмотрим процесс визуализации на примере. Посмотрим, как выглядит линейный график, построенный с помощью метода [line()](https://plotly.com/python-api-reference/generated/plotly.express.line) из модуля express. В документации к методу приведена пара десятков его параметров (они схожи с параметрами других методов) — мы приведём основные из них.

Основные параметры метода line()

- **data_frame** — DataFrame, по которому строится график;
- **x** — признак по оси абсцисс;
- **y** — признак по оси ординат;
- **height** — высота графика;
- **width** — ширина графика;
- **title** — название графика.

Построим график роста зафиксированного числа случаев заражения (confirmed), смертей (deaths), выздоровлений (recovered) и активных случаев (active) за всё время. Для этого просуммируем статистику по дням и передадим полученный DataFrame в метод line().

Для отображения созданной методом line() фигуры используется метод fig.show():

In [4]:
line_data = covid_df.groupby('date', as_index=False).sum()
fig = px.line(
    data_frame=line_data, #DataFrame
    x='date', #ось абсцисс
    y=['confirmed', 'recovered', 'deaths', 'active'], #ось ординат
    height=500, #высота
    width=1000, #ширина
    title='Confirmed, Recovered, Deaths, Active cases over Time' #заголовок
)
fig.show()

В результате мы получаем график, который позволяет:

- получать значения признака в отдельных точках в интерактивном режиме (наведите мышку на точку на графике, чтобы посмотреть информацию о её координатах);
- регулировать отображения конкретных признаков с помощью легенды (отключать и включать данные признаки без изменения кода);
- увеличивать фрагменты, выделяя их мышкой или приближая колёсиком мышки;
- сохранять полученный график в формате PNG напрямую из Jupyter Notebook (нажмите на иконку фотоаппарата рядом с графиком).

Давайте рассмотрим ещё один пример — построим столбчатую диаграмму, показывающую ТОП-10 стран по среднему проценту выздоравливающих пациентов (recover_rate). Для этого используем метод [bar()](https://plotly.com/python-api-reference/generated/plotly.express.bar) модуля express. Добавим несколько параметров:

- color — группирующий признак, в соответствии с которым будут раскрашены столбцы диаграммы;
- text — текст, который будет подписан на столбцах диаграммы;
- orientation — ориентация графика ('v' — вертикальная, 'h' — горизонтальная).

In [5]:
covid_df['death_rate'] = covid_df['deaths']/covid_df['confirmed']*100

covid_df['recover_rate'] = covid_df['recovered']/covid_df['confirmed']*100

In [14]:
#считаем средний процент выздоровлений для каждой страны
bar_data = covid_df.groupby(
    by='country',
    as_index=False
)[['recover_rate']].mean().round(2).nlargest(10, columns=['recover_rate'])

#строим график
fig = px.bar(
    data_frame=bar_data, #датафрейм
    x="country", #ось x
    y="recover_rate", #ось y
    color='country', #расцветка в зависимости от страны
    text = 'recover_rate', #текст на столбцах
    orientation='v', #ориентация графика
    height=500, #высота
    width=1000, #ширина
    title='Top 10 Countries for Recovery Rate' #заголовок
)

#отображаем его
fig.show()

*Примечание. В полученных данных вы можете увидеть «страну» Diamond Princess. Напомним, что это круизный лайнер, на котором в начале февраля 2020 года выявили заражённого Covid-19, после чего все пассажиры оказались изолированы на судне из-за карантинных мер. Последние пассажиры сошли на берег лишь 1 марта. Подробнее об этом инциденте вы можете прочитать [здесь](https://www.news-medical.net/news/20210913/An-investigation-of-SARS-CoV-2-infections-among-Australian-passengers-on-the-Diamond-Princess-cruise-ship.aspx).*

А теперь давайте построим что-нибудь, специфичное для библиотеки Plotly. Например, график [treemap()](https://plotly.com/python-api-reference/generated/plotly.express.treemap.html) (древесная, или иерархическая, диаграмма). Такой график используется для исследования показателя, когда число возможных категорий велико (например, число стран в таблице covid_df).

Данный вид диаграммы схож с круговой диаграммой и столбчатой диаграммой, однако, в отличие от них, позволяет вместить информацию о гораздо большем числе категорий, не потеряв при этом информативность.

При построении этого графика выделенное пространство разбивается на прямоугольники, соответствующие величине показателя для каждой из категорий: чем меньше прямоугольник, тем меньше в нём значение показателя.

Основные параметры метода **treemap()**

- **data_frame** — DataFrame, по которому строится график;
- **path** — категориальные признаки (их может быть несколько), в разрезе которых строится диаграмма;
- **values** — показатель, по которому рассчитываются размеры прямоугольников.

Но, как говорится, лучше один раз увидеть, чем сто раз прочитать. Построим иерархическую диаграмму для среднего ежедневного показателя выздоровевших пациентов (daily_recovered) во всех странах.

In [7]:
#считаем среднее ежедневно фиксируемое количество выздоровевших по странам
treemap_data = covid_df.groupby(
    by='country',
    as_index=False
)[['daily_recovered']].mean()

#строим график
fig = px.treemap(
    data_frame=treemap_data, #DataFrame
    path=['country'], #категориальный признак, для которого строится график
    values='daily_recovered', #параметр, который сравнивается
    height=500, #высота
    width=1000, #ширина
    title='Daily Recovered Cases by Country' #заголовок
)

#отображаем график
fig.show()

### Анимация графиков во времени

С помощью plotly.express можно строить даже анимированные графики. Мы рассмотрим только базовые приёмы анимации, но на самом деле это очень интересная и глубокая тема. Если вы захотите, то сможете ознакомиться с ней более детально [здесь](https://plotly.com/python/animations/) и [здесь](https://www.geeksforgeeks.org/animated-data-visualization-using-plotly-express/).

Для нашей задачи отлично подойдёт график под названием [choropleth()](https://plotly.com/python-api-reference/generated/plotly.express.choropleth.html) (тепловая картограмма) — это тепловая карта, которая строится на географической карте мира. Чтобы увидеть, как изменяется значение показателя на карте во времени, можно добавить в график анимацию.

Основные параметры метода **choropleth()**

- **data_frame** — DataFrame, по которому строится график;
- **locations** — название столбца, из которого берутся локации (столбец со странами или регионами);
- **locationmode** — режим геопривязки; определяет, как будет производиться сопоставление данных с картой в Plotly (возможно сопоставление по названию страны, "country_name", или по её трёхзначному шифру, согласно международному стандарту ISO-3);
- **range_color** — диапазон изменения цвета;
- **animation_frame** — анимирующий признак, изменяя который, мы получаем визуализацию во времени;
- **color_continuous_scale** — цветовая палитра.
- 
Итак, построим фоновую картограмму, которая покажет распространение (confirmed) коронавируса в мире во времени.

Предварительно для правильного отображения на анимационном бегунке даты в таблице covid_df необходимо перевести обратно в строковый тип данных.

In [8]:
#преобразуем даты в строковый формат
choropleth_data = covid_df.sort_values(by='date')
choropleth_data['date'] = choropleth_data['date'].astype('string')

#строим график
fig = px.choropleth(
    data_frame=choropleth_data, #DataFrame
    locations="country", #столбец с локациями
    locationmode = "country names", #режим сопоставления локаций с базой Plotly
    color="confirmed", #от чего зависит цвет
    animation_frame="date", #анимационный бегунок
    range_color=[0, 30e6], #диапазон цвета
    title='Global Spread of COVID-19', #заголовок
    width=800, #ширина
    height=500, #высота
    color_continuous_scale='Reds' #палитра цветов
)

#отображаем график
fig.show()

### Трёхмерная визуализация

Настало время познакомиться с 3D-визуализацией.

На самом деле общий принцип построения 3D-графиков ничем не отличается от построения обычных. Просто добавляется ещё один параметр — ось z (ось аппликат).

Давайте рассмотрим пример.

Построим 3D-диаграмму рассеяния, которая покажет, как число ежедневно обнаруживаемых случаев и число ежедневных смертей влияют на желание людей вакцинироваться. Для того чтобы нам было проще рассматривать диаграмму (точки будут более сгруппированными), построим её в логарифмическом масштабе по осям абсцисс и ординат.

Для построения такой диаграммы используем метод [scatter_3d()](https://plotly.com/python-api-reference/generated/plotly.express.scatter_3d). Добавим несколько параметров:

- **z** — параметр по оси аппликат;
- **log_x** — установка логарифмического масштаба по оси x;
- **log_y** — установка логарифмического масштаба по оси y.
- 
Чтобы не перегрузить график, будем строить зависимость только в нескольких странах: США, России, Великобритании, Бразилии и Франции. Наблюдения для каждой страны окрасим разными цветами.

In [9]:
# фильтруем таблицу по странам
countries=['United States', 'Russia', 'United Kingdom', 'Brazil', 'France']
scatter_data = covid_df[covid_df['country'].isin(countries)]

#строим график
fig = px.scatter_3d(
    data_frame=scatter_data, #DataFrame
    x = 'daily_confirmed', #ось абсцисс
    y = 'daily_deaths', #ось ординат
    z = 'daily_vaccinations', #ось аппликат
    color='country', #расцветка в зависимости от страны
    log_x=True, 
    log_y=True,
    width=1000,
    height=700
)

#отображаем график
fig.show()
fig.write_html("plotly/scatter_3d.html")

#### Сохранение графика plotly

Чтобы сохранить интерактивный график, построенный в библиотеке Plotly, чаще всего используется метод фигуры **fig.write_html('path/to/file.html')**, который сохраняет график в формате HTML, после чего вы можете вставлять его на свой сайт, в веб-приложение или просто делиться им с коллегами. 

Сохраним график трёхмерной диаграммы рассеяния:

In [10]:
fig.write_html("plotly/scatter_3d.html")

В результате в папке *plotly* (которую необходимо создать заранее) у вас появится файл с графиком.

✍ В библиотеке Plotly насчитываются десятки различных графиков и сотни возможных настроек к ним. В этом юните мы лишь прикоснулись к этой сокровищнице, погружаться ли в неё с головой — решать вам.

Принципы построения других базовых типов графиков вы можете найти [здесь](https://plotly.com/python/basic-charts/), 

а все способы визуализации статистических показателей и зависимостей перечислены [здесь](https://plotly.com/python/statistical-charts/).

In [11]:
# Постройте линейный график, который отображает, как изменялось ежедневное количество вакцинированных (daily_vaccinations) 
# в мире во времени. 
# Из графика найдите, чему равно количество вакцинированных (в миллионах) 28 февраля 2021 года (2021-02-28). 
# Ответ округлите до целого числа.



line_data = covid_df.groupby('date', as_index=False).sum()

fig = px.line(
    data_frame=line_data, #DataFrame
    x='date', #ось абсцисс
    y=['daily_vaccinations'], #ось ординат
    height=500, #высота
    width=1000, #ширина
    title='ежедневное количество вакцинированных' #заголовок
)
fig.show()

In [12]:
# Постройте анимированную тепловую картограмму для числа поставленных вакцин во всём мире (total_vaccinations). 
# На полученной карте найдите, чему равно количество вакцинированных в Японии (Japan) на 24 марта 2021 года (2021-03-24). 
# Ответ приведите в тысячах (без нулей) и округлите до целого числа.

#преобразуем даты в строковый формат
choropleth_data = covid_df.sort_values(by='date')
choropleth_data['date'] = choropleth_data['date'].astype('string')

#строим график
fig = px.choropleth(
    data_frame=choropleth_data, #DataFrame
    locations="country", #столбец с локациями
    locationmode = "country names", #режим сопоставления локаций с базой Plotly
    color="total_vaccinations", #от чего зависит цвет
    animation_frame="date", #анимационный бегунок
    range_color=[0, 30e6], #диапазон цвета
    title='Global Spread of COVID-19', #заголовок
    width=800, #ширина
    height=500, #высота
    color_continuous_scale='Reds' #палитра цветов
)

#отображаем график
fig.show()